2 u010991835 u010991835 于 2016.03.23 15:50 提问

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

目前mysql按地区,商业区区分,假设读取mysql数据库的地区,根据地区划分

我昨天和领导沟通了,领导说点击率不是必要条件,地区划分才是重点,后面就是各方面劝导,只好以地区区分,关键是这个镇区区分数据和产品的话,全国有6k多个地区,

这样的hdfs文件夹数量,岂不是很崩溃,

后面感觉还有很多纬度和条件查询啥的,上头又喊了一句不一定要用hadoop,发挥hadoop啥啥优势,mysql多条件查询方便,好好做这个方案,然后我就一头雾水了,心里比较纠结和郁闷。最近搞mahout出了点成绩,发现单机版也挺好使(数据量少的前提下),搜了搜房子,北京也就519,059这么多套房子在待售,没啥必要用hadoop,自我感觉,如果只是单独分析这些条数据519,059条,感觉不大,

如果你有好的博客和资源提供,麻烦提供url连接,谢谢

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Hadoop和关系数据库之间的数据流通
Sqoop可以在Hadoop和关系数据库之间拷贝数据。在很多方面,它和Hadoop的交互方式与Hive和Hadoop的交互方式完全相同 下载和配置Sqoop 下载已编译包到/usr/local,建立符号链接并更新环境变量。 $ ln -s sqoop-xx.tar.gz sqoop $ export SQOOP_HOME=/usr/local/sqoop $ export PATH=${
hadoop的权限控制
HDFS支持权限控制,但支持较弱。HDFS的设计是基于POSIX模型的,支持按用户、用户组、其他用户的读写执行控制权限。在linux命令行下,可以使用下面的命令修改文件的权限、文件所有者,文件所属组:  hadoop fs –chmod (修改文件所有者,文件所属组,其他用户的读、写、执行权限)  haddop fs –chown  (修改文件所有者)  hadoop fs –chgrp  
关于run on hadoop的问题
我在eclipse上点击run on hadoop跑M/R程序,后来发现是在本地跑,通过8088端口查看并没有job显示。后来参考网上在程序里加了 conf.set("mapreduce.framework.name", "yarn");  conf.set("yarn.resourcemanager.address", "master:8032"); 但又有新的问题:在8088端口查看:是必须...
Hadoop IO流基本操作
Hadoop IO流基本操作
学习Hadoop时遇到的问题以及解决方法
一、 问题: 本人在伪分布HDFS中学习,每次重启电脑的时候,在执行sbin/start-dfs.sh启动HDFS之前都需要执行bin/hadoop namenode -format命令才能启动。并且每次启动之后都发现之前在HDFS系统中的文件夹和文件都不见了! 原因: namenode的存储路径是在/tmp/hadoop-**,所以系统在关闭之后都会清除掉这里面的数据。 解决: 修改
hadoop编程run on hadoop的问题
有的时候,使用eclipse进行map/reduce工程开发程序,如最简单的WordCount程序,当我们使用run on hadoop的时候,正常情况下,会弹出一个窗口"Select Hadoop location" 但有的时候,由于eclipse版本或hadoop-plugin的问题等,不弹出这个界面,而是直接以eclipse中配置的本地hadoop位置,如下
Hadoop(二)答辩问题+答案
--------------------------------------------------------------------------------------hadoop 常见问题:1.压缩的几种方式?怎么设置的?default gzip bzip2 lz0 snappy使用怎么设置?map端设置  reduce端即使MapReduce应用使用非压缩的数据来读取和写入,我们也可以受益...
hadoop集群搭建-Mysql安装
## 安装的版本是MySQL-5.6.22-1.el6.i686.rpm-bundle.tar 其他版本安装步骤基本一致,官网进行下载## 1.查看CentOS自带的mysql 1 1.1输入:rpm-qa|grep-imysql 2.将自带的mysql卸载 2.1输入: rpm -e –nodeps mysql-XXXX.i686 3.删除原旧版本剩余的文件 rm -rf
基于Hadoop的大数据平台实施记——整体架构设计
大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星。我们暂不去讨论大数据到底是否适用于您的组织,至少在互联网上已经被吹嘘成无所不能的超级战舰。好像一夜之间我们就从互联网时代跳跃进了大数据时代!关于到底什么是大数据,说真的,到目前为止就和云计算一样,让我总觉得像是在看电影《云图》——云里雾里的感觉。或许那些正在向你推销大数据产品的公司会对您描绘一幅乌托邦似的美丽画面,但是您至少要保
hadoop dns解析
因为 hadoop 集群之间通过主机名互相访问,所以必须设置 dns 解析。使用 gedit 编辑 dns 解析文件 在文本最后追加一行, “192.168.80.100 hadoop” ,注意 ip 与主机名之间使用空格分2016-07-31 21:47:24,985 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: java.net