关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

目前mysql按地区,商业区区分,假设读取mysql数据库的地区,根据地区划分

我昨天和领导沟通了,领导说点击率不是必要条件,地区划分才是重点,后面就是各方面劝导,只好以地区区分,关键是这个镇区区分数据和产品的话,全国有6k多个地区,

这样的hdfs文件夹数量,岂不是很崩溃,

后面感觉还有很多纬度和条件查询啥的,上头又喊了一句不一定要用hadoop,发挥hadoop啥啥优势,mysql多条件查询方便,好好做这个方案,然后我就一头雾水了,心里比较纠结和郁闷。最近搞mahout出了点成绩,发现单机版也挺好使(数据量少的前提下),搜了搜房子,北京也就519,059这么多套房子在待售,没啥必要用hadoop,自我感觉,如果只是单独分析这些条数据519,059条,感觉不大,

如果你有好的博客和资源提供,麻烦提供url连接,谢谢

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
hadoop文件夹上传问题
问题描述: java.net.NoRouteToHostException: 没有到主机的路由 at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method) at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)
hadoop api及Hadoop结构与设计
本资料详细介绍了Hadoop分布式文件系统的结构与设计,并且还提供了一个haddop 的api帮助大家学习。
hadoop 删除文件、文件夹
要从HDFS中删除文件,可以使用以下命令: hadoop fs -rm -r -skipTrash /path_to_file/file_name 要从HDFS中删除文件夹,可以使用以下命令: hadoop fs -rm -r -skipTrash /folder_name...
hadoop 文件夹权限问题
log日志目录 hadoop 2.8.5 默认文件系统dfs在tmp目录   所以当前用户需要有对tmp目录和log目录的读写权限 chmod -R 777 tmp chmod -R 777 log    
关于hadoop端口的问题
在所有的进程启动之后除了用jps命令看看后台进程是否启动之外,还想用web界面验证 在登录namenode的界面的时候发现这个问题 但是其他的都是对的,从这个报错上来看应该后台进程起作用了,但是感觉好像端口制定的不对,所以,我决定重新设置一下端口在设置的时候要注意,最好把所有的相关进程都关掉再设置,或者设置完之后重启所有相关的进程的。 还有,修改完配置文件要把它们分发到其它机器上,不能光改
关于run on hadoop的问题
我在eclipse上点击run on hadoop跑M/R程序,后来发现是在本地跑,通过8088端口查看并没有job显示。后来参考网上在程序里加了 conf.set("mapreduce.framework.name", "yarn");  conf.set("yarn.resourcemanager.address", "master:8032"); 但又有新的问题:在8088端口查看:是必须...
关于Hadoop的问题!
关于hadoop 环境搭建问题
我按照视频搭建环境,但是在执行wordcount时遇到这个问题:rn[root@127 hadoop-1.2.1]# bin/hadoop jar hadoop-examples-1.2.1.jar wordcount in outrnrn14/08/17 21:23:19 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 0 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:20 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 1 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:21 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 2 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:22 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 3 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:23 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 4 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:24 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 5 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:25 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 6 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:26 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 7 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:27 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 8 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:28 INFO ipc.Client: Retrying connect to server: 192.168.30.131/192.168.30.131:9001. Already tried 9 time(s); retry policy is RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1 SECONDS)rn14/08/17 21:23:28 ERROR security.UserGroupInformation: PriviledgedActionException as:root cause:java.net.ConnectException: Call to 192.168.30.131/192.168.30.131:9001 failed on connection exception: java.net.ConnectException: Connection refusedrnjava.net.ConnectException: Call to 192.168.30.131/192.168.30.131:9001 failed on connection exception: java.net.ConnectException: Connection refusedrn at org.apache.hadoop.ipc.Client.wrapException(Client.java:1142)rn at org.apache.hadoop.ipc.Client.call(Client.java:1118)rn at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:229)rn at org.apache.hadoop.mapred.$Proxy2.getProtocolVersion(Unknown Source)rn at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)rn at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)rn at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)rn at java.lang.reflect.Method.invoke(Method.java:483)rn at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:85)rn at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:62)rn at org.apache.hadoop.mapred.$Proxy2.getProtocolVersion(Unknown Source)rn at org.apache.hadoop.ipc.RPC.checkVersion(RPC.java:422)rn at org.apache.hadoop.mapred.JobClient.createProxy(JobClient.java:559)rn at org.apache.hadoop.mapred.JobClient.init(JobClient.java:498)rn at org.apache.hadoop.mapred.JobClient.(JobClient.java:479)rn at org.apache.hadoop.mapreduce.Job$1.run(Job.java:563)rn at java.security.AccessController.doPrivileged(Native Method)rn at javax.security.auth.Subject.doAs(Subject.java:422)rn at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1190)rn at org.apache.hadoop.mapreduce.Job.connect(Job.java:561)rn at org.apache.hadoop.mapreduce.Job.submit(Job.java:549)rn at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:580)rn at org.apache.hadoop.examples.WordCount.main(WordCount.java:82)rn at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)rn at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)rn at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)rn at java.lang.reflect.Method.invoke(Method.java:483)rn at org.apache.hadoop.util.ProgramDriver$ProgramDescription.invoke(ProgramDriver.java:68)rn at org.apache.hadoop.util.ProgramDriver.driver(ProgramDriver.java:139)rn at org.apache.hadoop.examples.ExampleDriver.main(ExampleDriver.java:64)rn at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)rn at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)rn at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)rn at java.lang.reflect.Method.invoke(Method.java:483)rn at org.apache.hadoop.util.RunJar.main(RunJar.java:160)rnCaused by: java.net.ConnectException: Connection refusedrn at sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)rn at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:712)rn at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)rn at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:511)rn at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:481)rn at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:457)rn at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:583)rn at org.apache.hadoop.ipc.Client$Connection.access$2200(Client.java:205)rn at org.apache.hadoop.ipc.Client.getConnection(Client.java:1249)rn at org.apache.hadoop.ipc.Client.call(Client.java:1093)rn ... 33 morernrnrnrnrn我主机设置为192.168.30.131rnrn配置文件分别是:rn[root@127 conf]# cat core-site.xmlrnrnrnrnrnrnrnrnfs.default.namernhdfs://192.168.30.131:9000rnrnrnrnhadoop.tmp.dirrn/home/jichaow/hadooprnrnrnrnrn[root@127 conf]# cat mapred-site.xmlrnrnrnrnrnrnrnrnmapred.job.trackerrn192.168.30.131:9001rnrnrnrnrnrn[root@127 conf]# cat mastersrn192.168.30.131rnrn[root@127 conf]# cat slavesrn192.168.30.133rnrnrn谁能帮我看看问题出在哪里? 多谢
关于hadoop性能测试的问题
本人搭建了一个伪分布式系统 有三台机器组成的 分别为hdp0 hdp1 hdp1 其中 hdp0为namenode 其他两个为datanode。搭建的时候 格式化和启动时正常的 但是为什么我要用 TestDFSIO测试运行到下面这样就卡主不动了呢 ,求指导 谢谢rnhadoop@hdp0:~/hadoop-0.20.203.0$ bin/hadoop jar hadoop-test-0.20.203.0.jar TestDFSIO -read -nrFiles 10 -fileSize 100rnTestDFSIO.0.0.4rn12/03/27 00:26:05 INFO fs.TestDFSIO: nrFiles = 10rn12/03/27 00:26:05 INFO fs.TestDFSIO: fileSize (MB) = 100rn12/03/27 00:26:05 INFO fs.TestDFSIO: bufferSize = 1000000rn12/03/27 00:26:06 INFO fs.TestDFSIO: creating control file: 100 mega bytes, 10 filesrn12/03/27 00:26:07 INFO fs.TestDFSIO: created control files for: 10 files
关于Hadoop
数据存储方案 数据仓库解决方案(DWH):DB2,Oracle,SQL Server SSRS NoSQL: MongoDB,Redis,Cassandra 内存数据库:SAP HANA,Exasol EXASolution Hadoop生态:Hive,Hbase,Impala Hadoop hadoop常见版本分为开源版,发行版: 开源版:适合公司团队使用,可以修改代码成自己适合的版本 发行...
关于hadoop
hadoop是一个开源的项目框架,基于大数据和云计算。用户不必考虑其底层架构如何实现的,可是之间在上面添加自己所需功能。以上是我对hadoop的认知。我目前想在上面做一个文件的上传下载功能,请问我需要了解哪些hadoop的知识,除了ndfs和mapredus
 [问题]mysql数据同步到hadoop上
[b]问题描述:[/b] rn利用mysql数据库的触发器将数据库新增的数据同步更到hadoop中。 rn rn之前在网上自己检索,看到了一些将mysql数据导入到hadoop的工具:dump,sqoop,但他们都是对数据库的全部导出。而并非实时导出。后来看到一个Applier,但这个网上的教程由特别简单,而且目前处于测试阶段。 rn rn所以想请教一下,各位有没有什么好的解决方案,多谢多谢。
hadoop 安全设计
hadoop安全设计,kerberos、MapReduce安全面临的问题以及解决方案
hadoop分布式文件系统架构与设计
hadoop架构与设计
Hadoop的JobControl设计及用法
JobControl设计及用法 1、JobControl设计原理分析: JobControl由两个类组成:Job和JobControl。 Job类封装了一个MapReduce作业及其对应的依赖关系,主要负责监控各个依赖作业的运行状态,一次更新自己的状态。 作业刚开始处于WAITING状态。如果没有依赖作业或者所有作业均已运行完成,则进入READY状态。一旦进入REDAY状态,则
Hadoop分布式文件系统_结构与设计
Hadoop分布式文件系统(HDFS)是一个设计为用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不同。
Hadoop分布式文件系统 架构和设计
Hadoop分布式文件系统 架构和设计,Hadoop分布式文件系统 架构和设计
Hadoop(六)--->核心设计
1、安全模式(safemode) NameNode在启动时自动进入安全模式,也可手动操作,当在安全模式时,会检查数据完整性。 命令: hadoop dfsadmin -safemode leave 强制退出 enter 进入
hadoop的hdfs的设计
一、hdfs的设计,hdfs以流式数据访问模式来存储超大文件 1:hdfs的构建思路,一次写入,多次读取 2:hdfs是为高数据吞吐量应用优化的,这可能会以提高时间延迟为代价 3:由于namenode将文件系统的元数据存储在内存中,因此该文件系统所能存储的文件总数受限于namenode的内存容量。(大量的小文件) 4:hdfs中的文件可能只有一个writer,而且写操作总是将数据添加在...
hadoop与MySQL的交互
如下介绍hadoop通过MR实现从MySQL中读写数据 说明:本文介绍中共有两张表:words 和 state,演示从words中读取单词,经过MR运算后得到单词数量,然后写入 state 表。 代码如下 MyDbWritable(与数据库交互的核心类) /** * MyDbWritable * > value */ public class My...
使用hadoop读写mysql
与mongodb相比,hadoop提供了内置的输入输出库DBInputFormat和DBOutputFormat,但是依然要使用JDBC驱动包com.mysql.jdbc.Driver。没有的可以去http://www.mysql.com/products/connector/ 下载。下下来后,只要把该包放在项目路径下即可,切莫在文件中import该包中内容,只要import java.sql.*
hadoop 从mysql读取数据
小弟编写了一个简单的MapReduce程序从mysql读取数据,运用eclipse运行显示有23个输入路径,数据也读取了23遍,不知道这是为什么啊?有木有人帮小弟解决一下,谢谢![img=https://img-bbs.csdn.net/upload/201404/19/1397889701_3169.png][/img]
Hadoop、hive 、MySQL
Hadoop、hive 、MySQL
Hadoop mysql读写操作
使用DBWritable完成同mysql交互 create database big4 ; use big4 ; create table words(id int primary key auto_increment , name varchar(20) , txt varchar(255)); insert into words(name,txt) values('tom...
Windows下hadoop替换的bin文件夹
Windows下开发需要将共享的bin目录覆盖hadoop原有bin目录。如果还不行,将共享bin目录下的hadoop.dll复制到c:\windows\system32目录下,可能需要重启机器
hadoop下无法创建testdata文件夹
上图:rn[img=https://img-bbs.csdn.net/upload/201501/19/1421664795_222536.png][/img]rn我已经把hadoop启动了,输入jps也有5个进程。rn然后就如图所示,进入了hadoop-2.6.0/bin里,执行hadoop fs -mkdir testdata,但就是不行。。。rn请问这是为什么?
hadoop问题
$ hadoop dfs -ls 12/08/25 01:48:31 INFO ipc.Client: Retrying connect to server: localhost/127.0.0.1:9000. Already tried 0 time(s). 12/08/25 01:48:33 INFO ipc.Client: Retrying connect to server: loca...
hadoop安装后的新建hadoop文件夹的问题
hadoop安装后的新建hadoop文件夹的问题 本人是直接拷贝老师的虚拟机在电脑上安装的hadoop,所以之前的一些安装问题并不知晓 之前的安装可以查看链接https://blog.csdn.net/quintind/article/details/77861666 这是安装好镜像文件的hadoop下的文件: 可以明显看到是没有hadoop文件夹的,所以需要自己新建 hadoop fs -mk...
kylin hadoop yarn 文件夹空间不足问题
先看我的yarn-site.xml配置 <configuration> <!-- Site specific YARN configuration properties --> <property> &
关于虚拟机搭建Hadoop环境,自学Hadoop
自己用虚拟机搭建Hadoop开发环境,想跟着视频自学。rn发现没有服务器的支持总是觉得怪怪的,只是跟着视频敲打一些常用命令。想问下各位在没有服务器的支持下,是如何学习Hadoop的? rn求教一些建议,麻烦给小弟指点迷津。
Hadoop官方文档 Hadoop快速入门
该文档的目的是帮助你快速完成单机上的Hadoop的安装和使用以便你对Hadoop的分布式文件系统(HDFS)和Map-Reduce算法有所体会,比如在HDFS上运行简单示例和作业。
Hadoop 第一课 了解hadoop
hadoop:大数据的分析管理工具之一。官网:http://hadoop.apache.org/Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点: 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数
【HADOOP】hadoop的单机模式部署
为了补充技术上的落差,开始学习hadoop,首先搭建一个学习的平台。 我用的是vm的虚拟机,ubuntu server的15.10版本,hadoop版本是2.2.0。 已经装好的jdk和ssh, 首先设置好ssh的免密码登录,否则会很麻烦,相关设置请自行百度。 首先上传hadoop的包到虚拟机。 然后解压缩到我创建的cloud目录中, 首先修改hadoop-env.sh文件,需要修
Hadoop - Hadoop开发环境搭建
卸载JDK 查看当前jdk信息  rpm -qa|grep jdk 卸载 rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.66.1.13.0.el6.x86_64 安装JDK 将JDK放置在/usr/local/java中 配置环境变量 export JAVA_HOME=/usr/local/java/jdk1.8.0_45
Hadoop介绍--Hadoop的家族
Hadoop家族介绍Apache Hadoop:是Apache开源组织的一个分布式计算开源框架,提供了一个分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构,已成为一个完整的生态系统。支持的操作系统:Windows、Linux和OS XApache Hive: 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的M...
【Hadoop二】Hadoop常用命令
以Hadoop运行Hadoop自带的wordcount为例,   hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop,需要说明的是,这些命令的使用必须在Hadoop已经运行的情况下才能执行   Hadoop HDFS相关命令  hadoop fs -ls  列出HDFS文件系统的第一级文件和第一级目录,如:   hadoop@had...
Hadoop实战(Hadoop in Action)
Hadoop实战(Hadoop in Action)。英文清晰PDF版。揭开云计算的神秘面纱 海量数据分布式处理框架。
hadoop
NULL 博文链接:https://arlenye.iteye.com/blog/2212368
Hadoop系列--Hadoop介绍(Hadoop是什么)
1 Hadoop概述Hadoop项目的目标是建立一个可扩展开源软件框架,能够对大数据进行可靠的分布式处理。   Hadoop框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。HDFS是一个分布式文件系统,具有低成本、高可靠性性、高吞吐量的特点。MapReduce是一个编程模型和软件框架。   简单理解,Hadoop是一个
搜索引擎hadoop(搜索引擎hadoop)
入门Hadoop开发者.pdf 用_Hadoop_进行分布式并行编程.doc 《Hadoop开发者》第三期.pdf 《Hadoop开发者》第一期.pdf hadoop集群配置.pdf hadoop开发者第二期.pdf Hadoop权威指南(原版).pdf hadoop权威指南前三章中文.pdf