关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

关于mysql和hadoop数据交互的问题,和hadoop的文件夹设计

目前mysql按地区,商业区区分,假设读取mysql数据库的地区,根据地区划分

我昨天和领导沟通了,领导说点击率不是必要条件,地区划分才是重点,后面就是各方面劝导,只好以地区区分,关键是这个镇区区分数据和产品的话,全国有6k多个地区,

这样的hdfs文件夹数量,岂不是很崩溃,

后面感觉还有很多纬度和条件查询啥的,上头又喊了一句不一定要用hadoop,发挥hadoop啥啥优势,mysql多条件查询方便,好好做这个方案,然后我就一头雾水了,心里比较纠结和郁闷。最近搞mahout出了点成绩,发现单机版也挺好使(数据量少的前提下),搜了搜房子,北京也就519,059这么多套房子在待售,没啥必要用hadoop,自我感觉,如果只是单独分析这些条数据519,059条,感觉不大,

如果你有好的博客和资源提供,麻烦提供url连接,谢谢

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Hadoop————与MySql的交互以及Hive加强
1、与MySql的交互 数据仓库 OLAP //online analyze process,在线分析处理,延迟性高。 数据库 OLTP //online transaction process在线事务处理,实时性好。 1.1 数据库的连接 1.创建mysql数据库和表 create table users(id int primary k...
大数据环境---数据仓库(hive+mysql+hadoop)的构建
       前面已经配置好了集群环境zookeeper,hadoop。 以及分布式数据库hbase。 这个阶段要开始构建数据仓库的练习。涉及到的软件: mysql, hive 。        背景:                 (我以前以为数据仓库就是数据库的数据库。。)          可见,hive本质是一个hadoop的工具。     mysql自然不必过多再去查询了...
安装hadoop mysql驱动包问题
https://blog.csdn.net/shenliang1985/article/details/51478151
Hadoop---目录结构介绍
Hadoop---目录结构介绍           Hadoop---目录结构介绍   1.Hadoop目录结构   1.一级目录介绍          2.etc详解:          3sbin         4.bin         5.share              6.一个数独测试          2.hadoop的历史               ...
Hadoop学习遇到的常见错误以及解决方法
问题1 由于多次format namenode节点导致  namdenode 的 namespaceID 与  datanode的namespaceID 不一致,从而导致namenode和 datanode的断连。解决: 1、先将Hadoop所有服务停止,stop-all.sh 2、在自己设置的临时文件夹(tmp/dfs/)中将data文件夹删除 ...
hadoop常见问题汇总
本文汇总了几个hadoop yarn中常见问题以及解决方案,注意,本文介绍解决方案适用于hadoop 2.2.0以及以上版本。(1) 默认情况下,各个节点的负载不均衡(任务数目不同),有的节点很多任务在跑,有的没有任务,怎样让各个节点任务数目尽可能均衡呢?答: 默认情况下,资源调度器处于批调度模式下,即一个心跳会尽可能多的分配任务,这样,优先发送心跳过来的节点将会把任务领光(前提:任务数目远小于集...
配置hadoop HIVE元数据保存在mysql中
先确保已经成功安装了HIVE和MYSQL 在hive-site.xml中添加如下内容,指定METASTORE的地址以及连接方式 刚安装好hive,conf下是没有hive-site.xml文件的,需要复制  hive-default.xml为hive-site.xml。然后再进行修改。       javax.jdo.option.ConnectionURL 
hadoop日志分析系统
环境:centos7+hadoop2.5.2+hive1.2.1+mysql5.6.22+indigo service 2 思路:hive加载日志→Hadoop分布式执行→需求数据进入MySQL 注意:hadoop日志分析系统网上资料很多,但是大多都有写小问题,无法顺利运行,但本文中都是经过亲自验证的,可以一气呵成。另外还包括可能遇到的异常的详细解释及相关解决方案。 1) 日志格
hadoop job解决大数据量关联时数据倾斜的一种办法
数据倾斜是指,map /reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。 用hadoop程序进行数据关联时,常碰到数据倾斜的情况,这里提供一种解决方
虚拟机部署hadoop遇到问题总结
部署hadoop参考文件:http://www.powerxing.com/install-hadoop/1、报错:/etc/sudoers is world writable 原因修改过/etc/sudoers文件后使用sudo会报该错 解决方法: 执行:pkexec chmod 555 /etc/sudoers 2、centos7 mini系统安装hadoop后,也正常启动服务,通过wi
一篇文章让你读懂SQL数据库和Hadoop
SQL(结构化查询语言)是针对结构化数据设计的,而Hadoop最初的许多应用针对的是文本这种非结构化数据。 主要区别如下: 用向外扩展代替向上扩展 Hadoop集群就是增加更多的机器。一个Hadoop集群的标配是十至数百台计算机。而不是专注于提高单台服务器的性能 用键/值对代替关系表 SQL 针对结构化查询语句 是结构化数据,hadoop针对的是非结构化数据,文本形式 关系数据...
linux环境下hadoop安装遇到的问题及解决办法
Java安装时,在~/.bashrc设置环境变量,其他环境变量也是   出错:javac -classpath hadoop-*-core.jar -d playground/classes playground/src/WordCount.java Hadoop2.7用的common中的jar,没有-core.jar。用bin/Hadoop classpath查看应该含有的路径,将这些路径
50个Hadoop的面试问题
1)列出Hadoop集群的Hadoop守护进程和相关的角色。Namenode:它运行上Master节点上,负责存储的文件和目录所有元数据。它管理文件的块信息,以及块在集群中分布的信息。Datanode:它是一个存储实际数据的Slave节点。它定时向Namenode发送本节点上块的信息。Secondary Namenode:它会定期通过Editlog合并NameNode的变化,从而它r的日志不会过大...
Hadoop作业调度
1)先进先出调度器(FIFO) 2)公平调度器(FairScheduler) 3)容量调度器(CapacityScheduler)FIFO调度器 1)FIFO调度器是hadoop中默认的调度器,它先遵循高优先级优先,然互按照作业到来的顺序进行调度 2)这种默认的调度器的一个缺点是:高优先级以及需要长时间运行的作业一直在被处理,而低优先级以及短作业将长时间得不到调度FairScheduler(
hadoop1.x的缺陷及hadoop2.x的诞生
hadoop1.x的缺陷 Hadoop 1.0内核主要由两个分支组成:MapReduce和HDFS,众所周知,这两个系统的设计缺陷是单点故障,即MR的JobTracker和HDFS的NameNode两个核心服务均存在单点问题,该问题在很长时间内没有解决,这使得Hadoop在相当长时间内仅适合离线存储和离线计算。 令人欣慰的是,这些问题在Hadoop 2.0中得到了非常完整的解决。Had
大数据之hadoop面试题2
2.7.  用mapreduce来实现下面需求? 现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。 方法一: 运用2个job,第一个job直接用filesystem读取10个文件夹作为map输入,url做key,reduce计算url的sum, 下一个job map用url作key,运用sum作二次排序,reduce中取top1000000
Hadoop 中使用DistributedCache遇到的问题
  自己在写MAR/REDUCE代码时,遇到了一个问题,一个大数据文件和一个小数据文件匹配计算,但是小数据文件太小,所以想采用HIVE的MAP JOIN的方式,把小数据文件放到直接大数据文件map的datanode的内存中,这样少了MR代码的1对N的数据文件关联。 实现这个的最佳方案就是利用distributed cache。HIVE的MAP JOIN也是利用这个技术。 首先简要...
hadoop 修改文件权限
hadoop fs -chmod 777 /file
Hadoop安装包目录下几个比较重要的目录及其作用
1、sbin目录:存放启动或停止hadoop相关服务的脚本2、bin目录:存放对hadoop相关服务(HDFS,YARN)进行操作的脚本3、etc目录:hadoop的配置文件目录,存放hadoop的配置文件4、share目录:存放hadoop的依赖jar包和文档,文档可以被删除掉5、lib目录:存放hadoop的本地库(对数据进行压缩解压缩功能)
hadoop集群搭建-Mysql安装
## 安装的版本是MySQL-5.6.22-1.el6.i686.rpm-bundle.tar 其他版本安装步骤基本一致,官网进行下载## 1.查看CentOS自带的mysql 1 1.1输入:rpm-qa|grep-imysql 2.将自带的mysql卸载 2.1输入: rpm -e –nodeps mysql-XXXX.i686 3.删除原旧版本剩余的文件 rm -rf
Hadoop 统计一个目录的文件大小
Hadoop 统计一个目录的文件大小   hive的查询注意事项以及优化总结 .  http://www.cnblogs.com/xd502djj/p/3799432.html Hadoop Hive基础sql语法 http://www.cnblogs.com/HondaHsu/p/4346354.html map和reduce 个数的设定 (Hive优化)经典 http://b...
Hadoop开发过程中所遇到的那些坑
核心内容: 1、Hadoop开发过程中常见问题即解决方案 在Hadoop开发的过程中,我们总是遇到各种各样的问题,今天就整理总结一下: 万能的解决步骤:6个检查+查看具体日志 在Hadoop开发的过程中如果遇到各种异常,首先使用jps命令查看进程的启动是否正常,然后在去查看相关的日志文件,但是在查看相关日志之前,你可以先检查一下面几点: 1、防火墙原因:检查各个节点的防火墙是否关闭成
如何将传统关系数据库的数据导入Hadoop?
大多数企业的关键数据存在于OLTP数据库中,存储在这些数据库中的数据包含有关用户,产品和其他有用信息。如果要分析此数据,传统方法是定期将该数据复制到OLAP数据仓库中。Hadoop已经出现在这个领域并扮演了两个角色:数据仓库的替代品;结构化、非结构化数据和数据仓库之间的桥梁。图5.8显示了第一个角色,其中Hadoop在将数据导到OLAP系统(BI应用程序的常用平台)之前用作大规模加入和聚合工具。 ...
hadoop集群之间的文件拷贝——distcp
之前部门迁移hadoop,涉及到hive表的重建,以及hdfs上文件的迁移,还有oozie任务的修改。     hive重建表比较简单,首先show create table tablename;然后把建表语句拷贝下来即可,这里要注意的是,最好把stored as XXX语句也加上。一开始我没加,还出了错,因为两个hadoop集群的hive建表时的默认的存储格式不一致。     hdfs的数据
hadoop常见问题总结
hadoop常见问题总结 正式接触hadoop全家桶已经有一年的时间了,期间也踩了很多坑, 大部分的坑踩完了之后也就过去了... 现在将从接触hadoop开始还有所记录的坑总结一下, 以此自省 1. mapRedue本地执行报错 : could not locate executable winutils.exe in the hadoop binaries 分析 : 从报错信息来看,是目录下...
hadoop 分布式云计算 课程设计报告
这个是我 课程设计的报告 大神们想要的自己下载吧 。 。。 呵呵
SQL数据库和Hadoop 区别
SQL(结构化查询语言)是针对结构化数据设计的,而Hadoop最初的许多应用针对的是文本这种非结构化数据。 主要区别如下: 1. 用向外扩展代替向上扩展 Hadoop集群就是增加更多的机器。一个Hadoop集群的标配是十至数百台计算机。而不是专注于提高单台服务器的性能 2. 用键/值对代替关系表 SQL 针对结构化查询语句 是结构化数据,hadoop针对的是非结构化数据,文本形式 关系数据库是
数据库与hadoop的区别和联系
考虑到这一点,让我们从特定的视角将Hadoop与典型SQL 数据库做更详细的比较。  1. 用向外扩展代替向上扩展  扩展商用关系型数据库的代价是非常昂贵的。它们的设计更容易向上扩展。要运行一个更大 的数据库,就需要买一个更大的机器。事实上,往往会看到服务器厂商在市场上将其昂贵的高端机 标称为“数据库级的服务器”。不过有时可能需要处理更大的数据集,却找不到一个足够大的机器。 更重要的是,
hadoop与MySQL的交互
如下介绍hadoop通过MR实现从MySQL中读写数据 说明:本文介绍中共有两张表:words 和 state,演示从words中读取单词,经过MR运算后得到单词数量,然后写入 state 表。 代码如下 MyDbWritable(与数据库交互的核心类) /** * MyDbWritable * > value */ public class My...
Sqoop-1.4.6安装配置及Mysql->HDFS->Hive数据导入(基于Hadoop2.7.3)
写在前面 本博客基于的环境如下: OS版本: Ubuntu16.04 Hadoop版本: Hadoop-2.7.3 Hbase版本: Hbase-1.3.1 Hive版本: Hive-2.1.1 Pig版本: Pig-0.16.0 Zookeeper版本: Zookeeper-3.4.9 Sqoop版本: Sqoop-1.4.6 一、Sqoop安装 1、下载 下载地址: ht...
Hadoop和关系数据库之间的数据流通
Sqoop可以在Hadoop和关系数据库之间拷贝数据。在很多方面,它和Hadoop的交互方式与Hive和Hadoop的交互方式完全相同 下载和配置Sqoop 下载已编译包到/usr/local,建立符号链接并更新环境变量。 $ ln -s sqoop-xx.tar.gz sqoop $ export SQOOP_HOME=/usr/local/sqoop $ export PATH=${
hadoop hdfs HA原理讲解、脑裂问题产生
Namenode HA原理详解 社区hadoop2.2.0 release版本开始支持NameNode的HA,本文将详细描述NameNode HA内部的设计与实现。   为什么要Namenode HA? 1. NameNode High Availability即高可用。 2. NameNode 很重要,挂掉会导致存储停止服务,无法进行数据的读写,基于此NameNode的计算(MR,
hadoop 文件夹嵌套赋权限
hadoop fs -chmod [-R] URI [URI …]改变文件的权限。使用-R将使改变在目录结构下递归进行。命令的使用者必须是文件的所有者或者超级用户 注意其中的-R选项,通过这个参数,实现了文件夹的递归赋权限。
hadoop 文件夹权限问题
log日志目录 hadoop 2.8.5 默认文件系统dfs在tmp目录   所以当前用户需要有对tmp目录和log目录的读写权限 chmod -R 777 tmp chmod -R 777 log    
hadoop基础题
转自:http://blog.csdn.net/pelick/article/details/8299482 //Hadoop基础 Doug Cutting所创立的项目的名称都受到其家人的启发,以下项目不是由他创立的项目是 A. Hadoop B. Nutch C. Lucene D. Solr 答案:D 配置Hadoop时,JAVA_HOME包含在哪一个配置文件中
Hadoop+Spark+MongoDB+MySQL+C#大数据开发项目最佳实践
转自:http://www.thebigdata.cn/Hadoop/31402.html 一、前言   随着IT技术的飞速发展,各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。目前,医疗IT系统收集了大量极具价值的数据,但这些历史医疗数据并没有发挥出其应有的价值。为此 ,本文拟利用医院现有的历史数据,挖掘出有价值的基于统计学的医学规则、知识,并 基于这些信息构建专业的临床
Hadoop相关基础9篇英文论文
包括《The Google File System》 《MapReduce: Simplified Data Processing on Large Clusters》 《Bigtable: A Distributed Storage System for Structured Data》 《Ranking and Semi-supervised Classification on Large Scale Graphs Using Map-Reduce》 《Mochi:Visual Log-Analysis Based Tools for Debugging Hadoop》 《Ganesha:blackBox diagnosis of MapReduce systems》 《SALAS:Analyzing Logs as StAte Machines》
Hadoop Streaming如何传文件夹到集群
上传文件夹着实让我蛋疼了阵。
hadoop上安装hive2.3.2学习总结—hive安装+mysql以及碰到坑点
一、环境准备 hapdoop版本:基于hadoop2.8.1,本教程是基于hadoop2.8.1上安装的hive hive版本:apache-hive-2.3.2-bin.tar.gz 二、安装配置hive+mysql(远程模式) 1、首先安装好mysql数据库 2、去hive官网下载hive安装包:apache-hive-2.3.2-bin.tar.gz tar -zxvf ap
hadoop多次格式化后,导致datanode启动不了
hadoop namenode -format 多次格式化后,datanode启动不了 0.20.2版本解决方式: 1、查看名称节点上(即在配置文件中配置的hadoop.tmp.dir参数路径)/usr/hadoop0.20.2/hadoop-huanghz/dfs/name/current/文件夹中VERSION文件中的namespaceid; 2、在两个数据节点修改上d
文章热词 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 大数据视频hadoop 大数据hadoop基础