2 drq211314 drq211314 于 2016.02.22 17:11 提问

hdoop集群下各hbase的数据是一样的吗?

场景:要把全国31个省的数据从原来的oracle数据库导入到现在的hadoop集群,采用大数据以提高效率。
现在的环境是10台机器,Hadoop集群
问题是Hadoop集群的工作原理是怎样的?是把31个省的数据都导入每台机器的hbase还是每台机器的hbase导几个省,总共是31个省?怎么保证效率? 不懂吖 刚接触。

3个回答

u013202518
u013202518   2016.03.11 16:20

10台机器的hadoop集群上配置hbase 分表空间 导入数据就可以了 都说了是集群了 所以10台用的是一份数据

lisi1129
lisi1129   2017.02.13 11:30

hbase是集群部署的,导入数据的时候可以按省份分region导入,但只要各个省份数量量不要差距过大,就不会出现数据倾斜现象

caozhy
caozhy   Ds   Rxr 2017.02.13 11:37

在实际的商用情况下,每个省数据差别是很大的。一个是不同省的人口基数和经济程度相差很大,一个是你的业务本身有地域相关性。你可以使用别的方式分割你的数据。

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
hadoop安装
hdoop集群的安装
Hadoop分布式 之 Hbase集群搭建
HBase简介   HBase是Apache Hadoop中的一个子项目,是一个HBase是一个开源的、分布式的、多版本的、面向列的、非关系(NoSQL)的、可伸缩性分布式数据存储模型,Hbase依托于Hadoop的HDFS作为最基本存储基础单元。HBase的服务器体系结构遵从简单的主从服务器架构,它由HRegion Server群和HMaster Server构成。HMaster Serv
搭建大数据处理集群(Hadoop,Spark,Hbase)
搭建Hadoop集群配置每台机器的 /etc/hosts保证每台机器之间可以互访。 120.94.158.190 master 120.94.158.191 secondMaster1、创建hadoop用户 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一个为用户)
hbase数据备份或者容灾方案
HBase的数据备份或者容灾方案有这几种:Distcp,CopyTable,Export/Import,Snapshot,Replication,以下分别介绍(以下描述的内容均是基于0.94.20版本)。   一、Distcp    在使用distcp命令copy hdfs文件的方式实现备份时,需要禁用备份表确保copy时该表没有数据写入,对于在线服务的hbase集群,该方式不可用,而且在一
HBase中的HMaster、HRegionServer、Zookeeper
HMaster是HBase主/从集群架构中的中央节点。通常一个HBase集群存在多个HMaster节点,其中一个为Active Master,其余为Backup Master. Hbase每时每刻只有一个hmaster主服务器程序在运行,hmaster将region分配给region服务器,协调region服务器的负载并维护集群的状态。Hmaster不会对外提供数据服务,而是由region服
Hadoop HA高可用集群搭建(Hadoop+Zookeeper+HBase)
一、服务器环境 主机名 IP 用户名 密码 安装目录 master188 192.168.29.188 hadoop hadoop /home/hadoop/ master189 192.168.29.189 hadoop hadoop /home/hadoop/ slave190 192.168.29.190 hadoop
分布式与集群的区别,一致性hash,hadoop与HBASE,消息,关于分布式系统的数据一致性问题(来自公众号:360doc个人图书馆)
222013-10简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。 例如: 如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。 采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务间的依赖关系,执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoo
Hbase集群升级与优化
战争从来都是拼后勤拼平台支撑的,天猫双十一这一天对于我们搜索事业部来说,就是一场高强度的数字化战争。为了这一天,各兄弟业务线的战友们已经摩拳擦掌,纷纷亮出各种新式武器,而我们原有的离线系统平台却渐渐显出疲态,慢慢被来自各业务线的不断提升的压力需求搞得捉襟见肘了。个性化搜索实时数据处理平台(Pora)在双十一将正式亮相,当时我们预计会有数以十亿计的新增HBase读写请求,如果不进行升级优化,原有的离
HBase架构中各组件的功能作用
一、HBase Architecture 二、HBase架构中的客户端Client 客户端有以下几点作用: 1. 整个HBase集群的访问入口; 2. 使用HBase RPC机制与HMaster和HRegionServer进行通信; 3. 使用HMaster进行通信进行管理类操作; 4. 与HRegionServer进行数据读写类操作; 5. 包含访问HBase的接口,并
hadoop, hbase, zookeeper集群搭建
三台机器,一台master (角色:namenode, hbase master, zookeeper), 两台slave(s1,s2) (角色:datanode, hbase region server, zookeeper),  每台机器上设置: 在/etc/hosts中设置名字解析: 192.168.1.2  master 192.168.1.3  s1 192.168.1.4