使用Export/Import方案进行HBase集群迁移,表数据量减少 5C

HBase使用Export和Import进行集群之间表的迁移,源集群的表在HDFS中的大小为800G,使用Export导出到目标集群的hdfs上,然后执行import进行导入,执行结束后,目标集群的表大小只有400G不到,目标表和源表的格式完全一样,都使用的SNAPPY压缩,使用count 统计名发现行数也少了一半多,mapreduce程序并没有报错,求大神指点

0

1个回答

0
gele1005
Little_Cigar 我试了几次都没问题啊,可能和版本和环境有关系吧
大约一年之前 回复
px_dn
我心明月 同样的操作,不一样的结果,是不是hbase自身的bug
大约一年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
HBase数据迁移实现
方式很多,我使用的是Export与Import感觉还挺好用的,我使用的场景有几种,以下会分别说明:我的需求是将老集群数据迁移到新集群,但是有两种情况:1.两个集群网络能够联通;2.两个集群网络不能联通。先说能联通的情况及遇到的问题:root登陆集群1.执行以下命令,我的前提是我执行hbase shell是可以正常执行的。hbase org.apache.hadoop.hbase.mapreduce...
Import/Export实现hbase集群间迁移
使用hbase自带的Import/Export工具逐表迁移,迁移示例如下:rnrnOLD_CLUSTER:rnrncreate 'member','m_id','address','info'rnrnput'member','scutshuxue','info:age','24'rnrnscan 'member'rnrn./hbase org.apache.hadoop.hbase.mapredu
HBase之——集群数据手动迁移方案
1、从源HBase集群中复制出HBase数据库到本地目录hadoop fs -get2、目标HBase导入hadoop fs -put3、修复.META.表hbase hbck -fixMeta4、重新分配数据到各RegionServerhbase hbck -fixAssignments...
Hbase版本升级之数据迁移方案汇总
背景: n 近期公司hadoop平台升级,升级后hadoop平台各个组件也都升级了。hbase中的数据需要迁移至新版本中;首先列出集中常用迁移方案: n 1. hadoop distcp n 将hbase存储在hdfs上面的数据目录全部从当前集群拷贝至目标集群hbase对应的hdfs目录; n hadoop distcp -f hbasedir "hdfs://new cluster ip:9
跨集群拷贝hbase表
目的:从10.102.2.246上把Hbase里面数据备份到10.101.159.62的Hbase里面,并且这两台机器之间无法通信,因此采用最笨的办法解决问题。n步骤:n1、从246上把Hbase里面数据先拷贝到该节点的一个目录,拷贝到/oracle/hpdata/hbase-data.bak。我们知道由于配置文件hbase-site.xml里面写的hbase数据存放地方是nhdfs://l
HBase 跨集群迁移数据-Snapshot 实现
   HBase数据迁移方案有很多种,但今天我们来通过Snapshot方式来实现HBase的数据迁移(即将A集群HBase的数据迁移到B集群),废话不多说,直接进去主题吧:nn nn    参考文献:https://www.cnblogs.com/ballwql/p/hbase_data_transfer.htmlnn                     https://www.cnblogs...
Trafodion 使用HBase snapshot方式迁移单表
在前面的一篇文章中,我们介绍了如何使用Trafodion自带的UNLOAD功能进行数据导出以及使用odb工具进行数据导入,合起来完成两个不同的Trafodion集群之间(即便是网络不联通情况)的单表迁移工作,详情请参考博客: http://blog.csdn.net/post_yuan/article/details/72964165然而,此种方式需要把数据先导成为文本文件(可能为压缩格式)然后再用
Hive中的数据迁移--迁移多库数据以及实际遇到的问题解决
Hive的数据迁移其实就是对Hive的数据进行导入导出的操作。如果数据表不是很多,我们可以直接使用Hive SQL来处理,一张一张表的导出,然后在进行导入。nn nn对Hive的数据进行操作,常用的是登陆Hive客户端命令,常用的方式一般有两种,①hive,直接进入;②通过Beeline,在shell中输入beeline,然后连接我们的Hive,输入beeline> !connection ...
HBase数据迁移实战
本文来自 网易云社区 nn最近为产品做了一次HBase的数据迁移操作,学习了一些相关的技术和实现方案。现整理出来,作为今后HBase数据迁移的参考。如有纰漏,欢迎指正。nn1. 前期准备nn1.1 确认集群使用的版本nn  源HBase集群(以下称旧集群)和目的HBase集群(以下称新集群)的版本可能并不是一致的,特别是其底层所使用的HDFS版本信息。譬如这样一个数据迁移场景:业务希望从低版本的H...
hbase数据导出导入,数据备份,数据迁移(仅解决非通信集群)
如题,只说明非通信集群,hbase版本是1.1.10,属于1.1.x系列,跨大版本这个事情另外讨论,参考官网。n面对的环境数据量较大(就是比较小没有几个PB的意思),新老集群无法通信。二步解决,export/import大量坑,在此不表,选用手动方式。n一、导出、导入数据n找到你现在的hbase的数据在hdfs的位置nhadoop fs -copyToLocal /hbase/data/
hbase 导入导出/数据迁移
公司遇到一个情况。从集群A吧hbase数据拷贝到  集群B  其中A和B无法通信, 只能通过工作机器 单连。rn使用的方式是  在A集群 的 hdfs上吧数据拷贝下来rnrnrnrnrn数据导出导入rnhadoop fs -get src hdfs/file //获得集群A地址中 hdfs上 hbase表的位置rnhadoop fs -put  src hdfs/file //吧表数据提交到集群B
Hadoop集群间HBase数据迁移
背景:HBase Cluster1 -> HBase Cluster2
离线备份hbase数据
1. Export/Import(导入导出)nnhdfs常用命令:nnhttp://www.cnblogs.com/gaopeng527/p/4314215.htmlnn1) 导出nn    通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开始时间和结束时间,因此可以做增量备份,Export工具参数如下:nn可见,在导出时可以指定versio...
hive集群间数据迁移,export+import
hive集群间数据迁移,beeline加shell
不同集群Hbase数据库数据迁移
不同版本Hbase数据库数据迁移nn1、迁出hbasenn # 进入hdfs用户nsu hdfs nn #在hdfs上建立test临时目录nhadoop fs -mkdir /testnn#进入hbase的bin目录下ncd /usr/hdp/2.6.2.0-205/hbase/bin/   nn#用MR方法将hbase数据库t_userBehavior里的数据导入/test/t_userBeha...
hbase数据备份或者容灾方案
rn    HBase的数据备份或者容灾方案有这几种:Distcp,CopyTable,Export/Import,Snapshot,Replication,以下分别介绍(以下描述的内容均是基于0.94.20版本)。rn rn一、Distcprn   在使用distcp命令copy hdfs文件的方式实现备份时,需要禁用备份表确保copy时该表没有数据写入,对于在线服务的hbase集群,该方式不可...
HBase表跨集群迁移
需求:存在两个集群集群1、集群2,将集群1中Hbase数据表复制到集群2中,此时两个集群HBase版本一致。 n解决思路: n一. 将集群1HBase表数据复制到集群2的HBase中 n1. 分别查看集群1和集群2中hbase表的存储路径。hbase表数据存储路径在hbase-site.xml文件中指定,该xml文件通常在hbase安装目录下./conf/hbase-site.xml。 n n命令行
Hbase数据迁移之bulkload
一、概述nnHBase本身提供了很多种数据导入的方式,通常有两种常用方式:nn1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBasenn2、另一种方式就是使用HBase原生Client APInn这两种方式由于需要频繁的与数据所存储的RegionServer通信,一次性入库大量数据时,特别占用资源,所以都不是最有效的。了解过HBase底...
Hbase 数据迁移的常见方式(四)
要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase 的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。n数据导入hbase的常见方法数据的来源:n日志nRDBMSn导入的常见方法:n使用hbase put API(sqoop、kettle)使用HBase的
hbase的 export以及import工具使用示例 + 时间区间+ key前缀
1.hbase中的数据hbase(main):025:0> scan 'users'ROW                                COLUMN+CELL                                                                                       TheRealMT             ...
hbase基于快照的数据迁移
hbase基于快照的数据迁移rn前期准备rn1.        对于开启安全认证(kerberos)的集群,首先需要关掉安全认证。rn2.        在源集群所有节点/etc/hosts文件中配置目标集群所有节点的host。rn源集群操作rn开启HBase快照rn1.   登录Ambari检查hbase-site.xml中的hbase.snapshot.enabled是否设置为true,确认打
HBASE表数据迁移到另一台服务器上
1.首先命令行删除原来hbase表./hbase shell disable 'TABLE1'drop 'TABLE1'删除之后hdfs上的表数据文件会被移除2.hdfs数据迁移进入hadoop home./hdfs dfs -cp hdfs://fromip/hbase/data/default/TABLE1 hdfs://dstip/hbase/data/default/TABLE1数据量大拷...
hbase数据迁移(跨网络跨集群跨版本)
需求:将云服务器上的hbase数据迁移到本地物理服务器。nn云服务器环境:Linux2.6.32-696.1.1.el6.x86_64 Hadoop 2.6.0-cdh5.11.0(集群) HBase 1.2.0-cdh5.11.0nn物理服务器环境:Linux3.10.0-957.el7.x86_64 Hadoop 2.7.6(单机) HBase 2.0.4nn总...
HBase跨集群复制Snapshot失败原因分析及解决
起因nnHBase快照在跨集群复制时,经常会出现由于/hbase/.tmp/data/xxx FileNotFoundException导致任务失败 n现还原出错场景,并分析错误原因,给出一些常用的解决方法 nn主要原因 n 在创建快照到跨集群复制过程中,部分StoreFile的位置发生了变动,以至不能正常寻址( 使用webhdfs的bug)n场景还原nn源集群:HBase 1.2.0-cdh5....
Hbase离线数据迁移
 nn注:当前方法基于Hbase-1.2.0,对其他版本有一定兼容性,Version默认为1,默认整表迁移。采用Hbase的Export/Import方式,此方式与CopyTable类似,主要是将HBase表数据通过Export转换成Sequence File并dump到HDFS,而后再Import到新系统的表。因两系统网络不通,所以采用本地文件方式迁移数据。其间若遇到hdfs用户权限问题则su到...
distcp数据迁移方案
数据迁移distcp方案nn概况:n根据迁移的实际情况,由于数据量大、重要、迫切性,因此实施方案每一步都需严谨执行,并且当出错时清楚缺少的数据和补救的办法。nn具体实施计划:n大的步骤分为3步,即export、distcp、import。n 在export导出数据时,以时间戳作为参数,如将三个月的数据为一个单位导出,出错时,重复执行。命令案例:nsudo -u hdfs hbase org.apa...
HBase迁移数据方案(两个集群不能通信)
HBase迁移数据方案(两个集群不能通信)nnnn把某个表(test)从集群1迁移到集群2(两个集群互相看不见),步骤如下:nn(其实就是把旧集群上的hbase在hdfs上的存储文件迁移到新集群上)nn1.把数据表test从hbase下拷出nnhadoop fs -get /hbase/data/default/test /home/nnnn2.文件放到新集群的系统上。nn3.文件拷入新的hado...
通过快照迁移hbase1.1.2的表数据(以clone_snapshot为例说明)
【为什么要用clone的方式复制出一张新表】nn有时候因为客户端的不当行为导致了丢失hbase表数据,如果全表恢复(restore_snapshot)则恢复之前必须禁用(disable)该表。但是我不想禁用该表,我想要这张表继续提供服务,怎么办?那么我们就采用克隆快照的方式生成另一张表即可。nn nn【snapshot功能简介】nn使用hbase提供的快照(snapshot)功能,不需要停掉hba...
【Hbase】跨集群拷贝表
hbase org.apache.hadoop.hbase.mapreduce.CopyTable --peer.adr=new_cluster_ip:2181:/hbase testtable
不同集群之间Hbase数据备份
目的:从10.102.2.246上把Hbase里面数据备份到10.101.159.62的Hbase里面,并且这两台机器之间无法通信,因此采用最笨的办法解决问题。nn步骤:nn1、从246上把Hbase里面数据先拷贝到该节点的一个目录,拷贝到/oracle/hpdata/hbase-data.bak。我们知道由于配置文件hbase-site.xml里面写的hbase数据存放地方是hdfs:/
hbase复制表(本地或者跨集群)
hbase org.apache.hadoop.hbase.mapreduce.CopyTable [--starttime=X] [--endtime=Y] [--new.name=NEW] [--peer.adr=ADR] tablenamernrnrnrn一:本地rnhbase org.apache.hadoop.hbase.mapreduce.CopyTable --new.name=ne
hbase导入导出数据
hbase导入导出数据
hbase跨集群迁移(两集群网络不通)
这两天公司集群需迁移到华为FI大数据平台,hive,hbase,脚本等迁移就开始采坑了。。。先是查看资料hbase迁移大致有几种方案:1、distcp2、CopyTable3、Export and Import4、copyToLocal and copyFromLocal由于迁移是从cdh开源集群迁移到华为大数据平台(FI),一开始采用的第4中方法,网上找了些资料,数据也能正常上传,但是执行hba
hive数据迁移
HIve 数据迁移nn1.跨Hadoop平台之间的Hive表迁移操作nn1.1 分析nn实现两个hadoop平台之间的数据迁移,需要将原平台的Hive表元数据文件使用export导出到HDFS文件系统。通过Distcp命令将导出的元数据文件迁移到新集群的HDFS文件中,最后在新集群中通过import命令导入表。nn1.2 要求nn条件n 要求n Hadoop Hive Zookeepern ...
在不同版本hdfs集群之间转移数据
本文仅供记录一下程序心得:rn 很多人会有这样一个需求:将一个hdfs集群上的数据写入另一个hdfs集群所在的hbase数据库。通常情况下两个hdfs集群的版本差距并不大,这样的程序会很容易写。但有时会跨大版本。比如作者所在的厂子,数据都在基于hadoop0.19.2版本修改的hdfs集群上,要将这样的数据导入版本为0.20.2+的hdfs集群,就不能使用同一个hadoop jar包来完成了...
Sqoop实现Mysql与HDFS/Hbase的数据迁移
简介        Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。http://sqoop.apache.org/环境    当调试过程出现IncompatibleClassChangeError一般都是版...
hbase_数据备份(导入/导出)
1. Export/Import(导入导出)hdfs常用命令:http://www.cnblogs.com/gaopeng527/p/4314215.html1) 导出    通过Export导出数据到目标集群的hdfs,再在目标集群执行import导入数据,Export支持指定开始时间和结束时间,因此可以做增量备份,Export工具参数如下:可见,在导出时可以指定version,starttim...
hbase表格实现数据压缩
压缩方式:nnnnn压缩方式n使用难易nnnnnsnappyn需要手动安装snappynnnLZOn需要手动安装lzonnnNONEn自带,直接使用nnnGZn自带,直接使用nnnLZ4n自带,直接使用nnn使用方法:n1、disable ‘table’n2、更新表格命令nalter 'table', NAME => 'f1', COMPRESSION => 'snappy'nalte...
CDH集群间数据迁移
工作中,需要进行不同集群间数据迁移(这里演示CDH5->CDH6),迁移分为2个步骤:n1、库、表shema迁移n2、数据迁移n一、库、表schema迁移n核心思想主要是构建建库、建表语句,传统数据仓库大概都会有stage、ods、dw、dm、default等数据分层体系。n于是考虑使用shell脚本,将所有库及其下的表导出一份,然后再通过sed、awk或编辑软件的猎魔师制作建表语句。n①、...
Hbase表数据的导入和导出
Hbase没有提供类似于hive根据已有表的建表建表语句,如在hive中创建一个和已有表表结构完全一样的表可执行SQL:create table tbl_test1 like tbl_test,在hbase只能采用笨办法,将其表结构拷贝出来建表。如:nnnn稍作整理:nncreate 'solrHbase2', {NAME => 'f1', DATA_BLOCK_ENCODING =>...
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 大数据培训方案 大数据学习法方案