关于用bulkload把数据从hive同步到hbase

最近在用bulkload去吧hive的数据同步到hbase，首先生成Hfile，命令行是hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/usr/hdfs_output_dir -Dimporttsv.columns=HBASE_ROW_KEY,cf hbase_table "/usr/hdfs_input_dir" 。
数据量大概有10亿，每次运行都会报内存溢出的错（java heap space），怎么在命令行加参数可以调整一下jvm呢，求各位赐教，或者有没有其他方法把10亿量的数据从hive同步到hbase

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
中本王 2023-04-26 17:57
关注
在命令行中，可以使用以下参数来调整 JVM 的内存限制：

-Xms：设置 JVM 的初始堆大小。

-Xmx：设置 JVM 的最大堆大小。

例如，要将初始堆大小设置为 1 GB，最大堆大小设置为 4 GB，可以在命令行中添加以下参数：

java -Xms1g -Xmx4g -jar myprogram.jar

对于你的情况，可以尝试将 -Dimporttsv.bulk.output 参数调整为一个更大的值，例如 2 GB 或更多：

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/usr/hdfs_output_dir -Dimporttsv.columns=HBASE_ROW_KEY,cf -Dmapreduce.map.memory.mb=4096 -Dmapreduce.map.java.opts=-Xmx3072m -Dmapreduce.reduce.memory.mb=4096 -Dmapreduce.reduce.java.opts=-Xmx3072m hbase_table "/usr/hdfs_input_dir"

其中，-Dmapreduce.map.memory.mb 和 -Dmapreduce.reduce.memory.mb 分别设置了 Map 和 Reduce 的内存限制，而 -Dmapreduce.map.java.opts 和 -Dmapreduce.reduce.java.opts 分别设置了 Map 和 Reduce 的 JVM 内存限制。

如果以上方法无法解决问题，可以考虑使用其他工具或方式，例如 Apache Sqoop、Apache Nifi 等，或者对数据进行分批同步、分区同步等方式来减少单次同步的数据量。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

关于#大数据#的问题：大数据实验Hive、M ySQL、HBase数据互导中，使用HBase J ava API把数据从本地导入到HBase中的ecli pse代码出问题要怎么解决吗 hadoop hbase 大数据
2022-12-20 13:34

回答 1 已采纳编译报错？是不是跟JDK可能有关系
hive数据分析和hbase编程的特点 hbase hive 大数据
2022-12-14 16:03

回答 1 已采纳 hive和hbase都是大数据平台上的组件。hive类似于关系型数据库，按行存储，非常适合对sql比较熟悉的人按照sql语句进行数据处理。hbase属于非关系型数据库，采用列式存储，非常适合统计类的数
使用datax同步oracle到hive的数据错乱问题 hive java oracle 有问必答
2021-12-19 11:35

回答 2 已采纳查了一些资料,Datax源码的确有点问题,需要修改Datax的源码。参考: datax mysql null不能转为Long 等一些列无法强转问题_大壮的博客-CSDN博
一文流：hive使用 bulk load 批量导入数据到 hbase
2020-11-23 22:49

if200的博客主要内容有hbase bulkload的原理以及对应hive的操作步骤，最后基于cdh进行完整实验提供参考实例。实验环境为：CDH6.3.2，对应的各个组件版本为：hadoop3.0.0，hbase2.1.0，hive2.1.1 文章目录一 hbase bulk loading...
DolphinScheduler调用Shell脚本，从ES拉取数据到Hive。 elasticsearch hive
2022-10-21 17:22

回答 2 已采纳这是elasticsearch-hadoop RestClient部分的源码,https://github.com/elastic/elasticsearch-hadoop/blob/main/mr
hive用select*from查看不到表数据 centos hadoop hive
2022-03-17 20:47

回答 1 已采纳参考一下这篇文章 hive表删除分区后，重新插入，查询不到数据问题_雾岛与鲸的博客-CSDN博客_hive 重新分区 1、选择一张分区表（本
Hive中在整合HBase的表中插入数据时报错 hadoop hbase hive
2015-12-29 08:12

回答 1 已采纳 http://bbs.csdn.net/topics/390911781
hive 写入hbase bulkload
2024-08-04 03:37

mou xie的博客 Hive 写入 HBase 的 Bulk Load 方法在大数据处理和分析的场景中，Hive 和 HBase 是当前比较流行的数据存储解决方案。Hive 提供了一个对 SQL 查询的支持，而 HBase 则是一个列式存储的 NoSQL 数据库，适用于实时读取...
安装hbase后hive不能正常启动 hbase hive
2022-11-18 18:05

回答 3 已采纳有可能多按按回车就好了，有的时候是卡了
数据仓库 大数据 apachhive hive 大数据数据仓库
2023-02-24 15:51

回答 1 已采纳是的，Apache Hive的分层就是指把不同维度的数据抽取出来，并根据不同的维度进行分类存放。通过这种方式，可以更好的管理数据，便于后续的查询和分析处理。
Hbase 和 hive 有什么区别？hive 与 hbase 的底层存储是什么？hive 是产生的原因是什么？habase 是为了弥补 hadoop 的什么缺陷? hadoop hbase hive 有问必答
2021-11-06 11:30

回答 1 已采纳 大数据之hadoop / hive / hbase 的区别是什么？有什么应用场景？_RunFromHere的博客-CSDN博客文章目录1
bulkload方式将hive数据存储至hbase表
2022-08-04 14:47

肉装法师的博客 bulkload将hive数据存储至hbase表。
sqoop从mysql中导入数据到hive报错解决方法 sqoop
2022-05-20 16:58

回答 1 已采纳你先测试一下确定能连上这个数据库吗sqoop list-databases --connect jdbc:mysql://hl06master:3306 --username root --passw
Hive表数据同步至HBase
2023-08-30 19:48

深度学习V666的博客（2）利用 HBase 的 bulkload 命令移动 HFile 至合适的位置。（1）编写 Spark 程序转换原始数据为 HFile。
Bulkload Hive表到HBase
2016-04-04 10:45

GatsbyNewton的博客 1.描述 ...使用API把数据一条一条地写入HBase。用HBaseIntegration方法。使用HBase自带的Bulkload功能。但是，第一种方法明显是最低效的；第二种方法我之前已经提到过，同样比较慢；那么，第三种方
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月26日

悬赏问题

¥15 需要写计算过程，不要写代码，求解答，数据都在图上
¥15 向数据表用newid方式插入GUID问题
¥15 multisim电路设计
¥20 用keil，写代码解决两个问题，用库函数
¥50 ID中开关量采样信号通道、以及程序流程的设计
¥15 U-Mamba/nnunetv2固定随机数种子
¥15 C++行情软件的tick数据如何高效的合成K线
¥15 vba使用jmail发送邮件正文里面怎么加图片
¥15 vb6.0如何向数据库中添加自动生成的字段数据。
¥20 在easyX库下编写C语言扑克游戏跑的快，能实现简单的人机对战

关于用bulkload把数据从hive同步到hbase

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新