最近在用bulkload去吧hive的数据同步到hbase,首先生成Hfile,命令行是hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/usr/hdfs_output_dir -Dimporttsv.columns=HBASE_ROW_KEY,cf hbase_table "/usr/hdfs_input_dir" 。
数据量大概有10亿,每次运行都会报内存溢出的错(java heap space),怎么在命令行加参数可以调整一下jvm呢,求各位赐教,或者有没有其他方法把10亿量的数据从hive同步到hbase
关于用bulkload把数据从hive同步到hbase
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
1条回答 默认 最新
- 中本王 2023-04-26 17:57关注
在命令行中,可以使用以下参数来调整 JVM 的内存限制:
-Xms:设置 JVM 的初始堆大小。
-Xmx:设置 JVM 的最大堆大小。
例如,要将初始堆大小设置为 1 GB,最大堆大小设置为 4 GB,可以在命令行中添加以下参数:
java -Xms1g -Xmx4g -jar myprogram.jar
对于你的情况,可以尝试将 -Dimporttsv.bulk.output 参数调整为一个更大的值,例如 2 GB 或更多:
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/usr/hdfs_output_dir -Dimporttsv.columns=HBASE_ROW_KEY,cf -Dmapreduce.map.memory.mb=4096 -Dmapreduce.map.java.opts=-Xmx3072m -Dmapreduce.reduce.memory.mb=4096 -Dmapreduce.reduce.java.opts=-Xmx3072m hbase_table "/usr/hdfs_input_dir"
其中,-Dmapreduce.map.memory.mb 和 -Dmapreduce.reduce.memory.mb 分别设置了 Map 和 Reduce 的内存限制,而 -Dmapreduce.map.java.opts 和 -Dmapreduce.reduce.java.opts 分别设置了 Map 和 Reduce 的 JVM 内存限制。
如果以上方法无法解决问题,可以考虑使用其他工具或方式,例如 Apache Sqoop、Apache Nifi 等,或者对数据进行分批同步、分区同步等方式来减少单次同步的数据量。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报
悬赏问题
- ¥15 需要写计算过程,不要写代码,求解答,数据都在图上
- ¥15 向数据表用newid方式插入GUID问题
- ¥15 multisim电路设计
- ¥20 用keil,写代码解决两个问题,用库函数
- ¥50 ID中开关量采样信号通道、以及程序流程的设计
- ¥15 U-Mamba/nnunetv2固定随机数种子
- ¥15 C++行情软件的tick数据如何高效的合成K线
- ¥15 vba使用jmail发送邮件正文里面怎么加图片
- ¥15 vb6.0如何向数据库中添加自动生成的字段数据。
- ¥20 在easyX库下编写C语言扑克游戏跑的快,能实现简单的人机对战