Mr_Wu_1 2023-04-26 17:42 采纳率: 20%
浏览 11
已结题

关于用bulkload把数据从hive同步到hbase

最近在用bulkload去吧hive的数据同步到hbase,首先生成Hfile,命令行是hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/usr/hdfs_output_dir -Dimporttsv.columns=HBASE_ROW_KEY,cf hbase_table "/usr/hdfs_input_dir" 。
数据量大概有10亿,每次运行都会报内存溢出的错(java heap space),怎么在命令行加参数可以调整一下jvm呢,求各位赐教,或者有没有其他方法把10亿量的数据从hive同步到hbase

  • 写回答

1条回答 默认 最新

  • 中本王 2023-04-26 17:57
    关注

    在命令行中,可以使用以下参数来调整 JVM 的内存限制:

    -Xms:设置 JVM 的初始堆大小。

    -Xmx:设置 JVM 的最大堆大小。

    例如,要将初始堆大小设置为 1 GB,最大堆大小设置为 4 GB,可以在命令行中添加以下参数:

    java -Xms1g -Xmx4g -jar myprogram.jar

    对于你的情况,可以尝试将 -Dimporttsv.bulk.output 参数调整为一个更大的值,例如 2 GB 或更多:

    hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.separator="," -Dimporttsv.bulk.output=/usr/hdfs_output_dir -Dimporttsv.columns=HBASE_ROW_KEY,cf -Dmapreduce.map.memory.mb=4096 -Dmapreduce.map.java.opts=-Xmx3072m -Dmapreduce.reduce.memory.mb=4096 -Dmapreduce.reduce.java.opts=-Xmx3072m hbase_table "/usr/hdfs_input_dir"

    其中,-Dmapreduce.map.memory.mb 和 -Dmapreduce.reduce.memory.mb 分别设置了 Map 和 Reduce 的内存限制,而 -Dmapreduce.map.java.opts 和 -Dmapreduce.reduce.java.opts 分别设置了 Map 和 Reduce 的 JVM 内存限制。

    如果以上方法无法解决问题,可以考虑使用其他工具或方式,例如 Apache Sqoop、Apache Nifi 等,或者对数据进行分批同步、分区同步等方式来减少单次同步的数据量。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 5月5日
  • 已采纳回答 4月27日
  • 创建了问题 4月26日

悬赏问题

  • ¥15 需要写计算过程,不要写代码,求解答,数据都在图上
  • ¥15 向数据表用newid方式插入GUID问题
  • ¥15 multisim电路设计
  • ¥20 用keil,写代码解决两个问题,用库函数
  • ¥50 ID中开关量采样信号通道、以及程序流程的设计
  • ¥15 U-Mamba/nnunetv2固定随机数种子
  • ¥15 C++行情软件的tick数据如何高效的合成K线
  • ¥15 vba使用jmail发送邮件正文里面怎么加图片
  • ¥15 vb6.0如何向数据库中添加自动生成的字段数据。
  • ¥20 在easyX库下编写C语言扑克游戏跑的快,能实现简单的人机对战