登徒梦 2017-07-25 08:03 采纳率: 0%
浏览 1687
已结题

使用spark2.1进行mysql2hive数据同步job会卡在最后一个task上并不断GC

备注:

  • job 0 :从Mysql中拖数据在hdfs中建立临时表(parquet文件)
  • job 1 : 将临时表中的数据写入Hive中。
  • spark 1.6的parquet压缩格式默认为gzip。
  • spark 2.1的parquet压缩格式默认为snappy。

问题描述:

  • Mario依赖spark 1.6时,如表A(约3GB)运行流畅,执行时间 < 15Min.
  • Mario依赖spark 2.1时,如表A(约3GB)运行卡顿,执行时间>30 Min。原因是job 1会卡在最后一个task上并不断进行GC。

解决方案:

  • 将spark 2.1中parquet的压缩格式由snappy改为gzip后,问题解决。
  • 将spark1.6中parquet的压缩格式改为snappy,顺利执行,并未卡顿。

有待研究

  • 压缩格式产生如此影响的内在机制是什么?
  • 写回答

2条回答 默认 最新

  • devmiao 2017-07-25 13:38
    关注
    评论

报告相同问题?

悬赏问题

  • ¥60 更换迈创SOL6M4AE卡的时候,驱动要重新装才能使用,怎么解决?
  • ¥15 让node服务器有自动加载文件的功能
  • ¥15 jmeter脚本回放有的是对的有的是错的
  • ¥15 r语言蛋白组学相关问题
  • ¥15 Python时间序列如何拟合疏系数模型
  • ¥15 求学软件的前人们指明方向🥺
  • ¥50 如何增强飞上天的树莓派的热点信号强度,以使得笔记本可以在地面实现远程桌面连接
  • ¥20 双层网络上信息-疾病传播
  • ¥50 paddlepaddle pinn
  • ¥20 idea运行测试代码报错问题