cc276019277 2017-06-01 10:29 采纳率: 66.7%
浏览 1518
已结题

java spark获取多个gz文件时怎样提高速度

每个gz文件大致有1-3G大小,解压后有8G-10G左右。spark读取数据为每个文件平均20-30秒。
但是现在需求是1分钟读取10个gz文件内容合并成一个txt样式的文件怎样完成。或者10分钟读取100个gz文件合并成10个文件怎么完成。
问了一些大神说要调试base值,观看每个文件的瓶颈。但是我查看资料是把RDD转成hbase ,至于这个base值该怎么调试呢

  • 写回答

1条回答 默认 最新

  • mon_ice 2017-06-01 12:39
    关注
     JavaRDD data = jsc.textFile("hdfs://*.gz",10);
    

    模糊匹配,不包括子文件夹

    评论

报告相同问题?

悬赏问题

  • ¥15 求解 yolo算法问题
  • ¥15 虚拟机打包apk出现错误
  • ¥30 最小化遗憾贪心算法上界
  • ¥15 用visual studi code完成html页面
  • ¥15 聚类分析或者python进行数据分析
  • ¥15 三菱伺服电机按启动按钮有使能但不动作
  • ¥15 js,页面2返回页面1时定位进入的设备
  • ¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
  • ¥15 (希望可以解决问题)ma和mb文件无法正常打开,打开后是空白,但是有正常内存占用,但可以在打开Maya应用程序后打开场景ma和mb格式。
  • ¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝