java spark获取多个gz文件时怎样提高速度

每个gz文件大致有1-3G大小，解压后有8G-10G左右。spark读取数据为每个文件平均20-30秒。
但是现在需求是1分钟读取10个gz文件内容合并成一个txt样式的文件怎样完成。或者10分钟读取100个gz文件合并成10个文件怎么完成。
问了一些大神说要调试base值，观看每个文件的瓶颈。但是我查看资料是把RDD转成hbase ，至于这个base值该怎么调试呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
mon_ice 2017-06-01 12:39
关注
JavaRDD data = jsc.textFile("hdfs://*.gz",10);

模糊匹配，不包括子文件夹
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据，spark ，doris mysql spark 大数据
2023-01-17 22:05

回答 2 已采纳这是一个连接Doris服务器失败的错误，具体原因可能是Doris服务器无法连接或网络故障导致的。
在Java web中怎么提交一个spark job任务？ java spark
2018-11-06 15:11

回答 3 已采纳 spark使用命令行提交任务使用场景很窄，一般情况下提交任务、kill任务、查询任务执行状态都是使用http接口，在这种场景下你应该使用livy。你需要安装livy，才可以用，具体安装文档以及使用文档
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
从源码的角度告诉你 spark是怎样完成对文件切片
2023-03-06 17:43

广阔天地大有可为的博客从源码的角度告诉你 spark是怎样完成对文件切片
spark yarn需要部署多个spark吗？ spark
2021-07-04 22:12

回答 2 已采纳如果任务推送至yarn上，实际的工作节点为 nodeManager节点。与hive道理相同，hive默认跑mapreduce，单节点的hql查询也是推送任务至yarn上，工作节点为nodeManage
spark-shell命令读取HDFS文件时文件不存在 spark 有问必答
2021-08-03 17:06

回答 2 已采纳先看看hadoop集群有没有正常开启，检查hdfs路径有没有问题
Spark SQL应用通过Java代码提交至Yarn集群上 java spark
2022-10-11 15:35

回答 1 已采纳给你找了一篇非常好的博客，你可以看看是否有帮助，链接：Spark SQL 通过什么来实现？
大数据之Spark环境搭建
2023-03-19 21:09

敲键盘的杰克的博客本文主要介绍Spark相关环境搭建
spark 调用SparkPi时，显示拒绝连接 hadoop spark 大数据
2023-03-15 15:46

回答 1 已采纳这篇文章：spark 运行自带样例SparkPi、spark-examples报错也许有你想要的答案，你可以看看
关于spark离线程序读写本地文件的问题 java spark
2018-09-11 10:53

回答 4 已采纳读取数据文件的接口不是有SparkContext的textFile么，读取本地文件只是需要指明file://即可（但是要保证所有节点本地上都有该文件，路径一致），所以一般不会去读取本地的数据文件，
linux下安装spark运行代码提示java.lang.illegal出错 java linux spark
2022-01-01 00:30

回答 1 已采纳提示的很明显了，file://改为file:///
【大数据学习篇12】 Spark项目实战-数据可视化
2023-05-31 17:15

小杰911的博客 SpringBoot 的设计目的是为了简化Spring应用的初始搭建以及开发过程，摆脱复杂的手动配置，能迅速搭建起一个Java Web项目。MyBatis是一个开源的数据持久层框架，其内部封装了JDBC访问数据库的操作，支持普通的SQL...
java连接spark 没有运算结果 java spark
2018-01-03 02:39

回答 6 已采纳这很明显是一个想把spark在windows上运行的错误，然而spark要依赖hadoop，而hadoop需要在windows编译，hadoop在windows编译后会产生winutils.exe文件
笔记：python spark机器学习与hadoop大数据
2023-01-06 13:35

长度735的博客机器学习技术不断进步，应用相当...Spark是一个弹性的运算框架，适合进行Spark Streaming数据流处理、Spark SQL互动分析、MLlib机器学习等应用，因此Spark可作为一个用途广泛的大数据运算平台。Spark 允许用户将数据。
用一个例子告诉你怎样在spark中创建RDD
2023-02-25 17:07

广阔天地大有可为的博客用一个例子告诉你怎样在spark中创建RDD
没有解决我的问题, 去提问

悬赏问题

¥15 求解 yolo算法问题
¥15 虚拟机打包apk出现错误
¥30 最小化遗憾贪心算法上界
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝

java spark获取多个gz文件时怎样提高速度

1条回答 默认 最新

悬赏问题

1条回答默认最新