关于spark离线程序读写本地文件的问题

我目前在学着写spark离线程序，用Java写的
目前我要做的是：在java代码里读取服务器上的/root/config.properties配置文件,
然后我处理完之后会生成一个文件file.txt,我希望将这个file.txt也放到该服务器的特定目录下。
目前我读取配置文件的做法是：先将config.properties上传到hdfs，
然后java代码中写prop.load("hdfs:///root/config.properties");
这样是可以达到效果的，但事实上我不可能每次都手动将配置文件放一下hdfs。
生成的文件在哪目前我还没测试。。。
请大佬指点下这个需要怎么做。包括java代码里和sh脚本里。谢谢。
大佬给代码的时候请详细点，因为不会，能顺带加点注释就最好了。
我测试能用的话保证立马采纳。
环境是jdk1.8和spark2.2，linux系统

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
sf_www 大数据领域新星创作者 2018-09-11 23:34
关注
读取数据文件的接口不是有SparkContext的textFile么，读取本地文件只是需要指明file://即可（但是要保证所有节点本地上都有该文件，路径一致），
所以一般不会去读取本地的数据文件，而是读取hdfs文件。对于你说的是不是想要加载自己的配置文件，一种是直接打包到jar中去，一种是加载
本地配置文件的话，可以使用SparkContext的addFile接口，然后获取时使用SparkFiles.get()接口即可获取到

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

编辑

预览

报告相同问题？

关注问题

基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目
2024-03-04 02:36

在大数据处理领域，构建一个基于Sqoop、Hive、Spark、MySQL、AirFlow和Grafana的工业大数据离线数仓项目是一项复杂而关键的任务。这个项目旨在整合来自不同源头的数据，进行清洗、转化和分析，以支持制造行业的决策...
27：Spark2.3.x SQL大数据项目离线分析.rar
2024-03-07 22:28

《Spark2.3.x SQL大数据项目离线分析》 Spark作为一个强大的大数据处理框架，自2.3.x版本以来，其SQL支持和性能优化有了显著提升，使得它在大数据项目的离线分析领域扮演了重要角色。本项目旨在深入探讨Spark如何在...
大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1
2022-08-03 08:50

在构建大数据处理环境时，Hadoop、HBase、Spark和Hive是四个核心组件，它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**：Hadoop是Apache...
大数据开发离线计算框架知识点总结
2022-10-11 10:17

我想去吃ya的博客 Hadoop是一个分布式系统架构，由Apache基金会所开发，其...MapReduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。
spark大数据技术与应用
2024-03-11 13:19

2301_77235736的博客有一个误区，Spark 是基于内存的计算，所以快，这不是主要原因，要对数据做计算，必然得加载到内存，Hadoop 也是如此，只不过 Spark 支持将需要反复用到的数据给 Cache 到内存中，减少数据加载耗时，所以 Spark 跑...
大数据项目仓库、涉及 Hadoop、Spark、Kafka、Hbase.zip
2024-04-09 13:57

在大数据处理领域，Hadoop、Spark、Kafka和HBase是四个至关重要的组件，它们各自承担着不同的职责，共同构建了高效、可扩展的数据处理框架。以下是对这四个技术的详细解析： 1. Hadoop：Hadoop是Apache基金会的一个...
Spark大数据技术与应用
2024-03-04 07:00

yao＿o的博客 Spark的中间数据存放于内存中，有更高的迭代运算效率，而Hadoop mapreduce的中间数据存放于HDFS中，涉及硬盘的读写，运算效率相对较低。一般特点是：数据以行为单位，一行数据表示一个实体的信息，每一行数据的属性...
大数据模型、离线架构、实时架构
2023-03-18 04:08

石工记的博客 2）、分布式计算平台：分布式计算采用Spark生态在大数据分析中，可以使用Spark解决问题，就不要考虑Flink框架。本项目使用Structured Streaming开发实时部分，同时离线计算使用到SparkSQL，而Spark的生态相...
Spark离线开发框架设计与实现
2022-05-11 08:01

魏小言的博客 Spark离线开发框架设计与实现导读：本文介绍了开发框架的整体设计，随后对各模块进行了拆解，重点介绍了如何快速实现应用程序的开发，并从设计思路、实现方式、功能介绍及创建方式等角度对通用的数据回溯应用进行...
大数据开发-大数据自动化部署-包括hadoop+hive+hbase+spark+storm等组件.zip
2024-04-02 09:09

本资料主要涵盖了大数据开发以及自动化部署相关的技术，包括Hadoop、Hive、HBase、Spark和Storm等关键组件。这些组件构成了一个全面的大数据处理生态系统，各自承担着不同的职责。 Hadoop是Apache基金会的一个开源...
没有解决我的问题, 去提问

关于spark离线程序读写本地文件的问题

4条回答 默认 最新

4条回答默认最新