关于spark离线程序读写本地文件的问题

我目前在学着写spark离线程序,用Java写的
目前我要做的是:在java代码里读取服务器上的/root/config.properties配置文件,
然后我处理完之后会生成一个文件file.txt,我希望将这个file.txt也放到该服务器的特定目录下。
目前我读取配置文件的做法是:先将config.properties上传到hdfs,
然后java代码中写prop.load("hdfs:///root/config.properties");
这样是可以达到效果的,但事实上我不可能每次都手动将配置文件放一下hdfs。
生成的文件在哪目前我还没测试。。。
请大佬指点下这个需要怎么做。包括java代码里和sh脚本里。谢谢。
大佬给代码的时候请详细点,因为不会,能顺带加点注释就最好了。
我测试能用的话保证立马采纳。
环境是jdk1.8和spark2.2,linux系统

4个回答

读取数据文件的接口不是有SparkContext的textFile么,读取本地文件只是需要指明file://即可(但是要保证所有节点本地上都有该文件,路径一致),
所以一般不会去读取本地的数据文件,而是读取hdfs文件。对于你说的是不是想要加载自己的配置文件,一种是直接打包到jar中去,一种是加载
本地配置文件的话,可以使用SparkContext的addFile接口,然后获取时使用SparkFiles.get()接口即可获取到

xiaolin_wxl
xiaolin_wxl 回复chanyue123: 好无奈啊,都说--file能行,但我无论怎样都是file not found
大约一年之前 回复
chanyue123
chanyue123 或者直接在spark-submit参数里加上 --files或者--properties-file 后面加配置文件名,然后在代码里可以直接通过val props = new Properties(); props.load(new FileInputStream("a.properties")) val name = props.getProperty("name")来获取属性值
大约一年之前 回复

首先我来理解一下你的目的:
你现在是有一份properties格式的配置文件,在项目启动的时候你需要加载这份文件,当前你把这份配置文件放在了hdfs上。最终结果也是一个文件,你当前也存在hdfs上。
你的问题是properties文件放在哪里更为合适。
我推荐的做法:
1、像properties文件直接放在项目中,不要把配置文件放在其他地方,除非该文件有特殊需求(比如安全)或者框架需要或者动态配置
2、这样你可以在代码中直接访问到这个配置文件
2.1 如果你的项目是基于spring框架,你可以:

 <bean id="propertyConfigurer" class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer"> 
    <property name="locations"> 
        <list> 
            <value>classpath:system.properties</value> 
        </list> 
    </property> 
</bean>

2.2 如果只是一般工程,你可以:

 <dependency>
    <groupId>commons-configuration</groupId>
     <artifactId>commons-configuration</artifactId>
     <version>1.10</version>
</dependency>
 /**
 * 把配置文件读出来
 */
private static void readBaseDir() {
     String file = Resources.getResource("conf.properties").getFile();
     try {
         PropertiesConfiguration configuration = new PropertiesConfiguration(file);
         TEMP_FILE_DIR = configuration.getString("temp_file_dir");
     } catch (ConfigurationException e) {
         e.printStackTrace();
     }
 }

类似这种方式:
图片说明

xiaolin_wxl
xiaolin_wxl 回复weixin_37893887: 无奈,因为我有几个参数是那种需要记录下来方便下次执行的(可以手动配置也可以执行完后自动记录),还有就是--我刚程序执行完了,提示执行成功,可是我的输出文件却不知道跑到到哪里去了,总归还得io本地文件。大佬回答很尽心尽力,可是解决不了我的问题呀
大约一年之前 回复
weixin_37893887
玄尺 回复xiaolin_wxl: 那我建议你不要使用配置文件,采用jvm参数进行调试,这样效果更好,比如-Dxxx=yyy
大约一年之前 回复
xiaolin_wxl
xiaolin_wxl 回复weixin_37893887: 因为我的代码需求是差不都每次运行都需要改下配置文件的,
大约一年之前 回复
xiaolin_wxl
xiaolin_wxl 回复weixin_37893887: 回复weixin_37893887: 就是直接放项目里的话我打包成jar就不好更改了,你有好的办法么
大约一年之前 回复
weixin_37893887
玄尺 回复xiaolin_wxl: 我的意思是你放到服务器上也麻烦,直接将配置文件放到项目里更简单
大约一年之前 回复
xiaolin_wxl
xiaolin_wxl 额,可能是我表达不清楚,我的意思是,我需要将其放在服务器上,而不是hdfs上,放hdfs上太麻烦,我想要读取和写出的文件都在服务器上,比如/root/目录下,这样字,我在sh脚本和java里要怎么写,求指点
大约一年之前 回复
caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 很详细,建议lz采纳哦
大约一年之前 回复

可以同时提交作业的,没必要每次先手动放配置文件的。写好spark运行时的配置信息后,接着编写其他模块嘛,最后一同提交任务。因为我们每次想要做的
操作不尽相同,每次可能都需要配置一下才能正常运行,不能一劳永逸的,您也是懒得话,自己写一个工具类吧。

简单点说我就是想知道spark程序里怎么读写linux系统里的文件

xiaolin_wxl
xiaolin_wxl 回复weixin_37893887: 不用那个先上传再读的办法,或者说能够整合到代码中的,我只要执行代码,不需要额外操作的
大约一年之前 回复
xiaolin_wxl
xiaolin_wxl 回复weixin_37893887: 你重新回答一下怎么读,能用我就立马采纳
大约一年之前 回复
xiaolin_wxl
xiaolin_wxl 回复weixin_37893887: 那能教我怎么读么
大约一年之前 回复
weixin_37893887
玄尺 spark读文件很容易,但是提交任务是也就是Driver的位置是不确定的,建议使用数据库或者写到hdfs中
大约一年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
spark 如何指定输出文件的文件名?
-
spark读取不了本地文件是怎么回事
-
graphframes安装的详细步骤
-
spark读取hadoop数据的一些问题
-
如何用spark实现:编写spark程序调用外部程序或者调用动态链接库函数,对批量文件进行处理?
-
关于java操作spark读写mongodb
-
我把hive-site.xml放进spark/conf/里后报了一堆警告,怎么处理,不处理有影响吗?
-
如何利用spark计算欧氏距离
-
spark读取本地文件报错
-
spark程序使用scalac先编译再使用scala运行和打成jar包使用spark-submit提交运行有什么区别?
-
Spark Streaming读取kafka数据解析后写入ES,处理效率太低太慢
-
关于spark的RangePartitioner
-
WEB容器调用spark程序分析数据
-
关于Spark on Yarn运行WordCount的问题
-
spark问题,怎么从hdfs获取目录下的文件名
-
求助!spark读取文件问题
-
关于spark RDD求平均的问题
-
spark的rdd 可以看做数组吗?那么 可以随机取里面的数据吗?
-
spark 程序卡在在很长时间,基本没有变化,只有图中的imput在不断增加,求解决
-
程序员实用工具网站
目录 1、搜索引擎 2、PPT 3、图片操作 4、文件共享 5、应届生招聘 6、程序员面试题库 7、办公、开发软件 8、高清图片、视频素材网站 9、项目开源 10、在线工具宝典大全 程序员开发需要具备良好的信息检索能力,为了备忘(收藏夹真是满了),将开发过程中常用的网站进行整理。 1、搜索引擎 1.1、秘迹搜索 一款无敌有良心、无敌安全的搜索引擎,不会收集私人信息,保...
程序员真是太太太太太有趣了!!!
网络上虽然已经有了很多关于程序员的话题,但大部分人对这个群体还是很陌生。我们在谈论程序员的时候,究竟该聊些什么呢?各位程序员大佬们,请让我听到你们的声音!不管你是前端开发...
史上最详细的IDEA优雅整合Maven+SSM框架(详细思路+附带源码)
网上很多整合SSM博客文章并不能让初探ssm的同学思路完全的清晰,可以试着关掉整合教程,摇两下头骨,哈一大口气,就在万事具备的时候,开整,这个时候你可能思路全无 ~中招了咩~ ,还有一些同学依旧在使用eclipse或者Myeclipse开发,我想对这些朋友说IDEA 的编译速度很快,人生苦短,来不及解释了,直接上手idea吧。这篇文章每一步搭建过程都测试过了,应该不会有什么差错。本文章还有个比较优秀的特点,就是idea的使用,基本上关于idea的操作都算是比较详细的,所以不用太担心不会撸idea!最后,本文
1行Python代码制作动态二维码
目录 1、普通二维码 2、艺术二维码 3、动态二维码 在GitHub上发现了一个比较有意思的项目,只需要一行Python代码就可以快捷方便生成普通二维码、艺术二维码(黑白/彩色)和动态GIF二维码。 GitHub网站参见:https://github.com/sylnsfar/qrcode 用法比较简单,直接通过pip安装即可。 pip3 install myqr 安装过程如下所...
全球最厉害的 14 位程序员!
来源 | ITWorld 整理自网络全球最厉害的 14 位程序员是谁?今天就让我们一起来了解一下吧,排名不分先后。01. Jon Skeet个人名望:程序技术问答网站 S...
二十出头,老气横秋
有的时候,我们希望年轻人成熟一点,不要巨婴,不要总是等着别人来解救,要自立,要有担当。但有时候吧,发现有些年轻人,似乎过于成熟了,二十来岁的人,感觉怎么就老气横秋的。1、...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
浅谈滴滴派单算法
本文作者:王犇 滴滴 | 首席算法工程师 导读:说到滴滴的派单算法,大家可能感觉到既神秘又好奇,从出租车扬召到司机在滴滴平台抢单最后到平台派单,大家今天的出行体验已经发生了翻天覆地的变化,面对着每天数千万的呼叫,滴滴的派单算法一直在持续努力让更多人打到车,本篇文章会着重介绍我们是如何分析和建模这个问题,并且这其中面临了怎样的算法挑战,以及介绍一些我们常用的派单算法,这些算法能够让我们不断的提升...
接班马云的为何是张勇?
上海人、职业经理人、CFO 背景,集齐马云三大不喜欢的张勇怎么就成了阿里接班人? 作者|王琳 本文经授权转载自燃财经(ID:rancaijing) 9月10日,张勇转正了,他由阿里巴巴董事局候任主席正式成为阿里巴巴董事局主席,这也意味着阿里巴巴将正式开启“逍遥子时代”。 从2015年接任CEO开始,张勇已经将阿里巴巴股价拉升了超过200%。但和马云强大的个人光环比,张勇显得尤其...
什么是大公司病(太形象了)
点击蓝色“五分钟学算法”关注我哟加个“星标”,天天中午 12:15,一起学算法作者 | 南之鱼来源 | 芝麻观点(chinamkt)所谓大企业病,一般都具有机构臃肿、多重...
代码整洁 vs 代码肮脏
写出整洁的代码,是每个程序员的追求。《clean code》指出,要想写出好的代码,首先得知道什么是肮脏代码、什么是整洁代码;然后通过大量的刻意练习,才能真正写出整洁的代码。 WTF/min是衡量代码质量的唯一标准,Uncle Bob在书中称糟糕的代码为沼泽(wading),这只突出了我们是糟糕代码的受害者。国内有一个更适合的词汇:屎山,虽然不是很文雅但是更加客观,程序员既是受害者也是加害者。 对...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
Github上评分最高的5个项目,带你紧跟潮流
全文共1665字,预计学习时长3分钟 图片来源: Morgan Harper Nichols/Unsplash 毫无疑问,紧跟机器学习世界中所发生的一切是不可能的,然而,Guithub对每个项目都有星级评分。给一个知识库打上星号就等同于欣赏并追踪感兴趣的知识库。 Guithub的博客 这个星级评分是衡量项目关注度的一项标准,本文列举了排名前五的项目。 1. face-recogn...
TED | 怎样戒掉坏习惯,变得更自律?
视频地址:https://www.bilibili.com/video/av66581236 总结一: 自律跟多巴胺神经传递有关,而多巴胺释放更多的是期望而不是奖励。多巴胺在期望中才会增加,这也是多巴胺让我们对一个目标采取行动的原因。 (多巴胺在驱使我们行动上发挥作用) 边缘靶:及时行乐 前皮质靶:延迟行乐 如果大脑跟延迟满足相关的部位(前皮质靶)更多的刺激,那么你就更容易延迟满足。 什么导致大脑...
如何在Windows中开启"上帝模式"
原文链接 : https://mp.weixin.qq.com/s?__biz=MzIwMjE1MjMyMw==&amp;mid=2650202982&amp;idx=1&amp;sn=2c6c609ce06db1cee81abf2ba797be1b&amp;chksm=8ee1438ab996ca9c2d0cd0f76426e92faa835beef20ae21b537c0867ec2773be...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
技术人员要拿百万年薪,必须要经历这9个段位
很多人都问,技术人员如何成长,每个阶段又是怎样的,如何才能走出当前的迷茫,实现自我的突破。所以我结合我自己10多年的从业经验,总结了技术人员成长的9个段位,希望对大家的职...
8000字干货:那些很厉害的人是怎么构建知识体系的
本文约8000字,正常阅读需要15~20分钟。读完本文可以获得如下收益: 分辨知识和知识体系的差别 理解如何用八大问发现知识的连接点; 掌握致用类知识体系的构建方法; 能够应用甜蜜区模型找到特定领域来构建知识体系。 1. 知识体系?有必要吗? 小张准备通过跑步锻炼身体,可因为之前听说过小腿变粗、膝盖受伤、猝死等等与跑步有关的意外状况,有点担心自己会掉进各种坑里,就在微信上问朋友圈一直晒跑步...
轻松搞定移动式钓鱼wifi|热点+kali虚拟机+12元usb网卡
多图预警,建议wifi下阅读文章~~~ 前言 钓鱼wifi相信大家都听说过,但你是否真的懂得钓鱼wifi的原理呢?是否真的能动手去搭建一个移动钓鱼WiFi?是否能想到几点关于钓鱼WiFi的防御手段呢? 希望通过这篇文章分享,能够帮你解答一些上面的疑惑 环境需求 手机热点 kali虚拟机 移动网卡 选用手机热点而不选用一般的wifi,是因为想要搭建一个移动式钓鱼wifi,一个手机热点就可以保障"...
nginx学习,看这一篇就够了:下载、安装。使用:正向代理、反向代理、负载均衡。常用命令和配置文件
文章目录前言一、nginx简介1. 什么是 nginx 和可以做什么事情2.Nginx 作为 web 服务器3. 正向代理4. 反向代理5. 动静分离6.动静分离二、Nginx 的安装三、 Nginx 的常用命令和配置文件四、 Nginx 配置实例 1 反向代理五、 Nginx 配置实例 2 负载均衡六、 Nginx 配置实例 3 动静分离七、 Nginx 的高可用集群 前言 一、nginx简介...
为什么程序员在学习编程的时候什么都记不住?
在程序员的职业生涯中,记住所有你接触过的代码是一件不可能的事情!那么我们该如何解决这一问题? 作者 |Dylan Mestyanek 译者 | 弯月,责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 以下为译文: 每个人都会在学习编程语言的时候,努力记住所有一切,这也不足为奇。虽然有些人可以过目不忘,直接在脑海里就能想出问题的解决方案,但普通人却不能。特别是那些刚...
相关热词 c# 增加元素 c#控制台简单加法 c# 服务端框架 c# 判断事件是否注册 c#中is和has c# udp 连接超时 c#词典 c#实现排列组合 c# oss 上传 c#判断输入的是否为ip

相似问题

2
如何用spark实现:编写spark程序调用外部程序或者调用动态链接库函数,对批量文件进行处理?
2
spark submit 提交集群任务后,spark Web UI界面不显示,但是有4040界面,显示local模式
1
spark一般任务的初始并行度怎么确定?
2
可否让spark算子执行到某一步时,通过某些控制条件,让整个spark程序停止,或者在那一步保存结果到文件?
0
用spark提供的java API写的程序怎么远程提交到集群上运行。
0
Spark Task卡住的问题、Scheduler Delay 很长的问题
1
spark提交任务 cassadra报错,guava版本低于16。0.1,但是检查jar包是19.0的spark本地local模式跑没问题
0
大数据项目技术选型问题请教
0
spark 任务执行时间长,最终卡挂了。
0
在Java中如何使用spark解析邮件
1
请问诸如k-means等大数据分析,在spark上的读取机制以及如何进行存储部署的?
1
请问使用spark的时候,如果使用高性能64核高内存的阿里云服务器,用哪种模式运行比较好?
1
GeoMesa ,SparkJTS求点到线的最短距离
1
spark structured streaming实现每30秒计算前30分钟的用户增长率
0
spark在yarn集群上执行client模式代码
3
Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'
1
spark 读取不到hive metastore 获取不到数据库
1
spark:在reduceByKey中,怎么获取到key的值
1
spring boot 集成spark 初始化spark context 报错,"datanucleus" yet this has not been found