Spark交互查询和数据缓存重用

最近想学习一下Spark，也运行了一下Spark的sample。
这里有一点点问题想请教一下。

我使用的Spark版本：1.6.0 和 2.0.0。6台虚拟机，每台8g内存；分处于两台实体机上，各3台。
部署模式：standalone

我在学习Spark的过程中，任务的提交方式都是先编写好Spark程序（spark-shell的方式先不论），然后通过spark-submit脚本提交并执行任务。在2.0.0上也长尝试过使用Java代码调用任务提交，本质上感觉跟spark-submit没有区别。

现在我有一个这样的需求：
两个数据集根据指定字段求交集
（一个有数十亿条记录，每天大约会有十万到百万条记录的增量；另一个可能是数万条记录，每天几十条增量）

实际操作的时候会对两个数据集进行筛选然后在求交集（例如根据时间只使用某天或某段时间都记录）。

我想知道Spark有没有这样一个机制：
1、提交任务后，将读取的数据集（RDD或DataFrame）缓存下来（写成文件或保存到内存），以后使用到这个数据的时候直接读取这个文件而不需要到源系统中重新读取数据。
2、这个任务可以和外部程序进行交互（选择数据源，按照用户选择的过滤条件进行过滤，按照指定的条件求交集）
3、任务执行完成后不退出（因为我发现每次提交任务后申请资源到任务执行需要很久，不知是否机器配置低的原因），外部程序需要使用的时候可以直接使用这个任务（进行 1 中的操作）

基础不好，希望大家不吝赐教。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
zqbnqsdsmd 2016-11-12 15:25
关注
http://blog.csdn.net/wqzghost/article/details/45033733

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java 后台查询数据使用spark Streaming处理 java spark
2017-08-04 10:06

回答 1 已采纳 http://blog.csdn.net/svmachine/article/details/52200761
Spark数据的对比 spark
2021-07-16 16:19

回答 1 已采纳唯一标识为ID第一个思路为：数据都装入两个map中。key为id value为值。json1为map1，json2为map2。id装为两个数组.json1为数组1，json2为数组2。新增的就是j
spark json数据写入mysql数据库问题 json mysql spark
2022-01-25 09:53

回答 1 已采纳问题已解决：参考这个=====>https://blog.csdn.net/weixin_43753599/article/details/122697542?spm=1001.2014.300
数据湖：分布式开源处理引擎Spark
2022-07-28 19:00

YoungerChina的博客 Apache Spark是一种高效且多用途的集群计算平台。...Spark 支持批处理和流处理。批处理指的是对大规模数据一批一批的计算，计算时间较长，而流处理则是一条数据一条数据的处理，处理速度可达到秒级。............
Hadoop和spark hadoop spark
2023-03-01 10:46

回答 2 已采纳 Hadoop中的MR中每个map/reduce task都是一个java进程方式运行，好处在于进程之间是互相独立的，每个task独享进程资源，没有互相干扰，监控方便，但是问题在于task之间不方便共享
spark和hadoop hadoop spark 大数据
2022-12-23 16:57

回答 2 已采纳集群还在启动吧，还是在安全模式，无法创建文件夹，稍等一会儿集群完全启动成功后就可以了。
以flume为数据源的spark streaming flume spark
2022-11-08 20:23

回答 1 已采纳看下是不是还有报错classNotFoundException.应该是你导入包的时候补全少了AvroSourceProtocol相关包或者是版本依赖错了.首先看下这个类是那个jar里面的，然后再分
图解大数据 | 大数据分析挖掘-Spark初步
2022-03-08 19:10

ShowMeAI的博客 Apache Spark是目前最主流和常用的分布式开源处理系统，支持跨多个工作负载重用代码—批处理、交互式查询、实时分析、机器学习和图形处理等。本节ShowMeAI给大家讲解它的相关知识。
spark sql数据如何求交集？ spark sql 大数据有问必答
2022-01-18 20:31

回答 3 已采纳 spark sql中可以使用except来获得两组数据的交集 SELECT * FROM student_1 EXCEPT SELECT * FROM student_2; 你如果是某一行中的某
JAVA服务端如何与SPARK服务器交互？？ java spark 服务器
2015-09-05 14:28

回答 3 已采纳 http://shiyanjun.cn/archives/742.html
大量单条数据使用spark效率高吗？ spark
2018-01-16 08:25

回答 1 已采纳确认几个事情： 1）数据在哪 spark能不能分布式访问比如HDFS 就OK 2）你的spark集群有多大如果只有一两个节点其实和跑多个线程并行计算没多大区别 3）不理解只能单条生成
Spark_RDD的缓存
2021-03-02 15:11

_WeiA的博客标题1.RDD缓存方式2.Spark RDD Cache3.cache和persist的区别 Spark速度非常快的原因之一，就是在...可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。 1.RDD缓存方式缓存方法： RDD通过persist方法或cache
推荐系统&spark和hadoop hadoop python spark
2022-04-22 23:16

回答 1 已采纳 spark：主要用于海量数据的统计计算，跟做不做大屏没关系，比如进行机器学习。hadoop：主要用到的就是数据的分布式存储，海量的数据和日志，如果想留存，就用它来存储吧。做大屏统计是比较直观的数据结果
Spark RDD的缓存
2018-03-05 22:43

Running_Tiger的博客 Spark RDD的缓存Spark速度非常快的原因之一，就是在不同操作中可以在内存中持久化或者缓存数据集。当持久化某个RDD后，每一个...可以说，缓存是Spark构建迭代式算法和快速交互式查询的关键。1. RDD缓存方式RDD通过per
spark输出rdd数据_使用Spark RDD进行快速数据处理
2020-12-31 13:33

雯雯呀的博客 Spark通过其强大的功能和快速的数据处理速度使大数据世界着火了。根据Typesafe的一项调查，有71％的人具有Spark的研究经验，而35％的人正在使用它。该调查显示高增长对Apache Spark的认识和在企业中的采用。在迭代...
没有解决我的问题, 去提问

悬赏问题

¥15 socket通信实现多人聊天室疑惑
¥15 DEV-C++编译缺失
¥33 找熟练码农写段Pyhthon程序
¥100 怎么让数据库字段自动更新
¥15 antv g6 力导向图布局
¥15 quartz框架，No record found for selection of Trigger with key
¥15 锅炉建模+优化算法，遗传算法优化锅炉燃烧模型，ls-svm会搞，后面的智能算法不会
¥20 MATLAB多目标优化问题求解
¥15 windows2003服务器按你VPN教程设置后，本地win10如何连接？
¥15 求一阶微分方程的幂级数

Spark交互查询和数据缓存重用

1条回答 默认 最新

悬赏问题

1条回答默认最新