关注
码龄
粉丝数
原力等级 --
被采纳
被点赞
采纳率
DV2
2016-06-04 08:25
浏览 1585
首页
已结题
Spark RDD和HDFS数据一致性问题
这里想问个问题。
我用Spark SQL从HDFS load上来了一张表。
然后我现在有如下两种情况:
新增数据都是通过Spark SQL load进去的
这时候我HDFS和RDD上面的数据是否一致
我数据是直接load到了HDFS上面(例如是个分区表,增加了一个分区)
这时候我HDFS和RDD上面的数据是否一致
麻烦给出详细的原理过程或者参考链接
收起
写回答
好问题
0
提建议
关注问题
微信扫一扫
点击复制链接
分享
邀请回答
编辑
收藏
删除
收藏
举报
0
条回答
默认
最新
查看更多回答(-1条)
向“C知道”追问
报告相同问题?
提交
关注问题
spark
RDD
中的partition和
hdfs
中的block的关系
2017-08-29 17:45
sunkl_的博客
hdfs
为主从架构,主节点为NameNode,主节点负责配合journalNode等完成fsimge完整性。从节点为DataNode,从节点负责存储
数据
。节点之间通信。。。好吧跑题了!
hdfs
文件是分布式存储,每个文件根据配置被切分成...
spark
输出
rdd
数据
_使用
Spark
RDD
进行快速
数据
处理
2020-12-31 13:33
雯雯呀的博客
Spark
通过其强大的功能和快速的
数据
处理速度使大
数据
世界着火了。根据Typesafe的一项调查,有71%的人具有
Spark
的研究经验,而35%的人正在使用它。该调查显示高增长对Apache
Spark
的认识和在企业中的采用。在迭代...
Spark
RDD
数据
数据
读取:readTextFile和Hadoop
RDD
2024-08-02 01:21
光子AI的博客
《
Spark
RDD
数据
读取:readTextFile和Hadoop
RDD
》 1. 背景介绍 1.1
问题
的由来 在大
数据
时代,
数据
的规模和复杂性都在不断增长。传统的
数据
处理方式已经无法满足现代应用的需求
Spark
RDD
弹性分布式
数据
集——理论
2021-04-09 09:02
唐樽的博客
RDD
简介、五大特征、处理过程、分区原则与方式、窄依赖、宽依赖、stage的划分、DAG(有向无环图)、持久化机制、容错机制、血统( Lineage )方式、 设置检查点(checkpoint)方式、
Spark
的任务调度。
Spark
RDD
弹性分布式
数据
集原理与代码实例讲解
2024-08-14 11:53
光子AI的博客
Spark
2.0 引入了 DataFrame 和 Dataset,它们提供了更高级的 API 和优化,未来
RDD
将与它们更好地集成。
Spark
将继续支持新的硬件平台,例如 GPU 和 FPGA,以提高计算性能。
Spark
将继续加强对机器学习和深度学习...
Spark
RDD
优化
2024-07-10 09:55
叶域的博客
Spark
RDD
优化 一、分区优化 二、持久化优化 三、依赖优化 四、共享变量优化 五、提交模式与运行模式优化 六、其他优化 一、分区优化 分区数调整:
RDD
的分区数可以通过repartition和coalesce方法进行调整。...
Spark
RDD
Instrocution
2018-07-01 17:04
这种设计有利于
数据
一致性
。 - **计算步骤而非
数据
集合**:
RDD
关注的是
数据
的转换过程而不是
数据
本身。 #### 三、创建
RDD
##### 1. 并行化集合 通过调用
Spark
Context 的 `parallelize` 方法,可以在驱动程序...
Spark
RDD
啊 啊啊
2024-11-06 22:53
同时,
RDD
的不变性也支持了高效的容错机制,无需通过复杂的锁机制来管理
数据
一致性
,从而可以实现更细粒度的优化。
RDD
作为
Spark
中的核心
数据
结构,以其独特的设计理念和高效的操作方式,为大
数据
处理提供了一种...
基于Apache
Spark
和Lucene构建的分布式全文索引与检索系统-为
Spark
RDD
提供高效索引功能并将索引
数据
持久化存储于
HDFS
分布式文件系统-通过整合Lucene强.zip
2025-10-26 20:17
HDFS
作为大规模
数据
存储的基础设施,能够保证
数据
在分布式环境中的
一致性
,同时支持跨多个
数据
节点的并行操作,这为处理大
数据
提供了坚实的基础。 系统的主要特点包括: 1. 利用
Spark
的
数据
处理能力,可以对大规模...
spark
数据
处理-
RDD
2020-08-11 01:29
一个散步者的梦的博客
spark
RDD
计算,共享变量,
数据
读写;
没有解决我的问题,
去提问
向专家提问
向AI提问
付费问答(悬赏)服务下线公告
◇ 用户帮助中心
◇ 新手如何提问
◇ 奖惩公告