MapReduce的过程中，在不同的阶段中间数据是存储在哪里，内存还是本地磁盘还是hdfs？

hadoop的MapReduce的过程中，与spark纯内存计算不同，在不同的阶段中间数据是存储在哪里，内存还是本地磁盘还是hdfs？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Vincent_YWY 2021-11-18 11:30
关注
map输出结果会先写到缓存中，缓存写满后会产生溢写，把中间结果归并写到本地磁盘中。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

大数据中HDFS、MapReduce、Hbase常见工作执行流程总结
2022-07-06 17:53

大数据下的画像人的博客 大数据中HDFS、MapReduce、Hbase常见工作执行流程总结
如何在Java中实现高效的海量数据处理：从MapReduce到大数据平台
2024-08-30 22:02

省赚客app开发者的博客从MapReduce到现代大数据平台，如Hadoop生态系统和Apache Spark，Java开发者可以利用这些强大的工具来高效处理海量数据。通过合理的优化策略，开发者能够显著提升大数据处理的性能，并满足各种复杂应用场景的需求。...
大数据-什么是MapReduce？&&数据本地化&MapReduce原理及执行流程&&Shuffle的调优
2020-08-31 15:58

静坐听雨笙的博客将计算过程拆分为2个阶段：Map映射阶段和Reduce规约阶段如图所示： MapReduce在对文件进行计算的时候，会先将文件进行切片，切片和切块不一样，每个切片对应MapTask默认情况下，每一个MapTask在拿到切片之后...
【Big Data】HDFS：大数据时代的分布式存储基石
2025-08-11 16:16

愚者Turbo的博客作为大数据处理的基础设施，HDFS解决了传统文件系统在处理海量数据时面临的扩展性、容错性和吞吐量瓶颈问题，为MapReduce等分布式计算框架提供了理想的底层存储支持。本文将从HDFS的诞生背景、架构设计、核心特性到...
大数据基础+Hadoop+HDFS+HBase+Hive+MapReduce+Spark
2025-01-10 23:51

与MapReduce相比，Spark能够更快地处理数据，因为它能够将中间结果保存在内存中，而不是写入到磁盘。Spark同样构建在HDFS之上，但提供了更多的数据处理工具，包括支持SQL查询的Spark SQL、用于机器学习的MLlib、用于...
【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn
2024-06-29 21:38

黄俊懿的博客 MapReduce是一个分布式离线计算框架，专门用于处理大数据场景中与实时性无关的一些离线计算任务。MapReduce的数据输入一般是HDFS，然后经过InputFormat进行输入格式化，变成格式；然后执行用户实现的Mapper类型的map...
HDFS 为何在大数据领域经久不衰？
2022-07-06 20:03

十一技术斩的博客 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS源自于Google的GFS论文，发表于2003年，HDFS是GFS的克隆版大数据中最宝贵、最难以代替的就是数据，一切都围绕数据。HDFS是最早的大数据...
大数据之——Hadoop的HDFS、YARN、MapReduce
2024-10-21 21:27

岑梓铭的博客首先HDFS将【NameNode】部署到一个节点先，分出多个【DataNode】分布到各个节点上，里面分别存储了将总的海量数据分散了的【子数据】，最后还要有一个节点有【Secondary NameNode】来备份【NameNode】的数据；
大数据存储域——HDFS存储系统
2025-08-06 21:49

庄小焱的博客本文介绍了HDFS存储系统，包括其组件、工作机制、实战经验总结、使用场景...文中还展示了如何在SpringBoot项目中使用HDFS，包括引入依赖、配置文件、配置类、操作服务类和控制器层的实现。最后探讨了HDFS的优化设计。
大数据之HDFS磁盘扩容(linux磁盘扩容)
2024-06-06 11:41

梦想一直在路上的博客本文以扩容/dev/vdb1 分区为例，命令中/dev/vdb 与1之间需要使用空格分隔。/dev/vdb1 分区容量为32G，文件系统类型为ext4，已挂载至/www。返回结果如下，则表示已扩容成功（/dev/vdb1分区由32G扩容至53G）/dev/vda ...
没有解决我的问题, 去提问

MapReduce的过程中，在不同的阶段中间数据是存储在哪里，内存还是本地磁盘还是hdfs？

2条回答 默认 最新

2条回答默认最新