mapreduce中，maptask读取很大的文件会不会将内存撑爆？

mapreduce按块读取数据（默认128M），如果文件很大，那么就会起很多个maptask。每个maptask读取数据后会写入到各自的环形缓冲区（默认100M）。假设有1000个maptask，那么是不是就得需要 1000*100M内存？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
暴躁码农 2020-12-28 15:05
关注
我没用过Hadoop，但我还是想叭叭。

我觉得不是啊，如果按块读取大文件确实会启很多歌maptask，每个maptask确实可能超出各自的环形缓冲区造成oom，但还可以溢写呀。先写磁盘里，然后再合并。

瞎叭叭一句，不对再说。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

java map 内存分配_mapreduce 内存分配
2021-03-11 14:28

南风寺山的博客稍微有点mapreduce使用经验的同学肯定对OOM不陌生，对的，我目前在mapReduce里面遇到的最多的报错也是内存分配出错，所以看到好多hadoop执行脚本里面有好多关于内存的参数，虽然是知道和内存分配有关系，但是我依然...
MapReduce读取单词个数.rar
2020-03-11 15:16

在这个案例中，“读取单词”意味着Map函数会扫描文本文件，分割出单词，并将每个单词作为键（可能是单词本身），出现次数作为值（通常是1）。 Reduce阶段则负责收集Map阶段产生的所有键值对，对相同的键进行归并，...
MapReduce读取数据
2022-10-07 16:26

悠然予夏的博客介绍了MapReduce读取数据类，以及如何自定义类实现文件读取
23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化
2023-05-01 17:44

一瓢一瓢的饮 alanchanchn的博客 hadoop yarn支持内存与CPU两种资源的调度...在YARN集群中，平衡内存、CPU、磁盘的资源的很重要的，根据经验，每两个container使用一块磁盘以及一个CPU核的时候可以使集群的资源得到一个比较好的利用。主要涉及参数有。
MR中MapTask的工作机制
2022-12-03 19:55

健鑫.的博客简单来说，inputFile通过split...存放map的输出结果，当缓冲区快满的时候，将缓冲区的数据以临时文件的方式溢写到磁盘，整个map task结束后，对磁盘中这个maptask产生的所有临时文件进行合并，生成最终文件，等待reduc
大数据技术使用java实现MapReduce对文件进行切分，分类汇总
2022-01-17 20:16

liangzai2048的博客大数据技术使用java实现MapReduce对文件进行切分，分类汇总
MapTask和ReduceTask运行机制、MapReduce的 shuffle 过程
2019-11-20 13:01

依旧ฅ=ฅ的博客一、MapTask运行机制详解以及Map任务的并行度整个Map阶段流程大体如上图所示。简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给map（用户自己实现的）进行处理，数据被map...
MapReduce的Join解析（Java代码实现map-join）
2021-11-10 18:28

KG大数据的博客目录0- 引言1- Reduce Join（会出现数据倾斜）2- Map Join 0- 引言 ...通过将关联条件作为Map输出的key，将两表满足Join条件的数据并携带数据所来源的文件信息，发往同一个ReduceTask，在Reduce中进行
mapreduce java参数_MapReduce 基本优化相关参数
2021-02-28 11:53

陈人的博客 MapReduce优化优化(1)资源相关参数：以下参数是在自己的 MapReduce 应用程序中配置就可以生效mapreduce.map.memory.mb: 一个 Map Task 可使用的内存上限(单位:MB)，默认为 1024。如果 Map Task 实际使用的资源量超过...
MapReduce-Map阶段和Reduce阶段
2023-05-23 17:44

一个渣渣sql_boy的博客编写mapreduce的java代码需要实现三个类Driver、Mapper、Reducer，overwritter里面的相关方法快速排序：源码是先按照key排序，key相同按照value排序大数据文件：第6步中的一个大数据文件是指一个maptask生成一个，...
没有解决我的问题, 去提问

mapreduce中，maptask读取很大的文件会不会将内存撑爆？

3条回答 默认 最新

3条回答默认最新