spark的DataFrame forEach导致的OOM问题

有个困扰已久的问题，有一张hive大表，15G，集群可用剩余内存18G；
现在的想法是，想把表一行一行的读进来，然后处理，类似于mapreduce ，因为spark快点
就不考虑用MR了，但是df.foreach()这个方法是默认把整张表读进内存的，立马oom，
请问有没有大神指定怎么能，一行一行的读，然后处理。。。。。。。。。。。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2017-10-30 13:56
关注
http://www.cnblogs.com/jiangxiaoxian/p/7442022.html

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

dataframe重复行保留问题 python
2022-06-01 16:36

回答 1 已采纳至少做个demo出来，更好理解。也免去了答主自己变数据。 df=pd.DataFrame({'a':[0,1,2,1,2],'b':[0,3,4,5,4],'c':[11,12,13,14,0]})
dataframe分类排序优化问题 python
2021-03-24 19:23

回答 1 已采纳试试这个 temp = df.groupby('category')['data'].nlargest(4).reset_index() temp.drop('level_1',axis=1)
Dataframe值替换问题 python
2021-05-19 11:47

回答 1 已采纳方法1:data2.loc[data2['本月费用'] < 0 ,'本月费用'] = 0 方法2: data2['本月费用'] = [0 if i <0 else i for i in
详解Spark Java使用DataFrame的foreach/foreachPartition
2020-01-07 08:58

Therefore丶的博客 Spark已更新至2.x，DataFrame归DataSet管了，因此API也相应统一。本文不再适用2.0.0及以上版本。 DataFrame原生支持直接输出到JDBC，但如果目标表有自增字段（比如id），那么DataFrame就不能直接进行写入了。因为...
Python Dataframe 列值筛选问题 python 数据挖掘有问必答
2021-05-14 15:44

回答 3 已采纳 import pandas as pd import numpy as np data = pd.DataFrame([47601, 2171, 79059, 10236, 4240, -5545,
Python Dataframe 合并问题 python
2023-04-07 17:36

回答 3 已采纳该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下：可以使用 Pandas 中的 merge 函数来实现两个 DataFrame 的合并，具体操作如下： import pandas a
python中DataFrame问题 python
2023-03-06 17:10

回答 4 已采纳 “Devil组”引证GPT后的撰写：用条件语句和loc属性来实现。假设你的DataFrame对象为df，想要处理的列为column_name，则可以使用以下代码： # 使用loc属性选择要修改的列，并
spark java foreach_Spark Java使用DataFrame的foreach/foreachPartition
2021-02-26 13:06

椅测sir的博客 Spark已更新至2.x，DataFrame归DataSet管了，因此API也相应统一。本文不再适用2.0.0及以上版本。DataFrame原生支持直接输出到JDBC，但如果目标表有自增字段(比如id)，那么DataFrame就不能直接进行写入了。因为...
DataFrame的index问题 python 有问必答
2021-06-24 10:39

回答 2 已采纳用df.set_index()转换一下即可。 df.reset_index(inplace=True) df: 2009 2010 2011 2012 A 30 20 1
python dataframe 问题 python 有问必答
2022-04-11 14:45

回答 4 已采纳在pandas中直接使用datetime的属性year即可转换： import pandas as pd df=pd.DataFrame({'date':['2001-01-01','2022-03
spark数据抽取显示DataType bigint(20) is not supported.(line 3, pos 3) spark 大数据
2023-04-24 12:18

回答 1 已采纳参考CHATGPT和自己的理解回答，希望能帮到你使用Spark时遇到了一个数据类型不支持的问题。您正在尝试使用bigint(20)数据类型，但是出现了异常，提示该数据类型不受支持。 Spark SQL
记一次Spark foreachPartition导致OOM
2022-07-18 11:54

南风知我意丿的博客 1、对于我们写的function函数，就调用一次，一次传入一个partition所有的数据2、主要创建或者获取一个数据库连接就可以3、只要向数据库发送一次SQL语句和多组...一下子进来，很有可能会发生OOM，内存溢出的问题。...
关于dataframe的问题 python
2022-06-06 13:26

回答 1 已采纳用loc来取，而且行（索引）在前 print(comment_and_freshness.loc[0,'comments'])
spark foreach java_Spark Java使用DataFrame的foreach/foreachPartition
2021-02-26 10:19

weixin_39579483的博客 Spark已更新至2.x，DataFrame归DataSet管了，因此API也相应统一。本文不再适用2.0.0及以上版本。DataFrame原生支持直接输出到JDBC，但如果目标表有自增字段(比如id)，那么DataFrame就不能直接进行写入了。因为...
spark mysql oom_spark调优篇-oom 优化(汇总)
2021-02-09 22:00

寒山皓月的博客 spark 之所以需要调优，一是代码执行效率低，二是经常 OOM内存溢出内存溢出无非两点：1. Driver 内存不够2. Executor 内存不够Driver 内存不够无非两点：1. 读取数据太大2. 数据回传Executor 内存不够无非两点：1. ...
没有解决我的问题, 去提问

悬赏问题

¥20 双层网络上信息-疾病传播
¥50 paddlepaddle pinn
¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样