spark的DataFrame forEach导致的OOM问题

有个困扰已久的问题,有一张hive大表,15G,集群可用剩余内存18G;
现在的想法是,想把表一行一行的读进来,然后处理,类似于mapreduce ,因为spark快点
就不考虑用MR了,但是df.foreach()这个方法是默认把整张表读进内存的,立马oom,
请问有没有大神指定怎么能,一行一行的读,然后处理。。。。。。。。。。。

1个回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问