分享使我快乐Hasaki
2017-10-30 07:25spark的DataFrame forEach导致的OOM问题
有个困扰已久的问题,有一张hive大表,15G,集群可用剩余内存18G;
现在的想法是,想把表一行一行的读进来,然后处理,类似于mapreduce ,因为spark快点
就不考虑用MR了,但是df.foreach()这个方法是默认把整张表读进内存的,立马oom,
请问有没有大神指定怎么能,一行一行的读,然后处理。。。。。。。。。。。
- 点赞
- 回答
- 收藏
- 复制链接分享
1条回答
为你推荐
- 想问如何例如for循环创建一个dataframe(py3)
- python
- 开发语言
- 1个回答
- 在使用dataframe.ReadCSV时指定分隔符
- it技术
- 互联网问答
- IT行业问题
- 计算机技术
- 编程语言问答
- 1个回答
- 求大神指教!!!python dataframe apply 函数报错
- python
- 1个回答
- 如何用Python的pandas实现DataFrame列的字符串截取
- python
- list
- 3个回答
- dataframe将某列数据变为column索引
- python
- 1个回答
换一换