有个困扰已久的问题,有一张hive大表,15G,集群可用剩余内存18G; 现在的想法是,想把表一行一行的读进来,然后处理,类似于mapreduce ,因为spark快点 就不考虑用MR了,但是df.foreach()这个方法是默认把整张表读进内存的,立马oom, 请问有没有大神指定怎么能,一行一行的读,然后处理。。。。。。。。。。。
收起
当前问题酬金
¥ 0 (可追加 ¥500)
支付方式
扫码支付
支付金额 15 元
提供问题酬金的用户不参与问题酬金结算和分配
支付即为同意 《付费问题酬金结算规则》
http://www.cnblogs.com/jiangxiaoxian/p/7442022.html
报告相同问题?