2 xiongfurui6 xiongfurui6 于 2015.06.05 11:51 提问

怎么实现hadoop的并行化

现在分布式的hadoop已经搭建完成,在master节点上写并行代码,在master节点上运行,就可以实现代码的并行化吗?用不用在slave节点上写代码。谢谢

2个回答

llx1943llx
llx1943llx   2015.06.08 09:17

这和master、slave一点关系都没。
hadoop 的mapreduce之所以能并行,是因为数据分片的概念。数据被分片之后,每个可以由不同的节点去进行计算。
你需要做的是写你的MapReduce程序,然后配置好hadoop集群(运行作业的时候打开yarn的监控页面查看世纪的运行状态),这就可以了。
建议你先潜心看下书吧,基本概念的都没。

jianjian1992
jianjian1992   2015.06.14 20:55

hadoop的编程框架是map+reduce,它的并行则是通过对数据分片split,在每个分片上并行执行map,之后对map输出的中间结果进行排序再分派给reduce,
之后在reduce上的运行也是并行的,所以hadoop编程主要是找到可并行部分,然后在map或reduce函数中编写相关的并行代码既可以。

Csdn user default icon
上传中...
上传图片
插入图片