自己写的hadoop ，MapReduce程序不能并行

**

学习hadoop有一段时间了，在写hadoop 程序时，尽管是根据官方例子，套着模板写出的，但是不能达到真正意义上的并行，也就是说，各分机没有任务运行。

**
运行环境如下：
操作系统： centOS6.3 32位， jdk1.7， hadoop-1.0.3， 1台master,3台worker。

为了具体说明问题，程序如下：

package campus;

import java.io.IOException;
import java.net.URI;
import java.util.Set;
import java.util.TreeSet;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Reducer.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class TestSmsMR {
// map
public static class TSmsMap extends
Mapper {
private static Text keyWord = new Text(); //第一个结点
private static Text valueWord = new Text(); //第二个结点

        public void map(Object key, Text value, Context context) {   // value: tag: 0 1 u 

            String line = value.toString();
            String[] arr = line.split(" |\u0009|\\|");      // 通过 空格、 \t、 | 分割字符串


                if ( !(arr[0].equals(arr[1])) ) {
                    try {
                        String tmpKey = arr[0];

                        String tmpValue = "";

                        for(int i = 1; i < arr.length; i ++){
                            tmpValue += arr[i] + " ";
                        }

                        keyWord.set(tmpKey);
                        valueWord.set(tmpValue);
                        // 数据是非对称的，这就需要使用一次 write
                        context.write(keyWord, valueWord);

// context.write(valueWord, keyWord); //添加这句的话，必须先看图文件,如果重复则不需要这一行
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} // 这种方法可行
}

        }
    }


    //reduce write<Text,Set<Text>>
    public static class TSmsReduce extends
            Reducer<Text, Text, Text, Text> {

        private static Text keyStr = new Text();
        private static Text valueStr = new Text();

        public void reduce(Text key, Iterable<Text> values,Context context) {

            String writeKey = key.toString();

            String writeValues =  "";

            for (Text val : values) {

                writeValues +=  val.toString() + "\t";
            }

            keyStr.set(writeKey);
            valueStr.set(writeValues);

// System.out.println("writeKey: " + writeKey + "\twriteValues: " + writeValues);

            try {
                context.write(keyStr, valueStr);
            } catch (IOException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            } catch (InterruptedException e) {
                // TODO Auto-generated catch block
                e.printStackTrace();
            }
        }

    }

    public static void preExectue(String inputPath, String outputPath)
            throws Exception {
        Configuration conf = new Configuration();

// conf.setBoolean("mapred.compress.map.output", true);
conf.setBoolean("mapred.output.compress", true);
// conf.setIfUnset("mapred.map.output.compression.type", "BLOCK");
conf.setClass("mapred.map.output.compression.codec", GzipCodec.class, CompressionCodec.class);
conf.addResource(new Path("/usr/hadoop/conf/core-site.xml"));
conf.addResource(new Path("/usr/hadoop/conf/hdfs-site.xml"));
// 如果 outputPath 存在，那么先删除
Path outPutPath = new Path(outputPath);
FileSystem fs = FileSystem.get(URI.create(outputPath), conf);
fs.delete(outPutPath);
// 自己添加路径
String[] ars = new String[] { inputPath, outputPath };
String[] otherArgs = new GenericOptionsParser(conf, ars)
.getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: sotTest ");
System.exit(2);
}
Job job = new Job(conf, "TestSmsMR");
job.setJarByClass(TestSmsMR.class);
job.setMapperClass(TSmsMap.class);
job.setReducerClass(TSmsReduce.class);
// job.setNumReduceTasks(4);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class); //
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        if (job.waitForCompletion(true)) {
            System.out.println("The preprocess mapreduce has finished!");
        }

    }

    //main函数测试都好着，为什么就不能并行呢
    public static void main(String[] args) throws Exception {

        Long startTime = System.currentTimeMillis();
        String srcPath = "campusSms";
        String dstPath = "campusSmsLabelOut";

        preExectue(srcPath,dstPath);
        Long runTime = System.currentTimeMillis() - startTime;
        System.out.println("run time: " + runTime);
    }

}

还是觉得问题出在这个函数上：
public static void preExectue(String inputPath, String outputPath)

运行前提是：环境已搭建好，而且测试主机分机都能正常通信，且主机从机都起来了。希望解答时，能多考虑些编程方面的问题。

该程序运行起来，就是在主机上跑，MapReduce机制到分机并没有得到任务，运行的数据250M，按照hadoop默认块64M来算，也应该分为4块，3台分机应得到执行任务的，可是程序就是不能并行。

请有经验的hadoop学习实践者给予指导。

在集群上运行Pi值计算，都能看到并行。就是自己写的程序，不行！......

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
qingqingdede 2016-01-30 08:41
关注
请问解决了吗？怎么查看作业是否分配到了各个子节点？

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Hadoop mapreduce传值问题 hadoop mapreduce 推荐算法
2018-04-25 00:52

回答 1 已采纳 step4输出的是 UserId\tItemId,Score，也就是Step5的Map的step4数据KEY是UserId，map的step2的数据KEY是itemID，肯定没办法走到同一个循环。
大数据、Hadoop hadoop 大数据
2022-12-19 16:44

回答 1 已采纳 format只需要对NameNode做，如果你在node3做了也没关系，删除node3上的、hdfs-site.xml中配置的NameNode对应的目录即可，然后在node1上也删除相同的目录后，重新
在eclipse运行hadoop mapreduce例子报错 eclipse hadoop mapreduce
2017-09-06 01:16

回答 1 已采纳 http://blog.csdn.net/jack85986370/article/details/51902871
大数据｜MapReduce模型 | Hadoop MapReduce的基本工作原理
2023-03-29 08:07

啦啦右一的博客 MapReduce模型 | Hadoop MapReduce的基本工作原理
MapReduce，hadoop,eclipse hadoop java mapreduce
2022-12-15 20:47

回答 1 已采纳这些都是日志，包含处理进度、数据处理的一些统计信息，比如数据条数、所占空间大小等。
debug调试无法运行 Method threw.Cannot evaluate org.apache.hadoop.mapreduce.Job.toString() hadoop mapreduce 大数据有问必答
2023-04-05 23:37

回答 2 已采纳参考这篇文章试下https://blog.csdn.net/weixin_37895026/article/details/125660368
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
尚硅谷大数据hadoop教程_mapReduce
2023-05-30 23:35

莫等闲白了少年头的博客 mapReduce三类进程。
org.apache.hadoop.fs.Options$ChecksumCombineMode hadoop mapreduce 大数据
2022-08-22 18:57

回答 3 已采纳大概率就是这个依赖与其他依赖产生了冲突，题主试一下去pom文件中，更改一下配置，将这个配置删除，就OK了
运行Hadoop自带的MapReduce例子求PI值异常 hadoop
2023-04-09 21:34

回答 1 已采纳你的数据节点没有找到，所以没法计算，还是配置的问题，好好检查检查
hadoop mapreduce 在编写好的程序下运行程序出现错误，求错误所在 hadoop
2015-09-01 03:16

回答 1 已采纳这是因为你上传到HDFS上的文件的格式不对，应该是 UTF-8。
大数据之hadoop中的MapReduce（WordCount实例）
2021-11-18 11:29

独创之上的博客 MapReduce 是一个分布式运算程序的编程框架，是用户开发“基于 Hadoop 的数据分析应用”的核心框架。 MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序，并发运行在一个...
Eclipse里如何debug跟踪MapReduce程序到hadoop源码里？ hadoop java mapreduce
2015-07-31 08:43

回答 2 已采纳 print is all you need
基于Hadoop下MapReduce框架实现的的并行C4.5算法.zip
2023-12-16 23:07

# 基于Hadoop下MapReduce框架的并行C4.5算法 > 项目来源于**西南交通大学**信息科学与技术学院**计算科学与技术专业**毕业设计 ## 说明 * 程序利用Eclipse EE在Hadoop平台下，使用Map/Reduce编程框架，将传统的C...
Hadoop-分布式并行编程模型MapReduce
2022-06-21 12:00

Eureka_MAN的博客 MapReduce是一种分布式并行编程模型，用于大规模数据集(大于1 TB)的并行运算，它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数Map和Reduce上，并且允许用户在不了解分布式系统底层细节的情况下...
没有解决我的问题, 去提问

悬赏问题

¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度
¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet，要求快速高效
¥15 再不同版本的系统上，TCP传输速度不一致
¥15 高德地图2.0 版本点聚合中Marker的位置无法实时更新，如何解决呢？
¥15 DIFY API Endpoint 问题。
¥20 sub地址DHCP问题

自己写的hadoop ，MapReduce程序不能并行

学习hadoop有一段时间了，在写hadoop 程序时，尽管是根据官方例子，套着模板写出的，但是不能达到真正意义上的并行，也就是说，各分机没有任务运行。

2条回答 默认 最新

悬赏问题

2条回答默认最新