Hadoop mapreduce传值问题

最近mapreduce编写遇到了问题。在step4中，reduce可以同时收到从map中传来的A和B两组数据。但是在step5中的reudce却无法同时收到A、B两组数据，出现了有A没B，有B没A的现象，即A和B无法在同一次循环中出现。

step5，我几乎是从step4复制过来的，很奇怪他们的执行步骤为什么不一样。

step4

import java.io.IOException;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.regex.Pattern;

import org.apache.commons.net.telnet.EchoOptionHandler;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.yarn.logaggregation.AggregatedLogFormat.LogWriter;

//同现矩阵和用户偏好矩阵相乘
public class Step4 {
    public static boolean run(Configuration con, Map<String, String>map) {
        try {
            FileSystem fs = FileSystem.get(con);
            Job job = Job.getInstance();
            job.setJobName("step4");
            job.setJarByClass(App.class);
            job.setMapperClass(Step4_Mapper.class);
            job.setReducerClass(Step4_Reducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(Text.class);
            FileInputFormat.setInputPaths(job, 
                    new Path[] { 
                            new Path(map.get("Step4Input1")),
                            new Path(map.get("Step4Input2"))
                            });
            Path outpath = new Path(map.get("Step4Output"));
            if(fs.exists(outpath)){
                fs.delete(outpath,true);
            }
            FileOutputFormat.setOutputPath(job, outpath);
            boolean f = job.waitForCompletion(true);
            return f;
        }catch(Exception e) {
            e.printStackTrace();
        }
        return false;
    }

    static class Step4_Mapper extends Mapper<LongWritable, Text, Text, Text>{
        private String flag;

        //每次map时都会先判断一次
        @Override
        protected void setup(Context context )throws IOException,InterruptedException{
            FileSplit split = (FileSplit) context.getInputSplit();
            flag = split.getPath().getParent().getName();

            System.out.print(flag+ "*************************");
        }

        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
            String[] tokens = Pattern.compile("[\t,]").split(value.toString());

            //物品共现矩阵
            if(flag.equals("step3")) {
                //  i2:i3 1
                // i2:i2 2

                String[] v1 = tokens[0].split(":");
                String itemID1 = v1[0];
                String itemID2 = v1[1];
                String num = tokens[1];

                Text k = new Text(itemID1);
                Text v = new Text("A:"+itemID2+","+num); //A:i2,1

                context.write(k,v);

            }else if(flag.equals("step2")) {//用户评价矩阵
                // u2 i1:2,i3:4
                String userID = tokens[0];
                for(int i=1;i<tokens.length;i++) {
                    String[] vector = tokens[i].split(":");
                    String itemID = vector[0]; //物品ID
                    String pref = vector[1];//评分

                    Text k = new Text(itemID);
                    Text v = new Text("B:"+userID+","+pref);

                    context.write(k, v);

                }
            }
        }
    }


    static class Step4_Reducer extends Reducer<Text, Text, Text, Text>{
        @Override
        protected void reduce(Text key, Iterable<Text>values, Context context) throws IOException,InterruptedException{
            //A为同现矩阵，B为用户偏好矩阵  
            //某一个物品k，针对它和其他所有物品的同现次数v，都在mapA集合中
        //  Text k = new Text(itemID1);
        //Text v = new Text("A:"+itemID2+","+num); //A:i2,1
        //  context.write(k,v);

            //和该物品（key中的itemID）同现的其他物品的同现集合
            //其他物品ID为map的key，同现数字为值
            Map<String, Integer> mapA = new HashMap<String,Integer>();

            //该物品（key中的itemID），所有用户的推荐权重分数
            Map<String, Integer>mapB = new HashMap<String,Integer>();

            for(Text line:values) {
                String val = line.toString();
                if(val.startsWith("A:")) {
                    String[] kv = Pattern.compile("[\t,]").split(val.substring(2));
                    try {
                        mapA.put(kv[0], Integer.parseInt(kv[1]));
                    }catch(Exception e) {
                        e.printStackTrace();
                    }
                }else if(val.startsWith("B:")) {
                    String[] kv = Pattern.compile("[\t,]").split(val.substring(2));
                    try {
                        mapB.put(kv[0], Integer.parseInt(kv[1]));
                    }catch(Exception e) {
                        e.printStackTrace();
                    }
                }
            }

            double result = 0;
            Iterator<String>iter = mapA.keySet().iterator();
            while(iter.hasNext()) {
                String mapk = iter.next(); //itemID

                int num =mapA.get(mapk).intValue();  // 获取同现值
                Iterator<String>iterb = mapB.keySet().iterator();
                while(iterb.hasNext()) {
                    String mapkb = iterb.next();
                    int pref = mapB.get(mapkb).intValue();
                    result = num*pref;

                    Text k = new Text(mapkb);
                    Text v = new Text(mapk+ "," + result);
                    context.write(k, v);
                }
            }
        }
    }
}

step5


import java.io.IOException;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.regex.Pattern;

import org.apache.commons.net.telnet.EchoOptionHandler;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.yarn.logaggregation.AggregatedLogFormat.LogWriter;




//获得结果矩阵
public class Step5 {
    public static boolean run(Configuration con, Map<String, String>map) {
        try {
            FileSystem fs = FileSystem.get(con);
            Job job = Job.getInstance();
            job.setJobName("step5");
            job.setJarByClass(App.class);
            job.setMapperClass(Step5_Mapper.class);
            job.setReducerClass(Step5_Reducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(Text.class);
            FileInputFormat.setInputPaths(job, 
                    new Path[] { 
                            new Path(map.get("Step5Input1")),
                            new Path(map.get("Step5Input2"))
                            });
            Path outpath = new Path(map.get("Step5Output"));
            if(fs.exists(outpath)){
                fs.delete(outpath,true);
            }
            FileOutputFormat.setOutputPath(job, outpath);
            boolean f = job.waitForCompletion(true);
            return f;
        }catch(Exception e) {
            e.printStackTrace();
        }
        return false;
    }

    static class Step5_Mapper extends Mapper<LongWritable, Text, Text, Text>{
        private String flag;
        //每次map时都会先判断一次
        @Override
        protected void setup(Context context )throws IOException,InterruptedException{
            FileSplit split = (FileSplit) context.getInputSplit();
            flag = split.getPath().getParent().getName();
            System.out.print(flag+ "*************************");
        }
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
            String[] tokens = Pattern.compile("[\t,]").split(value.toString());

            if(flag.equals("step4")) {
                    //  i2:i3 1
                    // i2:i2 2
                Text k = new Text(tokens[0]);
                Text v = new Text("A:"+tokens[1]+","+tokens[2]);
                context.write(k, v);
            }else if(flag.equals("step2")) {//用户评价矩阵
                    // u2 i1:2,i3:4
                    String userID = tokens[0];
                    for(int i=1;i<tokens.length;i++) {
                        String[] vector = tokens[i].split(":");
                        String itemID = vector[0]; //物品ID
                        String pref = vector[1];//评分

                        Text k = new Text(itemID);
                        Text v = new Text("B:"+userID+","+pref);

                        context.write(k, v);
                    }
        }
    }
    }
        //本reduce 负责累加结果
        static class Step5_Reducer extends Reducer<Text, Text, Text, Text>{
            protected void reduce(Text key, Iterable<Text>values, Context context) throws IOException,InterruptedException{
                //其他物品ID为map的key，同现数字为值
                Map<String, Double> mapA = new HashMap<String,Double>();

                //该物品（key中的itemID），所有用户的推荐权重分数
                Map<String, Integer>mapB = new HashMap<String,Integer>();

                for(Text line : values) {
                    String val = line.toString();
                    if(val.startsWith("A:")) {
                        String[] kv = Pattern.compile("[\t,]").split(val.substring(2));
                        String tokens = kv[1];
                        String itemID = kv[0];//物品id
                        Double score = Double.parseDouble(tokens); //相乘结果

                        //相加计算
                        if(mapA.containsKey(itemID)) {
                            mapA.put(itemID, mapA.get(itemID)+score);
                        }else {
                            mapA.put(itemID, score);
                        }

                    }else if(val.startsWith("B:")) {
                        String[] kv = Pattern.compile("[\t,]").split(val.substring(2));
                        try {
                            mapB.put(kv[0], Integer.parseInt(kv[1]));
                        }catch(Exception e) {
                            e.printStackTrace();
                        }
                    }
                }


                Iterator<String> iter = mapA.keySet().iterator();
                while(iter.hasNext()) {
                    String itemID = iter.next();
                    double score = mapA.get(itemID);
                    Text v = new Text(itemID+","+score);
                    Iterator<String>iterb = mapB.keySet().iterator();
                    while(iterb.hasNext()) {
                        String mapkb = iterb.next();
                        Text k = new Text(mapkb);

                        if(k.equals(key)) {
                            continue;
                        }else {
                            context.write(key, v);
                        }
                    }
                }
            }
        }

}

step4和step5配置
图片说明

step4，在for循环中同时出现A和B

step5中，A和B无法出现在同一次循环
有A没B，此时mapB是无法点击开的
直接跳出了for循环进入下面的while循环，此时没有mapB，while无法正常进行

进行了多次step5后，输出完所有mapA之后，在下一次step5才进入mapB，此时轮到mapA是空的，而只有mapB
mapA是空的，只有mapB

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
默默悟问 2018-04-24 18:13
关注
step4输出的是 UserId\tItemId,Score，也就是Step5的Map的step4数据KEY是UserId，map的step2的数据KEY是itemID，肯定没办法走到同一个循环。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

debug调试无法运行 Method threw.Cannot evaluate org.apache.hadoop.mapreduce.Job.toString() hadoop mapreduce 大数据有问必答
2023-04-05 15:37

回答 2 已采纳参考这篇文章试下https://blog.csdn.net/weixin_37895026/article/details/125660368
在eclipse运行hadoop mapreduce例子报错 eclipse hadoop mapreduce
2017-09-05 17:16

回答 1 已采纳 http://blog.csdn.net/jack85986370/article/details/51902871
大数据、Hadoop hadoop 大数据
2022-12-19 08:44

回答 1 已采纳 format只需要对NameNode做，如果你在node3做了也没关系，删除node3上的、hdfs-site.xml中配置的NameNode对应的目录即可，然后在node1上也删除相同的目录后，重新
大数据Hadoop学习（三）MapReduce
2021-07-29 07:23

程序胖的博客目录MapReduce概述定义优缺点核心思想进程常用数据序列化类型MapReduce编程规范实操搭建环境编写程序Hadoop序列化MapReduce框架原理Hadoop数据压缩常见错误及解决办法 MapReduce概述定义 MapReduce是一个分布式...
MapReduce，hadoop,eclipse hadoop java mapreduce
2022-12-15 12:47

回答 1 已采纳这些都是日志，包含处理进度、数据处理的一些统计信息，比如数据条数、所占空间大小等。
Hadoop集群搭建时问题 big data hadoop 大数据
2022-02-09 00:07

回答 1 已采纳题主的hadoop102 和 hadoop103 应该没有开sudo 对吧，直接使用ssh进行命令的启动恐怕是不行的，可以尝试写一个跳转的shell到每个node中进行sudo启动，关于sudo权限
hadoop的端口占用问题 hadoop hdfs 大数据
2022-12-31 15:49

回答 1 已采纳如果你觉得端口号为2181被占用导致了你的resourcemanagerj启动失败的话，你可以使用下面的步骤来检查端口号2181是否被占用：1.在命令行中输入1sof-i:2181,查看端口号2181
Hadoop中的MapReduce的祥解
2018-02-23 02:50

wsfd600的博客 Hadoop中的MapReduce的整体讲解如果将 Hadoop 比作一头大象的话，那么 MapReduce 就是那头大象的大脑。 MapReduce是 Hadoop 核心编程模型。在 Hadoop 中，其数据处理核心为 MapReduce 程序设计模型。 MapReduce 把...
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 05:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
hadoop的运行问题 hadoop
2023-03-20 07:43

回答 1 已采纳这样运行了，就等结果输出就可以了，在output文件夹里面查看运行的结果
hadoop集群搭建问题 hadoop linux
2022-11-25 12:13

回答 2 已采纳你原来有openjdk的话，要卸载啊，否则环境变量有冲突呢。
Hadoop大数据面试题（全）
2018-05-22 12:32

fenghuo9527的博客我对其中有的问题做了稍许的修改了回答了部分空白的问题，其中里面有些考题出的的确不是很好，但是也不乏有很好的题目，这些都是基于真实的面试来的，希望对即将去面试或向继续学习hadoop，大数据等的朋友有帮助！...
MapReduce基础编程（自定义序列化、自定义分区、自定义排序、自定义分组）
2022-11-18 12:43

Evan2OO1的博客 MapReduce基础编程（自定义序列化、自定义分区、自定义排序、自定义分组）
MapReduce过程详解
2021-02-24 02:20

俗名叫旱獭的博客 hadoop的底层核心由HDFS，MapReduce和YARN组成，HDFS是大数据的存储引擎，分布式文件系统，YARN是资源调度系统，而MapReduce就是它的计算框架，但同时，MapReduce也是一个编程模型，因为MapReduce抽象出来的框架，...
Hadoop生态&组件部署大总结
2024-04-26 14:53

2401_84437170的博客 cd /app/sqoop-1.4.5/conf cp sqoop-env-template.sh sqoop-env.sh sudo vi sqoop-env.sh 设置 hadoop 运行程序所在路径和 hadoop-*-core.jar 路径（Hadoop1.X 需要配置） export HADOOP_COMMON_HOME=/app/hadoop-...
没有解决我的问题, 去提问

Hadoop mapreduce传值问题

1条回答 默认 最新

1条回答默认最新