Hadoop 基于物品的协同过滤算法从结果中去除用户已经评论过的数据

最近在弄这个算法时，发现网上的大多数教程对于 “从结果中去除用户已经评论过的数据”都只是提出，却没有实现，因此在最后推荐结果会出现用户已经评论过的数据。在自己实现时遇到了问题。以下step6是“从结果中去除用户已经评论过的数据”内容

 import java.io.IOException;
import java.util.HashMap;
import java.util.Iterator;
import java.util.Map;
import java.util.regex.Pattern;

import org.apache.commons.net.telnet.EchoOptionHandler;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.Mapper.Context;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.yarn.logaggregation.AggregatedLogFormat.LogWriter;


//获得结果矩阵
public class Step6 {

    public static boolean run(Configuration con, Map<String, String>map) {
        try {
            FileSystem fs = FileSystem.get(con);
            Job job = Job.getInstance();
            job.setJobName("step6");
            job.setJarByClass(App.class);
            job.setMapperClass(Step6_Mapper.class);
            job.setReducerClass(Step6_Reducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(Text.class);
            FileInputFormat.setInputPaths(job, 
                    new Path[] { 
                            new Path(map.get("Step6Input1")),
                            new Path(map.get("Step6Input2"))
                            });
            Path outpath = new Path(map.get("Step6Output"));
            if(fs.exists(outpath)){
                fs.delete(outpath,true);
            }
            FileOutputFormat.setOutputPath(job, outpath);
            boolean f = job.waitForCompletion(true);
            return f;
        }catch(Exception e) {
            e.printStackTrace();
        }
        return false;
    }

    static class Step6_Mapper extends Mapper<LongWritable, Text, Text, Text>{
        private String flag;
        //每次map时都会先判断一次
        @Override
        protected void setup(Context context )throws IOException,InterruptedException{
            FileSplit split = (FileSplit) context.getInputSplit();
            flag = split.getPath().getParent().getName();

        }
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException{
            String[] tokens = Pattern.compile("[\t,]").split(value.toString());

            if(flag.equals("step5")) {

                String userID = tokens[0];
                Text itemID = new Text(tokens[1]);

                //tokens[1] 物品id tokens[2] 用户对物品评分
                Text v = new Text("A:"+userID+","+tokens[1]+","+tokens[2]);
                //输出key为itemID 
                context.write(itemID, v);
            }else if(flag.equals("step2")) {//用户评价矩阵
                    // u2 i1:2,i3:4
                    String userID = tokens[0];
                    for(int i=1;i<tokens.length;i++) {
                        String[] vector = tokens[i].split(":");
                        String itemID = vector[0]; //物品ID
                    //  String pref = vector[1];//评分

                        Text k = new Text(itemID);
                        Text v = new Text("B:"+userID+","+itemID);
                        //输出key万为itemid
                        context.write(k, v);
                    }
        }
    }
    }
        static class Step6_Reducer extends Reducer<Text, Text, Text, Text>{
            protected void reduce(Text key, Iterable<Text>values, Context context) throws IOException,InterruptedException{
                //物品ID为map的key
                Map<String, String> mapA = new HashMap<String,String>();

                //该物品（key中的itemID）
                Map<String, Integer>mapB = new HashMap<String,Integer>();

                for(Text line : values) {
                    String val = line.toString();

                    if(val.startsWith("A:")) {
                        String[] kv = Pattern.compile("[\t,]").split(val.substring(2));

                        String userID = kv[0];//用户ID
                        String tokens = kv[2];//用户的对物品评分
                        String itemID = kv[1];//物品ID
                        mapA.put(userID, itemID+","+tokens);
                    }else if(val.startsWith("B:")) {
                        String[] kv = Pattern.compile("[\t,]").split(val.substring(2));
                        //kv[0] = userID
                        //kv[1] = itemID
                        //kv[2] = price
                        try {
                            mapB.put(kv[0], Integer.parseInt(kv[1]));
                        }catch(Exception e) {
                            e.printStackTrace();
                        }

                    }
                }

                Iterator<String> itera = mapA.keySet().iterator();
                while(itera.hasNext()) {
                    String userID = itera.next();
                    String score = mapA.get(userID);
                    String[] kv = score.toString().split(",");
                    Text v = new Text(kv[0]+","+kv[1]);
                    Iterator<String>iterb = mapB.keySet().iterator();
                    while(iterb.hasNext()) {
                        String mapkb = iterb.next();//用户ID
                        String itemID =  Integer.toString(mapB.get(mapkb));//物品ID

                        //Text k = new Text(mapkb);
                        //去除用户已评论过的数据
                        if(mapkb.equals(userID)&&itemID.equals(kv[0])) {
                            continue;
                        }else {
                            Text ke = new Text(mapkb);
                            context.write(ke, v);
                        }
                    }
                }
            }
        }

其中step2的数据为
图片说明

step5数据为
图片说明
按照自己写的step6的输出数据为

显然数据中出现了许多重复数据。实在不了解怎么弄了，请各位提供个思路，或者帮看下哪里有问题。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
默默悟问 2018-04-29 15:44
关注
你的reduce一次其实就是一个itemId，但是对应这个itemId，你输出非常多。因为你是基于
mapA的每一行，看mapB和对应mapA的KEY不一致就输出一行。
这个逻辑上就没合理的意义了。
所以正常的做法应该是mapA减去mapB，也就是只要mapA的KEY在mapB有，就不输出，否则输出mapA的KEY，以及对应itemId和评分。

当然因为你的step2和step5的意义具体不明，不确认你这个是否一定可行，感觉有可能mapA和mapB的KEY完全一致，也就是减的结果为空。

while(itera.hasNext()) { String userID = itera.next(); String score = mapA.get(userID); String[] kv = score.toString().split(","); Text v = new Text(kv[0]+","+kv[1]); if(mapB.containsKey(userID)) { continue; } else { Text ke = new Text(userId); context.write(ke, v); } }
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Hadoop 基于物品的协同过滤算法从结果中去除用户已经评论过的数据 hadoop 推荐算法
2018-04-29 14:27

回答 2 已采纳你的reduce一次其实就是一个itemId，但是对应这个itemId，你输出非常多。因为你是基于 mapA的每一行，看mapB和对应mapA的KEY不一致就输出一行。这个逻辑上就没合理的意义了
大数据、Hadoop hadoop 大数据
2022-12-19 16:44

回答 1 已采纳 format只需要对NameNode做，如果你在node3做了也没关系，删除node3上的、hdfs-site.xml中配置的NameNode对应的目录即可，然后在node1上也删除相同的目录后，重新
大数据框架中的hadoop和hive spark presto tez是什么关系 hadoop hive spark
2022-12-24 10:29

回答 1 已采纳 Hadoop是一个分布式计算框架，可以在大数据集上运行分布式应用程序。它由许多组件组成，包括HDFS（分布式文件系统）和MapReduce（分布式计算引擎）。Hive是一个基于Hadoop的数据仓库系
电影推荐网站(基于hadoop生态的大数据项目，使用hbase和MySQL数据库，利用协同过滤算法给出用户电影推荐).zip
2024-03-13 12:29

电影推荐网站是一个基于Hadoop生态系统的大数据项目，它利用了HBase和MySQL数据库，并通过协同过滤算法为用户提供个性化的电影推荐。在这个项目中，我们主要关注以下几个关键知识点： 1. **Hadoop生态**：Hadoop是...
hadoop和大数据、spark的关系该怎么理解？ hadoop spark 大数据
2022-06-23 13:55

回答 1 已采纳 Hadoop和Spark都是处理大数据的框架。就象你说关系型数据库，这只是一个概念，但是代表了一系列的含意，比如数据是结构化的，基于关系模型存储的。而MySQL、Oracle、SqlServer这些就
hadoop进行数据分析缺少数据的输出 hadoop 大数据
2022-07-09 16:18

回答 1 已采纳问题解决了，不好提供数据源，是201.42的虚拟机实验Mapperpackage com.mystudy.hadoopPro; import java.io.IOException;import ja
关于#大数据#的问题：大数据实验Hive、M ySQL、HBase数据互导中，使用HBase J ava API把数据从本地导入到HBase中的ecli pse代码出问题要怎么解决吗 hadoop hbase 大数据
2022-12-20 13:34

回答 1 已采纳编译报错？是不是跟JDK可能有关系
基于用户画像电影推荐系统设计（Python+Spark+Hadoop大数据）.zip
2024-03-06 22:36

7. **推荐算法**：协同过滤是最常用的推荐算法，分为用户基于和物品基于两种。用户基于的算法找到与目标用户兴趣相似的其他用户，推荐他们喜欢的电影；物品基于的算法则找出用户已观看电影与未观看电影之间的相似性...
大数据hadoop完全分布式安装配置怎么做 hadoop
2023-03-02 16:06

回答 3 已采纳小魔女参考了bing和GPT部分内容调写:要安装配置Hadoop的完全分布式，首先需要准备好master节点和slave节点，其中master节点需要安装jdk，slave节点只需要安装ssh服务，并
Hadoop无法访问网页yarn hadoop103-8088 hadoop 大数据数据仓库有问必答
2023-04-16 20:08

回答 2 已采纳可能是由于Hadoop103节点没有启动 yarn没有启动成功
基于hadoop的电商日志分析系统的设计与实现 hdfs mapreduce 大数据
2022-08-17 23:12

回答 2 已采纳这个题目已经是大数据学习的常见项目了，B站上面已经有培训机构讲解非常详细，从0到1的完美实现，如果你要做这个，可以再加入权限控制这一块的安全方面的，这样整个系统做出来就比较健全了，工作量还是非常多的
基于用户的协同过滤推荐算法研究
2019-03-04 13:15

Olivia-Wang的博客本文采用基于用户的协同过滤算法实现电影的推荐，并针对该方法存在的稀疏性，冷启动和扩展性问题进行了分析，结果表示此算法可以得到不错的推荐效果。关键词：协同过滤；用户；皮尔逊系数；相似度 Abstract：I...
hadoop中，reduce运行到33%卡不住不动 hadoop 大数据有问必答
2021-11-09 17:48

回答 1 已采纳有可能datanode有多处磁盘损坏了，你可以尝试关闭其中那个有问题的节点继续测试
【机器学习笔记day31】6.2. 基于协同过滤的推荐系统+用户行为数据简介+ 用户行为分析+ 基于物品的协同过滤算法
2020-02-01 19:30

汪雯琦的博客基于协同过滤的推荐系统基于协同过滤的推荐系统用户行为数据简介用户行为分析基于物品的协同过滤算法思考 6.2. 基于协同过滤的推荐系统基于协同过滤的推荐系统为了让推荐结果符合用户口味，我们需要深入了解用户...
基于hadoop商品推荐系统课程设计.zip
2022-05-30 20:09

1. 基于用户行为：收集用户浏览、购买等行为数据，通过协同过滤等算法预测用户可能感兴趣的商品。 2. 基于内容：分析商品属性，如类别、品牌、价格等，使用相似度算法找出用户可能喜欢的类似商品。 3. 混合推荐：...
没有解决我的问题, 去提问

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

Hadoop 基于物品的协同过滤算法 从结果中去除用户已经评论过的数据

2条回答 默认 最新

悬赏问题

Hadoop 基于物品的协同过滤算法从结果中去除用户已经评论过的数据

2条回答默认最新