云计算与分布式系统练习——hadoop

给定两个字符串S1和S2，S1和S2之间的相似度，记为Jaccard(S1,S2) = |G.S1 ∩ G.S2|/|G.S1∪G.S1|，其中，G.S1为字符串S1的N元模型表示（N-Gram），其使用一个长度为N的窗口从左到右把划分成若干个等长（长度为N）的字符串。

为了避免出现S1字符串长度小于N的情况，可以为S1增加N-1个#作为前缀和N-1个$作为后缀。例如字符串Gorbachev和字符串Gorbechyov的二元模型可以分别表示为{#G, Go, or, rb, ba, ac, ch, he, ev, v$}和{#G, Go, or, rb, be, ec, ch, hy, yo, ov, v$}。因此，Jaccard(“Gorbachev”，“ Gorbechyov”) = 5/15 = 1/3。
云计算与分布式系统练习——hadoop
题目要求
使用Hadoop实现两个文本数据集之间的相似度连接操作。输入：字符串集合R，字符串集合S，相似度阈值θ，N。

输出：
T = {<r,s>|r∈R, s∈S, Jaccard (r,s) >= θ}

说明：相似度阈值设置为0.3，N设置为3，读懂已给出的代码，并补全未给出的代码部分。
####测试说明

输入的字符集格式如下：

2000001 Gabriela Nicolescu
2000002 Hanifa Boucheneb
2000003 Donald P. Cox
2000004 Youssif B. Al-Nashif
2000005 Salim Hariri
按照以下格式输出结果：

(2000006,2000014) 1.0
(2000008,2000054) 0.45

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-06-07 14:39

关注

引自免费微信小程序：皆我百晓生

为了完成这个任务，你需要在Hadoop框架下编写MapReduce程序。这里是一个简单的步骤指南和示例代码，用于实现这个任务。首先，我们需要定义三个类：NGramGeneratorMapper, NGramReducer, 和 SimilarityJoinDriver。

Step 1: 定义NGramGeneratorMapper

这个mapper将读取输入的字符串并生成N-gram。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.util.StringTokenizer;

public class NGramGeneratorMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);

        while (tokenizer.hasMoreTokens()) {
            String token = tokenizer.nextToken();
            for (int i = 0; i < token.length() - 2; i++) {
                String gram = token.substring(i, i + 3); // N=3 in this case
                word.set(gram);
                context.write(word, one);
            }
        }
    }
}

Step 2: 定义NGramReducer

这个reducer会收集相同N-gram的所有键，并计算它们的数量。

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.util.HashMap;
import java.util.Map;

public class NGramReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private Map<Text, IntWritable> counts = new HashMap<>();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }

        counts.put(key, new IntWritable(sum));
        for (Map.Entry<Text, IntWritable> entry : counts.entrySet()) {
            context.write(entry.getKey(), entry.getValue());
        }
    }
}

Step 3: 定义SimilarityJoinDriver

这个driver类负责启动整个MapReduce作业，并处理最终的相似度计算。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class SimilarityJoinDriver {
    public static void main(String[] args) throws Exception {
        if (args.length != 4) {
            System.err.println("Usage: SimilarityJoinDriver <input_R> <input_S> <output> <theta>");
            System.exit(-1);
        }

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Similarity Join");
        job.setJarByClass(SimilarityJoinDriver.class);
        job.setMapperClass(NGramGeneratorMapper.class);
        job.setCombinerClass(NGramReducer.class);
        job.setReducerClass(NGramReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileInputFormat.addInputPath(job, new Path(args[1]));
        FileOutputFormat.setOutputPath(job, new Path(args[2]));

        job.waitForCompletion(true);

        // Read output and calculate similarity
        Configuration config2 = new Configuration();
        Job job2 = Job.getInstance(config2, "Similarity Calculation");
        job2.setJarByClass(SimilarityJoinDriver.class);
        job2.setMapperClass(SimilarityCalculatorMapper.class);
        job2.setReducerClass(SimilarityCalculatorReducer.class);
        job2.setOutputKeyClass(Text.class);
        job2.setOutputValueClass(DoubleWritable.class);

        FileInputFormat.addInputPath(job2, new Path(args[2]));
        FileOutputFormat.setOutputPath(job2, new Path(args[3]));

        job2.setNumReduceTasks(1); // Use a single reducer to get the result
        job2.waitForCompletion(true);
    }
}

Step 4: 定义SimilarityCalculatorMapper 和 SimilarityCalculatorReducer

这两个类用于计算两个文本集的相似度。

// SimilarityCalculatorMapper
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class SimilarityCalculatorMapper extends Mapper<Text, IntWritable, Text, DoubleWritable> {
    @Override
    protected void map(Text key, IntWritable value, Context context) throws IOException, InterruptedException {
        context.write(key, new DoubleWritable(value.get()));
    }
}

// SimilarityCalculatorReducer
import org.apache.hadoop.io.DoubleWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.HashSet;
import java.util.Set;

public class SimilarityCalculatorReducer extends Reducer<Text, DoubleWritable, Text, DoubleWritable> {
    private double theta = 0.3; // Set your threshold here
    private Set<String> grams = new HashSet<>();

    @Override
    protected void setup(Context context) throws IOException, InterruptedException {
        theta = Double.parseDouble(context.getConfiguration().get("similarity.threshold"));
    }

    @Override
    protected void reduce(Text key, Iterable<DoubleWritable> values, Context context) throws IOException, InterruptedException {
        double total = 0;
        for (DoubleWritable value : values) {
            total += value.get();
        }

        grams.clear();
        for (Text input : context.getCacheFiles()) {
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(conf);
            BufferedReader br = new BufferedReader(new InputStreamReader(fs.open(input)));
            String line;
            while ((line = br.readLine()) != null) {
                grams.add(line);
            }
            br.close();
        }

        double intersection = 0;
        for (String gram : grams) {
            if (key.toString().equals(gram)) {
                intersection++;
            }
        }

        double union = total + grams.size() - intersection;
        double jaccard = intersection / union;
        if (jaccard >= theta) {
            context.write(key, new DoubleWritable(jaccard));
        }
    }
}

确保你在运行这些代码之前已经设置了正确的环境变量，并且你的Hadoop集群是可用的。这只是一个基本的实现，可能需要根据你的具体需求进行调整。如果你遇到任何问题，可以随时向我询问。

编辑记录

报告相同问题？

关注问题

王家林 云计算分布式大数据Hadoop实战高手之路---从零开始第二讲：全球最详细的从零起步搭建Hadoop单机和伪分布式开发环境图文教程
2013-12-21 18:04

twlkyao的博客工欲善其事，必先利其器。本文从零起步构建Hadoop单机版本和伪分布式的开发环境，图文并茂，不放过任何一个细节，涉及： 1，开发Hadoop需要的基本软件；...王家林的“云计算分布式大数据Hadoop实战
大数据从入门到入魔系列————大数据治理技术栈&技术选型
2025-03-27 15:27

野生AI侠的博客随着信息技术的迅猛发展，我们正处在一个数据驱动的世界中。每一天，全球各地的人们和机器都在生成难以想象的数据量。这些数据蕴含着宝贵的洞见，可以帮助企业做出更加明智的决策、...这正是大数据技术发挥作用的地方。
大数据从入门到入魔系列————探索大数据前世今生之迷
2025-03-21 21:44

野生AI侠的博客做技术柯南，揭秘大数据前世今生之谜。
云计算分布式大数据Hadoop实战高手之路第八讲Hadoop图文训练课程：Hadoop文件系统的操作实战...
2013-06-19 16:33

weixin_30662011的博客 “云计算分布式大数据Hadoop实战高手之路”之完整发布目录 云计算分布式大数据实战技术Hadoop交流群：312494188，每天都会在群中发布云计算实战性资料，欢迎大家加入！首先我们看一些比较常用的Hadoop文件系统...
王家林的“云计算分布式大数据Hadoop实战高手之路---从零开始”的第五讲Hadoop图文训练课程：解决典型Hadoop分布式集群环境搭建问题...
2013-06-16 13:52

weixin_30349597的博客王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战王家林第四讲Hadoop图文训练课程：实战构建真正的Hadoop分布式集群环境Hadoop集群搭建的过程中出现的问题，具体的解决步骤是： Step1...
Hadoop大数据从入门到精通-任亮-专题视频课程
2016-09-28 12:15

renlianggee的博客 Hadoop大数据从入门到精通—48021人已学习课程介绍 Hadoop分布式文件系统（HDFS）和MapReduce的工作原理如何优化Hadoop机群所需要的硬件配置搭建Hadoop机群所需要考虑的网络因素如何利用Hadoop配置选项进行系统...
大数据技术原理与应用——练习题
2021-05-10 14:37

庄园特聘拆椅狂魔的博客第一章 大数据概述 1第三次信息化浪潮的...3以下关于云计算、大数据和物联网之间的关系，论述错误的是： A.物联网可以借助于云计算实现海量数据的存储 B.物联网可以借助于大数据实现海量数据的分析 C.
Hadoop 学习心得与实践沉淀
2025-12-08 08:40

lzzy_lxj_0841的博客而 Hive、HBase 等生态组件的加入，更是让 Hadoop 形成了闭环能力：处理用户行为数据时，我用 Flume 实时采集用户点击、停留日志到 HDFS，通过 MapReduce 清洗去重（过滤无效数据、统一格式），再用 Hive 创建外部表...
《大数据技术原理与应用（第3版）》期末复习——前两章练习题
2021-12-21 22:10

与宇宙对视的博客 A、运营式系统阶段 B、用户原创内容阶段 C、互联网应用阶段 D、感知式系统阶段答案：C 2【单选题】以下哪个现象不属于大数据的典型特征： A、数据包含噪声及缺失值 B、数据量大 C、数据类型多 D、产生速率高答案...
大数据学习1——大数据及Hadoop概述
2018-05-15 09:44

开发转测试的博客 大数据及Hadoop概述一....大数据与生活息息相关三.Hadoop概述四.Hadoop生态系统概述五.Hadoop发型版对比一.大数据概述二.大数据与生活息息相关三.Hadoop概述四.Hadoop生态系统概述五.Hadoop发型版对比...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月7日

云计算与分布式系统练习——hadoop

2条回答 默认 最新

问题事件

2条回答默认最新