头歌MapReduce相似度计算

云计算与分布式系统练习——hadoop

给定两个字符串S1和S2，S1和S2之间的相似度，记为Jaccard(S1,S2) = |G.S1 ∩ G.S2|/|G.S1∪G.S1|，其中，G.S1为字符串S1的N元模型表示（N-Gram），其使用一个长度为N的窗口从左到右把划分成若干个等长（长度为N）的字符串。

为了避免出现S1字符串长度小于N的情况，可以为S1增加N-1个#作为前缀和N-1个$作为后缀。例如字符串Gorbachev和字符串Gorbechyov的二元模型可以分别表示为{#G, Go, or, rb, ba, ac, ch, he, ev, v$}和{#G, Go, or, rb, be, ec, ch, hy, yo, ov, v$}。因此，Jaccard(“Gorbachev”，“ Gorbechyov”) = 5/15 = 1/3。

题目要求
使用Hadoop实现两个文本数据集之间的相似度连接操作。输入：字符串集合R，字符串集合S，相似度阈值θ，N。

输出：
T = {<r,s>|r∈R, s∈S, Jaccard (r,s) >= θ}

说明：相似度阈值设置为0.3，N设置为3，读懂已给出的代码，并补全未给出的代码部分。
####测试说明

输入的字符集格式如下：

2000001 Gabriela Nicolescu
2000002 Hanifa Boucheneb
2000003 Donald P. Cox
2000004 Youssif B. Al-Nashif
2000005 Salim Hariri
按照以下格式输出结果：

(2000006,2000014) 1.0
(2000008,2000054) 0.45

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-06-12 16:54

关注

引自免费微信小程序：皆我百晓生

要解决这个问题，我们可以设计一个基于MapReduce的程序来计算两个字符串集合之间所有字符串对的Jaccard相似度，然后过滤出那些相似度大于等于给定阈值的字符串对。下面是一个可能的MapReduce实现框架：

Mapper阶段

Mapper的任务是读取输入文件中的每一行，将每个字符串转换为其N-Gram表示，然后为每个N-Gram生成键值对。键是N-Gram本身，值是包含字符串ID和字符串本身的元组。

Mapper伪代码

import sys

def mapper():
    for line in sys.stdin:
        # 解析输入行，获取ID和字符串
        id, string = line.strip().split()
        n = 3  # N-Gram大小
        # 为字符串添加前缀和后缀
        padded_string = '#' * (n - 1) + string + '$' * (n - 1)
        # 计算N-Gram
        grams = [padded_string[i:i+n] for i in range(len(padded_string) - n + 1)]
        for gram in grams:
            # 输出键值对，键是N-Gram，值是字符串ID和字符串组成的元组
            print(f'{gram}\t({id}, {string})')

if __name__ == '__main__':
    mapper()

Reducer阶段

Reducer接收来自多个Mapper的相同N-Gram的键值对。它需要收集所有具有相同N-Gram的字符串ID，然后两两比较这些字符串的N-Gram集合，计算它们的Jaccard相似度。

Reducer伪代码

import sys

def reducer():
    current_gram = None
    current_ids = []
    
    for line in sys.stdin:
        gram, value = line.strip().split('\t')
        if current_gram == gram:
            # 同一个N-Gram，收集ID
            current_ids.append(value)
        else:
            if current_gram:
                # 处理上一个N-Gram的所有ID组合
                handle_combinations(current_ids)
            current_gram = gram
            current_ids = [value]
    
    # 处理最后一个N-Gram的所有ID组合
    handle_combinations(current_ids)

def handle_combinations(ids):
    for i in range(len(ids)):
        for j in range(i+1, len(ids)):
            id1, str1 = ids[i].strip('()').split(', ')
            id2, str2 = ids[j].strip('()').split(', ')
            similarity = calculate_jaccard_similarity(str1, str2)
            if similarity >= 0.3:  # 相似度阈值
                print(f'({id1}, {id2})\t{similarity}')

def calculate_jaccard_similarity(s1, s2):
    n = 3
    set1 = set([s1[i:i+n] for i in range(len(s1) - n + 1)])
    set2 = set([s2[i:i+n] for i in range(len(s2) - n + 1)])
    intersection = len(set1.intersection(set2))
    union = len(set1.union(set2))
    return intersection / union if union != 0 else 0

if __name__ == '__main__':
    reducer()

注意事项

确保在Hadoop环境中正确配置Mapper和Reducer。
根据具体环境调整代码中的路径、输入输出格式等。
测试代码时，确保输入数据格式正确，且Hadoop环境已经正确安装和配置。

这个框架提供了一个基本的MapReduce实现，用于计算字符串集合之间的Jaccard相似度并筛选出高相似度的字符串对。根据实际需求，可能需要进一步优化性能，比如通过调整Mapper和Reducer的数量，或者使用更高效的数据结构来存储和处理N-Gram信息。

编辑记录

报告相同问题？

关注问题

大数据课程设计-MapReduce实现基于物品相似度的协同过滤推荐-全部代码和数据.rar
2024-06-20 18:04

1.计算物与物之前的相似度 2.根据用户的行为历史，给出和历史列表中的物品相似度最高的推荐对于物品 A,根据所有用户的历史偏好,喜欢物品 A 的用户都喜欢物品 C,得出物品 A 和物品 C 比较相似,而用户 C 喜欢物品 ...
基于MapReduce实现的TFIDF计算
2018-07-10 14:24

这种方法对于搜索引擎的排名、文本相似度计算以及信息检索等应用非常有用。在实际项目中，可能会使用Hadoop或者其他支持MapReduce的框架来实现这个过程。总结来说，基于MapReduce的TF-IDF计算是一个将分布式计算与...
大数据领域 MapReduce 架构设计要点
2026-01-17 19:58

AI架构全栈开发实战笔记的博客 MapReduce作为分布式计算的“开山鼻祖”（2004年由Google提出），通过“分而治之”的思想，将海量数据拆解为可并行处理的小任务，是理解分布式计算架构的核心模型。本文将聚焦MapReduce的架构设计要点，涵盖核心组件...
解锁大数据领域 MapReduce 的强大功能
2025-04-24 23:07

光子AI的博客 MapReduce作为Google于2004年提出的分布式计算模型，通过“分而治之”思想将复杂任务拆解为可并行执行的子任务，成功解决了大规模数据的分布式处理难题。MapReduce的核心概念与架构设计Map/Shuffle/Reduce三阶段的...
大数据领域数据架构的计算机视觉结合
2025-04-27 18:49

光子AI的博客在当今数据爆炸的时代，计算机视觉应用正面临着前所未有的数据规模挑战。本文旨在探讨如何将大数据架构技术与计算机视觉处理相结合，...大数据架构：处理海量数据的系统设计，包括存储、计算、分析等组件计算机视觉。
边缘计算与大数据：物联网数据处理新范式
2025-04-23 23:00

光子AI的博客本文的目的在于探讨边缘计算与大数据如何结合形成一种新的物联网数据处理范式，以解决上述问题。本文的范围涵盖边缘计算与大数据的核心概念、算法原理、数学模型、实际应用场景等方面，同时通过项目实战案例展示该新...
基于Map-Reduce的相似度计算
2013-07-10 10:59

张雨石的博客基于Map-Reduce的相似度计算不久前（6.29），参加了ChinaHadoop的夏季沙龙，听了人人的大牛讲了基于Map-Reduce的相似度计算的优化，感觉对Map-...基于Map-Reduce的相似度计算顺应大数据的潮流，其算法思想值得借鉴。
基于物品的协同过滤算法（mapreduce）
2022-02-21 16:51

每对物品的相似度计算可以看作一个键值对，键是物品对，值是相似度分数。 3. **分发和并行计算**：由于MapReduce的并行特性，这个计算过程可以在多台机器上同时进行，大大提高了效率。Map任务将处理一部分数据，...
MapReduce助力大数据实现精准营销的奥秘
2025-09-06 20:01

AI架构师小马的博客这时，MapReduce——这个“大数据处理的发动机”应运而生，它通过分布式并行计算将海量数据转化为精准营销的“炮弹”，帮助企业从“广撒网”转向“精准打击”。本文将深入解析MapReduce的工作原理，用“快递分拣”...
【AI大数据计算原理与代码实例讲解】MapReduce
2024-08-07 00:44

光子AI的博客【AI大数据计算原理与代码实例讲解】MapReduce 1. 背景介绍 1.1 大数据处理的挑战在当今数据爆炸式增长的时代,如何高效处理海量数据成为了一个巨大的挑战。传统的数据处理方式已经无法满足大数据时代的需求。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月12日