欧氏距离电影推荐评估

欧氏距离电影推荐算法怎样计算其准确率，召回率和F1？


import pandas as pd
from math import *
import numpy as np

"""
读取movies文件，设置列名为’videoId', 'title', 'genres'
读取ratings文件，设置列名为'userId', 'movieId', 'rating', 'timestamp'
通过两数据框之间的 videoId 连接
保存'userId', 'rating', 'movieId', 'title'为data数据表
"""
movies = pd.read_csv("D:/Datamovies/ml-latest-small/movies.csv", names=['movieId', 'title', 'genres'])
ratings = pd.read_csv("D:/Datamovies/ml-latest-small/ratings.csv",names=['userId', 'movieId', 'rating', 'timestamp'])
data = pd.merge(movies, ratings, on='movieId')
data[['userId', 'rating', 'movieId', 'title']].sort_values('userId').to_csv('D:/Datamovies/ml-latest-small/data.csv',index=False)
 
"""
新建一个data字典存放每位用户评论的电影和评分, 如果字典中没有某位用户，则使用用户ID来创建这位用户,否则直接添加以该用户ID为key字典中
"""
file = open("D:/Datamovies/ml-latest-small/data.csv",'r', encoding='UTF-8')
data = {}
for line in file.readlines():
    line = line.strip().split(',')
    if not line[0] in data.keys():
        data[line[0]] = {line[3]:line[1]}
    else:
        data[line[0]][line[3]] = line[1]
 
 
"""
找到两位用户共同评论过的电影,然后计算两者之间的欧式距离，最后算出两者之间的相似度，欧式距离越小两者越相似
"""
def Euclidean(user1, user2):
    user1_data = data[user1]
    user2_data = data[user2]
    distance = 0
    for key in user1_data.keys():
        if key in user2_data.keys():
           distance += pow(float(user1_data[key]) - float(user2_data[key]), 2)
 
    return 1 / (1 + sqrt(distance))
 
"""
计算某个用户与其他用户的相似度
"""
def top_simliar(userID):
    res = []
    for userid in data.keys():
        # 排除与自己计算相似度
        if not userid == userID :
            simliar = Euclidean(userID, userid)
            res.append((userid, simliar))
    res.sort(key=lambda val: val[1])
    return res[:4]
 
"""
从控制台输入需要推荐的用户ID，如果用户不在原始数据集中则报错，重新输入
"""
getIdFlag = 0
while not getIdFlag:
    inputUid = str(input("请输入用户ID\n"))
    try:
        uid = data[inputUid]
        getIdFlag = 1
    except Exception:
        print("用户ID错误，请重新输入\n")
 
 
"""
根据与当前用户相似度最高的用户评分记录，按降序排列，推荐出改用户还未观看的评分最高的10部电影
"""
def recommend(user):
    top_sim_user = top_simliar(user)[0][0]
    items = data[top_sim_user]
    recommendations = []
    for item in items.keys():
        if item not in data[user].keys():
            recommendations.append((item, items[item]))
    recommendations.sort(key=lambda val: val[1], reverse=True)  # 按照评分排序
    return recommendations[:10]
 
"""
根据输入的用户ID，输出为他推荐的影片
"""
Recommendations = recommend(inputUid)
print("为用户" + inputUid + "推荐下列评分最高的十部影片\n")
for video in Recommendations:
    print(video)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-03-18 19:03
关注
m0_56062032 晚上好🌙🌙🌙
本答案参考ChatGPT-3.5

要计算欧氏距离电影推荐算法的准确率、召回率和F1值，需要使用一个评估数据集来对推荐结果进行比较。假设你已经有了一个包含用户的真实评分和推荐结果的数据集。

以下是计算准确率、召回率和F1值的步骤：

准确率（Precision）：准确率衡量的是推荐结果中有多少是准确的，即被用户实际观看的电影在推荐结果中的比例。

统计推荐结果中每部电影被用户实际观看的次数，记为TP (True Positives)。
计算总共推荐给用户的电影数量，记为TP + FP (True Positives + False Positives)。
准确率 = TP / (TP + FP)

召回率（Recall）：召回率衡量的是用户实际观看的电影在推荐结果中有多少被成功推荐到，即用户实际观看的电影在推荐结果中的比例。

统计推荐结果中每部电影被用户实际观看的次数，记为TP (True Positives)。
计算用户实际观看的电影数量，记为TP + FN (True Positives + False Negatives)。
召回率 = TP / (TP + FN)

F1值：F1值是综合考虑了准确率和召回率的评价指标，可以用来平衡两者之间的关系。F1值的计算公式为：

F1 = 2 * (Precision * Recall) / (Precision + Recall)

以下是修改后的Python代码，包括计算准确率、召回率和F1值的函数：

def evaluate_recommendations(user, recommendations): true_positives = 0 false_positives = 0 false_negatives = 0 # 统计推荐结果中每部电影被用户实际观看的次数 for movie in recommendations: if movie in data[user].keys(): true_positives += 1 else: false_positives += 1 # 计算用户实际观看的电影数量 total_watched = len(data[user]) # 计算准确率和召回率 precision = true_positives / (true_positives + false_positives) recall = true_positives / (true_positives + false_negatives) # 计算F1值 f1 = 2 * (precision * recall) / (precision + recall) return precision, recall, f1 # 使用示例 precision, recall, f1 = evaluate_recommendations(inputUid, Recommendations) print("准确率：", precision) print("召回率：", recall) print("F1值：", f1)

请注意，以上代码是基于给定的评估数据集进行计算的。如果你没有评估数据集，可以手动创建一些测试用例来进行评估。另外，代码中的data是之前从文件中读取的数据，你需要确保数据的正确性和完整性。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

构建推荐系统的相似检索技术：从距离度量到深度学习的快速了解
2023-11-04 01:18

张彦峰ZYF的博客相似检索方法是一种用于从大量数据中找到与查询数据相似的数据项的技术。这种方法通常用于信息检索、推荐系统、图像处理、自然语言处理等领域。相似检索主要方法可以总体分为以下几类：这些方法各自有其适用的场景和...
【推荐算法】混合推荐系统算法
2024-10-11 18:23

大雨淅淅的博客混合推荐系统算法是一种结合了多种推荐技术的推荐系统，旨在克服单一推荐方法的局限性，提高推荐的准确性和用户满意度。它通常将不同的推荐策略，如基于内容的推荐、协同过滤以及基于模型的方法等，以不同的方式结合...
经典推荐算法（基于内容的推荐算法）
2022-10-08 21:36

Rich Sniper的博客基于内容的推荐算法简介
十七、机器学习进阶知识：推荐算法
2023-12-18 17:00

七层楼的疯子的博客主要从推荐算法的相关概念、协同过滤推荐算法以及基于内容的推荐算法这三个部分展开介绍，其中协同过滤推荐算法分别对基于用户以及基于用品这两种进行展开说明，而基于内容则是结合具体的实例进行说明。
SDU数据仓库与数据挖掘重要算法提纲
2022-06-01 04:16

feilongzzz的博客数据仓库与数据挖掘复习提纲
电商技术揭秘二：电商平台推荐系统的实现与优化
2024-04-01 22:20

沛哥儿的博客深度学习模型主要由多层神经网络构成，通过逐层的信息传递和非线性变换，能够捕捉数据的深层特征。在推荐系统中，深度学习模型被用于用户兴趣建模、商品特征提取和用户与商品交互关系的建模等多个方面。
【推荐算法】协同过滤推荐算法
2024-10-13 22:19

大雨淅淅的博客协同过滤推荐算法是一种基于用户历史行为数据的推荐方法，它在个性化推荐领域扮演着至关重要的角色。这种算法主要分为两种类型：用户基于协同过滤和物品基于协同过滤。用户基于协同过滤关注的是寻找与目标用户具有...
推荐系统_（一）算法详解
2022-10-13 21:48

禁筱的博客常见的推荐算法
AI Agent在智能电影推荐中的应用
2025-02-23 20:26

程序员光剑的博客接着，我们将深入讨论智能电影推荐系统的概述，包括用户行为分析、内容推荐算法和推荐系统评估与优化。然后，我们将重点讨论AI Agent在电影推荐中的应用，包括其设计、实现和测试。最后，我们将通过一个实际项目案例...
K近邻算法（KNN）的概述与实现
2024-10-20 14:10

sewinger的博客 KNN是一种简单但功能强大的算法，适用于分类和回归任务。然而，其计算成本和对K值的敏感性使其在处理大规模数据集或高维数据时存在一定的局限性。随着数据规模的增加，优化KNN的计算速度和性能成为一个值得探索的...
协同过滤算法
2024-06-19 16:09

北宸墨染的博客协同过滤算法是推荐系统中的一种经典方法，它通过分析用户的历史行为数据来预测用户可能感兴趣的物品。协同过滤算法主要分为两种类型：基于用户的协同过滤（User-based Collaborative Filtering, UCF）和基于物品的...
推荐算法的介绍以及实现一个简单的推荐算法(python实现协同过滤)
2020-05-19 23:18

rennan…的博客推荐算法的研究起源于20世纪90年代，由美国明尼苏达大学 GroupLens研究小组最先开始研究，他们想要制作一个名为 Movielens的电影推荐系统，从而实现对用户进行电影的个性化推荐。首先研究小组让用户对自己看过的...
曼哈顿距离：概念、起源与应用全解析
2025-12-02 23:31

大千AI助手的博客曼哈顿距离的命名来源于纽约曼哈顿网格状街道布局的现实场景。在这个区域，车辆只能沿着垂直或水平的街道行驶，无法直接斜穿建筑区块。数学表达式如下：对于n维空间中的两点P(p₁, p₂, …, pₙ)和Q(q₁, q₂, …d(P...
聚类算法在社交网络分析中的应用技术教程
2024-07-13 10:05

kkchenjj的博客聚类算法是一种无监督学习方法，其目标是将数据集中的样本划分为多个类或簇，使得同一簇内的样本彼此相似，而不同簇的样本差异较大。这种相似性通常基于某种距离度量或相似度函数。聚类算法在社交网络分析中扮演着...
MovieLens电影推荐系统实战指南
2025-07-05 15:27

拼命阿白的博客本章节将概述电影推荐系统的工作原理、核心组件以及关键挑战。我们将开始从电影推荐系统的基本概念和分类方法入手，然后进一步探讨其在现实世界中的应用案例，以及不同类型的推荐技术的优缺点。通过本章的学习，读者...
数学模型：十大距离
2025-07-09 22:07

爱数学的小理的博客 欧氏距离是最常用的距离度量方法之一，它衡量的是多维空间中两点之间的直线距离。原理：对于二维平面上的两点ax1y1ax1y1和bx2y2bx2y2，欧氏距离定义为：dx1−x22y1−y22dx1−x22y1−y22。
基于用户的协同过滤推荐算法研究
2019-03-04 13:15

Olivia-Wang的博客本文采用基于用户的协同过滤算法实现电影的推荐，并针对该方法存在的稀疏性，冷启动和扩展性问题进行了分析，结果表示此算法可以得到不错的推荐效果。关键词：协同过滤；用户；皮尔逊系数；相似度 Abstract：I...
KNN算法
2025-09-23 22:19

擎天LLM的博客 KNN算法是一种基于实例的监督学习方法，通过计算样本间的距离进行分类或回归。其核心思想是根据k个最近邻样本的类别（分类）或平均值（回归）进行预测。关键点包括：1）K值选择应避免偶数和类别倍数；2）常用欧氏...
28、数据挖掘与机器学习：探索与应用
2025-07-19 05:05

Apple的博客本文全面探讨了数据挖掘的核心概念、技术及实际应用，涵盖了分类、聚类、关联规则挖掘、回归分析和降维等主要技术，并结合机器学习算法，如决策树、神经网络和支持向量机，展示了其在不同领域的应用实例。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月26日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月18日

欧氏距离电影推荐评估

2条回答 默认 最新

问题事件

2条回答默认最新