knn电影推荐算法评估准确率，召回率

knn电影推荐算法评估其准确率，召回率和F1


import pandas as pd
# usecols 允许选择自己选择的特征，并通过dtype设定对应类型
movies_df=pd.read_csv('D:/Datamovies/ml-latest-small/movies.csv', 
                      usecols=['movieId','title'], 
                      dtype={'movieId':'int32','title':'str'})
movies_df.head()
ratings_df=pd.read_csv('D:/Datamovies/ml-latest-small/ratings.csv',
                       usecols=['userId', 'movieId', 'rating','timestamp'],
                       dtype={'userId': 'int32', 'movieId': 'int32', 'rating': 'float32'})
ratings_df.head()
# 检查缺失值
movies_df.isnull().sum()
ratings_df.isnull().sum()  #条目数
print("Movies:",movies_df.shape)#获取数组或矩阵维度
print("Ratings:",ratings_df.shape)
#合并列上的数据帧‘movieID’
# movies_df.info()
# ratings_df.info()
movies_merged_df=movies_df.merge(ratings_df, on='movieId')
movies_merged_df.head()
#添加衍生特征
#通过按电影标题对用户评分进行分组来创建'Average Rating' & 'Rating Count'列。
movies_average_rating=movies_merged_df.groupby('title')['rating']\
           .mean().sort_values(ascending=False)\
            .reset_index().rename(columns={'rating':'Average Rating'})
movies_average_rating.head()
movies_rating_count=movies_merged_df.groupby('title')['rating']\
              .count().sort_values(ascending=True)\
               .reset_index().rename(columns={'rating':'Rating Count'}) #ascending=False
movies_rating_count_avg=movies_rating_count.merge(movies_average_rating, on='title')
movies_rating_count_avg.head()
pd.set_option('display.float_format', lambda x: '%.3f' % x)#设置显示选项，让所有浮点数以三位小数显示
rating_with_RatingCount=movies_merged_df.merge(movies_rating_count_avg,on='title')#将movies_merged_df和movies_rating_count_avg按title列合并
print(rating_with_RatingCount['Rating Count'].describe())
popularity_threshold = 50
popular_movies= rating_with_RatingCount[
          rating_with_RatingCount['Rating Count']>=popularity_threshold]#根据popularity_threshold中的值从rating_with_RatingCount中筛选出大于等于50的电影
popular_movies.head()
# popular_movies.shape
print(popular_movies['Rating Count'].describe())
import os
movie_features_df=popular_movies.pivot_table(
      index='title',columns='userId',values='rating').fillna(0)
movie_features_df.to_excel('D:/Datamovies/ml-latest-small/output.xlsx')
movie_features_df.head()
from scipy.sparse import csr_matrix
movie_features_df_matrix = csr_matrix(movie_features_df.values)
from sklearn.neighbors import NearestNeighbors#寻找一个点的 K 个最近邻居。它返回每个点的邻居的索引和到邻居的距离
model_knn = NearestNeighbors(metric = 'cosine',
                             algorithm = 'brute')
model_knn.fit(movie_features_df_matrix)
import numpy as np
query_index = np.random.choice(movie_features_df.shape[0])
distances, indices = model_knn.kneighbors(movie_features_df.iloc[query_index,:].values.reshape(1, -1),
                                          n_neighbors = 6)
for i in range(0, len(distances.flatten())):
    if i == 0:
        print('Recommendations for {0}:\n'
              .format(movie_features_df.index[query_index]))
    else:
        print('{0}: {1}, with distance of {2}:'
              .format(i, movie_features_df.index[indices.flatten()[i]],
                      distances.flatten()[i]))

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-03-14 14:29
关注
引自免费微信小程序：皆我百晓生

为了评估基于k-最近邻（KNN）的电影推荐算法，我们需要从上述代码中提取推荐结果，并将其与实际用户对电影的评分进行比较。在信息检索和推荐系统领域中，常用的评估指标是准确率、召回率和F1分数。

首先，确保你已经有了一个测试集，其中包含用户对某些电影的实际评分，以及根据KNN模型生成的预测或推荐列表。在这个例子中，我们已经训练了KNN模型并为一个随机选取的电影返回了其最近邻的推荐结果。

然而，要计算准确率、召回率和F1分数，我们需要定义正样本（用户真正喜欢的电影），并且知道推荐系统给用户推荐了哪些电影。这通常涉及到将数据分为训练集和测试集，并且针对每个用户，在测试集中计算以下指标：

准确率（Precision）：推荐的电影中有多少是用户真正喜欢的（即高分电影）。

def calculate_precision(recommended_items, actual_positive_items): # 计算推荐的电影中出现在用户实际喜欢列表中的比例 common_items = set(recommended_items).intersection(set(actual_positive_items)) precision = len(common_items) / len(recommended_items) return precision # 假设函数 get_test_recommendations 返回每个用户在测试集上的推荐列表 test_user_recommendations = get_test_recommendations() test_user_actual_ratings = get_test_user_actual_ratings() for user_id in test_users: precision = calculate_precision(test_user_recommendations[user_id], test_user_actual_ratings[user_id]) print(f"User {user_id} 的准确率为: {precision}")

召回率（Recall）：用户实际喜欢的电影中有多少被推荐系统成功找到。

def calculate_recall(recommended_items, actual_positive_items): # 计算用户实际喜欢的电影中有多少被推荐系统成功找到的比例 common_items = set(recommended_items).intersection(set(actual_positive_items)) recall = len(common_items) / len(actual_positive_items) return recall for user_id in test_users: recall = calculate_recall(test_user_recommendations[user_id], test_user_actual_ratings[user_id]) print(f"User {user_id} 的召回率为: {recall}")

F1分数（F1 Score）：它是准确率和召回率的调和平均数，用于综合考虑两者的表现。

from sklearn.metrics import f1_score def calculate_f1(recommended_items, actual_positive_items): # 使用sklearn库直接计算F1分数 f1 = f1_score(y_true=actual_positive_items, y_pred=recommended_items) return f1 for user_id in test_users: f1 = calculate_f1(test_user_recommendations[user_id], test_user_actual_ratings[user_id]) print(f"User {user_id} 的F1分数为: {f1}")

请注意，在上面的示例中，get_test_recommendations() 和 get_test_user_actual_ratings() 是假设存在的函数，用于获取每个测试用户的推荐电影列表和他们实际给出高分的电影列表。你需要根据你的数据集结构和实验设计来实现这两个函数。

对于整个系统的评估，你可以计算所有用户的各项指标的平均值作为整体性能的度量。同时，为了得到更全面的评价，可能还需要对不同的k值进行交叉验证，并观察不同k值下推荐效果的变化情况。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Python计算准确率的KNN算法.zip
2024-10-28 09:56

KNN算法的核心思想是通过计算一个新样本与数据集中所有样本的距离，从而找到距离最近的K个样本，即K个最近邻，然后根据这K个邻居的类别信息来进行分类决策。KNN算法以其简单易懂、无需显式训练、对异常值不敏感等...
机器学习基于MATLAB的SVM、KNN与决策树分类算法性能对比：多模型分类准确率评估系统设计
2025-11-16 18:24

文章涵盖了数据加载、可视化、划分训练测试集、特征标准化、模型训练、预测评估及结果可视化等环节，重点对比了不同算法在准确率、精确率、召回率和F1分数等指标上的表现，并通过混淆矩阵和柱状图直观展示结果差异，...
数据分析实战 - KNN算法-病例自动诊断分析
2023-11-11 15:11

模型评价阶段，我们使用测试集对模型进行评估，常见的指标有准确率、精确率、召回率和F1分数。这些指标可以帮助我们了解模型的性能，特别是在类别不平衡的情况下。模型调参和改进过程涉及调整K值、距离度量方式、...
Knn.rar_USPS_knn算法_usps数据集
2022-09-19 11:08

我们可以使用准确率、召回率、F1分数等指标来衡量模型分类的效果。此外，混淆矩阵可以帮助我们了解模型在各个类别上的表现，找出潜在的错误类型。总结来说，Knn算法在USPS数据集上的应用涉及数据预处理、特征选择...
KNN算法的分类模型评估
2025-04-07 15:52

2301_80550071的博客 准确率、精确率、召回率、F1 值以及混淆矩阵等指标从不同角度为我们提供了模型评估的依据。在实际工作中，我们应根据具体的业务场景和数据特点，选择合适的评估指标，全面、准确地评估 KNN 分类模型的性能，不断优化...
基于deap数据集的DEAP_KNN脑电分类算法
2022-02-28 18:44

5. **模型评估**：在测试集上评估模型的性能，如准确率、召回率、F1分数等指标。 6. **结果分析**：根据模型在测试集上的表现，可能需要进一步调整参数或尝试其他机器学习算法，以达到更好的分类效果。这个项目的...
knn.zip_knn_knn算法_knn算法 matlab
2022-09-14 20:17

6. **评估模型**：使用常见的评估指标，如准确率、召回率、F1分数或混淆矩阵，来评估KNN模型的性能。同时，还可以通过调整K值和特征选择，进一步优化模型。 7. **实际应用**：KNN算法因其简单易用和泛化能力强，在...
knn.rar_knn_knn算法_knn预测_matlab分类算法
2022-09-20 23:24

4. **评估模型**：可以使用各种性能指标（如准确率、精确率、召回率、F1分数等）评估模型的性能，或者使用交叉验证优化模型参数。在提供的压缩文件"KNN.rar"中，很可能包含了一个使用Matlab实现的KNN分类预测代码...
基于KNN算法的乳腺癌诊断研究
2025-08-08 11:48

结果分析：分析准确率、召回率、F1分数等指标，评估KNN算法的表现。本实验验证了KNN算法在乳腺癌诊断中的可行性，凸显了数据预处理的重要性。合理选择特征并进行标准化处理可提升模型性能。通过优化k
Matlab-使用matlab开发的KNN分类器算法.zip
2024-03-03 17:07

5. 评估性能：可以使用混淆矩阵、准确率、召回率等指标评估分类器性能。在提供的压缩包文件"Matlab_使用matlab开发的KNN分类器算法"中，很可能包含了MATLAB脚本或者函数，详细展示了如何一步步实现上述过程。用户...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月14日

knn电影推荐算法评估准确率，召回率

3条回答 默认 最新

问题事件

3条回答默认最新