weixin_52098007 2024-05-28 09:21 采纳率: 55.6%

已结题

推荐算法实习生想问个问题

想问一下各位，推荐系统中曝光量是怎么统计的呢，我思路是将已经查询出的user_id进行value_count，看一下分布，或者直接label encoder 然后看一下斯皮尔满相关性，但有很多其他都feature，我不太确定，还有mentor让我做一个试验，将两个组的曝光度分布统计并且分析出来。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

专家-赤兔[在线] 全栈领域优质创作者 2024-05-28 09:21

关注

引自免费微信小程序：皆我百晓生

在推荐系统中，曝光量（impression）通常是指用户在浏览页面时看到某个项目（例如商品、广告或内容）的次数。为了计算这个指标，你需要收集用户的交互数据，比如他们在平台上的点击行为、浏览历史等。对于这个问题，我将为你提供一个详细的步骤指南来完成这个任务。

首先，确保你有正确的日志数据，这些数据应该包含用户ID、他们查看的内容ID（例如剧集ID）、以及他们是在哪个页面（如Discover页或Foru页）上看到这些内容的信息。另外，也需要用户是否为VIP会员以及他们的充值金额的数据。

以下是处理这个问题的一个基本框架，我们将使用Python和pandas库来实现。由于这是一个文本环境，我会描述如何编写代码，而不是实际运行它。如果你在本地环境中运行这些代码，可能需要根据你的具体数据格式进行调整。

导入所需的库：

import pandas as pd
from sklearn.preprocessing import LabelEncoder

加载数据：

# 假设你的数据存储在CSV文件中
data = pd.read_csv('your_data.csv')

数据预处理：

# 对user_id进行唯一值计数
exposure_counts = data['user_id'].value_counts()

# 使用LabelEncoder对user_id进行编码
le = LabelEncoder()
data['encoded_user_id'] = le.fit_transform(data['user_id'])

# 计算斯皮尔曼相关性
from scipy.stats import spearmanr
corr, _ = spearmanr(exposure_counts.index, exposure_counts.values)
print(f"Spearman correlation: {corr}")

分析曝光次数（昨天/昨天+前天/三天）：

def calculate_exposures(df, group):
    # 根据实验组和对照组过滤数据
    group_df = df[df['group'] == group]
    
    # 重置索引并添加时间戳列
    group_df.reset_index(inplace=True, drop=True)
    group_df['timestamp'] = pd.to_datetime(group_df['timestamp'])
    
    # 计算昨天、昨天+前天和三天的曝光次数
    yesterday_exp = group_df[group_df['timestamp'] > pd.Timestamp.now() - pd.Timedelta(days=1)]
    yesterday_plus_yesterday_before_exp = group_df[
        (group_df['timestamp'] > pd.Timestamp.now() - pd.Timedelta(days=2)) & 
        (group_df['timestamp'] <= pd.Timestamp.now() - pd.Timedelta(days=1))
    ]
    three_days_exp = group_df[group_df['timestamp'] > pd.Timestamp.now() - pd.Timedelta(days=3)]

    return {
        'yesterday': len(yesterday_exp),
        'yesterday_plus_yesterday_before': len(yesterday_plus_yesterday_before_exp),
        'three_days': len(three_days_exp)
    }

experiment_group_stats = calculate_exposures(data, "foru-test1")
control_group_stats = calculate_exposures(data, "foru-base")

print("Experiment group exposures:")
print(experiment_group_stats)
print("Control group exposures:")
print(control_group_stats)

用户充值情况（VIP/非VIP，金额，人数）：

def calculate_charges(df, group):
    group_df = df[df['group'] == group]
    
    vip_charges = group_df[group_df['is_vip'] == True]['charge_amount'].sum()
    non_vip_charges = group_df[group_df['is_vip'] == False]['charge_amount'].sum()
    vip_users = group_df[group_df['is_vip'] == True].shape[0]
    non_vip_users = group_df[group_df['is_vip'] == False].shape[0]

    return {
        'total_vip_charges': vip_charges,
        'total_non_vip_charges': non_vip_charges,
        'vip_users': vip_users,
        'non_vip_users': non_vip_users
    }

vip_charges_stats = calculate_charges(data, "foru-test1")
non_vip_charges_stats = calculate_charges(data, "foru-base")

print("VIP charges stats:")
print(vip_charges_stats)
print("Non-VIP charges stats:")
print(non_vip_charges_stats)

Discover页和Foru页的充值情况：

def calculate_page_charges(df, page, group):
    group_df = df[(df['group'] == group) & (df['page'] == page)]
    
    total_charges = group_df['charge_amount'].sum()
    num_users = group_df.shape[0]
    
    return {
        'total_charges': total_charges,
        'num_users': num_users
    }

discover_charges_stats = calculate_page_charges(data, "Discover", "foru-test1")
foru_charges_stats = calculate_page_charges(data, "Foru", "foru-test1")

print("Discover page charges stats:")
print(discover_charges_stats)
print("Foru page charges stats:")
print(foru_charges_stats)

用户观看剧集情况（人剧集数）：

def calculate_episode_views(df, group):
    group_df = df[df['group'] == group]
    
    user_episode_counts = group_df.groupby(['user_id', 'episode_id']).size().reset_index(name='count')
    
    return user_episode_counts

user_episode_counts = calculate_episode_views(data, "foru-test1")

print("User episode counts:")
print(user_episode_counts.head())

以上代码仅作为参考，并未考虑到所有可能的数据结构和异常情况。根据实际情况，你可能需要进行一些调整。同时，为了可视化结果，可以使用matplotlib或seaborn库创建图表，展示不同组别的曝光次数、充值金额等的对比情况。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

我想问一个算法书籍推荐 python
2022-04-07 11:12

回答 4 已采纳《算法导论》基本是伪代码《算法(第4版)》java实现
一个任务平均分配算法问题 c++ 动态规划算法
2023-02-14 02:01

回答 3 已采纳这是一个NP-hard问题，通常需要采用启发式算法来求解。这里介绍一种贪心算法的思路，可能并不能保证达到最优解，但是可以得到一个比较好的近似解。首先，将所有任务按照区域编号升序排列。然后，对于每个经
想问下数据结构与算法该怎么看书自学数据结构算法职场和发展
2021-10-31 15:49

回答 2 已采纳第一遍建议先看书，尽量去记代码，然后自己敲，哪里不会就去看书，多练习就好了
北京/杭州内推 | 阿里达摩院对话智能团队招聘NLP算法研究型实习生
2023-03-19 21:44

PaperWeekly的博客 AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！阿里巴巴达摩院阿里巴巴达摩院对话智能团队 (Conversational AI) 成立于2014年，专注于大规模预训练和人机对话技术，过去一年围绕...
求解一个关于#多叉树算法#的问题改行学IT 算法
2023-01-10 22:08

回答 1 已采纳你可以用一个递归遍历，每个结点返回自己是否应该被删除，如果不是红叶结点就返回应该被删除而非叶子结点，则判断它的两个子树，如果它的子树中有一个返回的是不该被删除，那就保留；否则就删除我说的“是否被删除”
关于C语言编程算法的一个小问题 c语言算法
2022-03-26 21:00

回答 3 已采纳你好，a++是后置++，++a是前置++a++ 后置++是先使用，再++，比如：a=2； b=a++；先使用，再++，就是先把值给b，再自身++，最后b=2++a 前置++是先++，再使用，比如：
麻雀搜索算法中的公式问题人工智能有问必答算法
2021-09-17 09:09

回答 1 已采纳当i >n/2 时，这表明，适应度值较低的第 i 个加入者没有获得食物，处于十分饥饿的状态，此时需要飞往其它地方觅食，以获得更多的能量可以参考这个，讲的很详细:如果有帮助请点一下我回答右上方的采
如何成为一名AI人工智能算法工程师？
2019-06-30 12:25

喜欢打酱油的老鸟的博客经常有朋友私信问，如何学python呀，如何敲代码呀，如何进入AI行业呀？ ...正好回头看看自己这一年走过的路，进行一次经验总结。...人工智能/机器学习/深度学习自学如何寻找学习资料如何选择编...
想知道这个排序算法错在哪，感觉没啥问题啊排序算法
2021-09-30 11:54

回答 3 已采纳更正后如下： for (int i = 1; i < N; ++i) { for (int j = N - 1; j > 0; --j) {
梯度下降算法、牛顿迭代算法的相关问题人工智能机器学习算法
2022-02-08 11:56

回答 2 已采纳这些知识属于工程数学原理的内容，具体分支是最优化理论，您可以参考相关教材。一般地，优化问题可以分为无约束优化和有约束优化，您提到的梯度法和牛顿法都属于无约束优化中的梯度类方法，此外无约束优化中还有非梯
请教这个C++问题，C++算法的问题 c++ 有问必答算法
2021-08-08 16:11

回答 3 已采纳 // ConsoleApplication13.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。 // #include <iostream> #includ
拼多多面试题——算法实习生
2022-09-22 22:48

fpga和matlab的博客 2.面试官不是做图像的，问了每一个项目是怎么做的，思想，没有问细节；8.nms具体怎么做的，假设这是一个函数，那么这个函数输入输出是什么，中间操作又是怎么做的。2.面试官是图像组的，介绍项目，抠细节，为什么...
求解一个不知名的算法问题算法
2021-10-22 00:17

回答 1 已采纳取任意为1的点a，将周围所有为1的点放到集合c中，将a变为0。从c中任意取一点a，重复上述步骤，直到c为空。这就完成了一次点过。重复上述过程，直到所有点都为零。
上海内推 | 浦江实验室招聘NLP方向算法实习生
2022-12-04 20:03

PaperWeekly的博客 AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！浦江实验室浦江实验室是国家级新型科研机构，是人工智能领域国家战略科技力量的重要组成部分。实验室开展战略性、前瞻性、基础性...
算法实习生面试记录
2018-05-22 16:16

左左张的博客算法实习生面试谈 2018/5/21 &amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;nbsp;&amp;amp;amp;amp;amp;amp;amp;...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 6月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月28日

悬赏问题

¥15 程序实在不会写，要秃了
¥15 pycharm导入不了自己的包
¥15 C#.net通过内网url地址获取文件并下载问题，浏览器postman可以正常下载，用程序不行
¥15 本人本科机械，目前研一。没有深度学习基础，目前对研究生课题一片迷茫，请教各位！
¥15 关于R语言单因素与多因素线性回归的平均值
¥15 服务器清除BIOS之后引导不了
¥15 CPLEX用OPL编写的混合整数线性优化问题。
¥15 可以用EasyConnect连接实验室内网，但无法连接内网才能访问的服务器，为什么？
¥15 前端预览docx文件，文件从后端传送过来。
¥15 层次聚类和蛋白质相似度

推荐算法实习生想问个问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新