2024年全国大学生数据分析大赛A题：直播带货与电商产品的大数据分析求Python代码

2024年全国大学生数据分析大赛A题：直播带货与电商产品的大数据分析
包含但不限于以下问题：对数据进行预处理与探索
对附件中直播带货商品进行统计分析并可视化。
顾客画像是指根据顾客的属性、顾客偏好、顾客行为等信息而抽象出来的标签化用户模型。通俗说就是给顾客打标签，而标签是通过对顾客信息分析而来的高度精炼的特征标识。通过打标签可以利用一些高度概括、容易理解的特征来描述顾客，可以让人更容易理解顾客，请构建顾客属性、消费水平和消费偏好等标签，并绘制顾客画像。
求具体Python代码

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

九月镇灵将新星创作者: Python技术领域 2024-12-25 16:10

关注


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder

# 假设数据已经以CSV格式存储，并包含以下列：
# 商品信息表：product_df（商品ID, 商品名称, 商品类别, 商品价格, ...）
# 销售记录表：sales_df（销售ID, 商品ID, 顾客ID, 购买数量, 购买时间, ...）
# 顾客信息表：customer_df（顾客ID, 顾客姓名, 顾客年龄, 顾客性别, 顾客地区, ...）

# 加载数据
product_df = pd.read_csv('products.csv')
sales_df = pd.read_csv('sales.csv')
customer_df = pd.read_csv('customers.csv')

# 数据预处理（示例）
# 处理缺失值（这里以填充0为例，实际情况可能需要根据数据特点进行处理）
sales_df.fillna(0, inplace=True)

# 统计分析商品销量和销售额
sales_grouped = sales_df.groupby('商品ID')['购买数量', '商品价格'].agg({'购买数量': 'sum', '商品价格': 'mean'}).reset_index()
sales_grouped['销售额'] = sales_grouped['购买数量'] * sales_grouped['商品价格']

# 可视化商品销量和销售额
plt.figure(figsize=(14, 7))
plt.subplot(1, 2, 1)
sns.barplot(x='购买数量', y='商品ID', data=sales_grouped.sort_values(by='购买数量', ascending=False).head(10), palette='viridis')
plt.title('Top 10 商品销量')
plt.xlabel('销量')
plt.ylabel('商品ID')

plt.subplot(1, 2, 2)
sns.barplot(x='销售额', y='商品ID', data=sales_grouped.sort_values(by='销售额', ascending=False).head(10), palette='viridis')
plt.title('Top 10 商品销售额')
plt.xlabel('销售额')
plt.ylabel('商品ID')

plt.tight_layout()
plt.show()

# 构建顾客画像（示例）
# 合并销售记录和顾客信息
customer_sales_df = sales_df.merge(customer_df, on='顾客ID', how='left')

# 计算顾客的消费水平（总购买金额）和消费偏好（购买最多的商品类别）
customer_spending = customer_sales_df.groupby('顾客ID')['购买数量', '商品价格'].agg({'购买数量': 'sum', '商品价格': 'mean'}).reset_index()
customer_spending['总购买金额'] = customer_spending['购买数量'] * customer_spending['商品价格']

# 假设商品类别信息已经合并到销售记录表中
customer_preference = customer_sales_df.groupby(['顾客ID', '商品类别'])['购买数量'].sum().reset_index()
customer_preference = customer_preference.sort_values(by=['顾客ID', '购买数量'], ascending=[True, False]).groupby('顾客ID').head(1)

# 为顾客打标签（示例）
def assign_labels(customer_df):
    labels = []
    for _, row in customer_df.iterrows():
        age_label = '青年' if row['顾客年龄'] < 35 else '中老年'
        gender_label = '男性' if row['顾客性别'] == '男' else '女性'
        spending_label = '高消费' if row['总购买金额'] > np.percentile(customer_df['总购买金额'], 75) else '低消费'
        preference_label = row['商品类别']  # 这里简单以购买最多的商品类别作为偏好标签
        labels.append(f'{age_label}_{gender_label}_{spending_label}_{preference_label}')
    return labels

customer_df['顾客标签'] = assign_labels(customer_spending.merge(customer_preference[['顾客ID', '商品类别']], on='顾客ID', how='left'))

# 绘制顾客画像（示例）
# 这里以顾客标签的分布为例进行可视化
label_counts = customer_df['顾客标签'].value_counts().reset_index()
label_counts.columns = ['顾客标签', '人数']

plt.figure(figsize=(10, 6))
sns.barplot(x='人数', y='顾客标签', data=label_counts, palette='muted')
plt.title('顾客画像 - 顾客标签分布')
plt.xlabel('人数')
plt.ylabel('顾客标签')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 注意：以上代码为示例框架，实际使用时需要根据具体的数据结构和需求进行调整和优化。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

《高教社杯全国大学生数学建模竞赛》专栏目录 & 历年国赛真题库（持续更新中）
2025-12-17 11:44

bug菌¹的博客本专栏《滚雪球学数学建模》采用“从零开始...非常适合零基础入门、希望提升模型与工程化能力的本科/研究生，以及备战全国大学生数学建模竞赛（国赛/省赛）的同学。加油，我们一起把建模能力打造成可迁移的核心竞争力！
商务数据分析与应用：前景广阔的专业，就业方向多样
2024-11-14 15:12

cda2024的博客商务数据分析与应用是一门结合了统计学、计算机科学和商业管理的交叉学科。它旨在通过数据挖掘、预测分析和决策支持等技术，帮助企业优化运营、提高效率和增加利润。这门专业的学生不仅需要掌握数据处理和分析的基本...
基于SpringBoot大学生技能展示及服务平台-开题报告
2025-06-12 22:10

java李杨勇的博客基本内容大学生技能展示及服务平台整合了多个功能模块，旨在为大学生提供展示技能、获取副业机会的综合性平台，帮助他们在学业之余实现技能变现，积累实践经验，提升就业竞争力。通过用户与管理员的权限区分，确保...
零基础前端大学生如何选择第二语言？Java、C++、Python深度对比与学习路径
2025-10-13 14:24

学习猿猿君的博客作为前端开发者，你已经有了一把...现在，选择第二语言就像选择门后的道路：Java是通往大厂全栈的高速公路，Python是探索新兴领域的快速航道，C++是攀登技术巅峰的登山之路。无论选择哪条路，立即行动才是最重要的。
关于举办“2022年（第15届）中国大学生计算机设计大赛”通知
2021-11-23 18:54

武师叔的博客目前，大赛是全国普通高校大学生竞赛排行榜榜单的赛事之一。大赛国赛的参赛对象，是中国大陆高等院校中所有专业的当年在校本科生和来华留学生，重点是激发学生学习计算机知识和技能的兴趣和潜能，提高学生运用信息...
计算机科学与人工智能专业的应届毕业生应如何提高自身的就业的认知和竞争力？
2025-02-06 21:31

叶庭云的博客深入分析：在当前中国高校的教育体系及就业市场环境下，计算机科学与人工智能专业的应届毕业生应如何提高自身的就业的认知和竞争力？
AI时代产品经理的必修课：9位行业大牛的深度解析与策略分享！
2025-12-23 19:00

AI学习不迷路的博客本文基于AI产品大会九位嘉宾分享，归纳出AI时代产品经理的三大变革方向：工具层从低代码到自然语言交互的跃迁；知识层从文件管理到智能问答系统的重构；场景层从通用平台到垂直落地的深耕。核心洞察在于：工具门槛...
计算机毕业设计hadoop+spark+hive 高考志愿填报推荐推荐系统高考数据分析可视化大屏高考爬虫高考分数线预测数据仓库大数据毕业设计
2024-07-15 01:30

私信我自动获取源码的博客计算机毕业设计hadoop+spark+hive 高考志愿填报推荐推荐系统高考数据分析可视化大屏高考爬虫高考分数线预测数据仓库大数据毕业设计
信创时代开发工具选择指南：国产替代背景下的技术生态与实践路径
2025-04-25 12:54

猿享天开的博客信创开发的工具选择需综合政策导向、技术适配与生态演进三维考量。构建工具体系：以GCC、GDB打牢系统开发基础，结合DevEco Studio（鸿蒙）、DevCloud（云原生）、DMAdmin（数据库）形成全栈能力。深度参与生态：加入...
【Python程序员节极客狂欢】：2024最值得参加的5大技术活动揭秘
2025-10-14 10:19

CompiGlow的博客揭秘2024年Python程序员节极客活动精选，汇聚全球开发者智慧，涵盖AI开发、自动化运维等热门场景。五大技术盛会深度解析前沿工具与实战方法，助力提升编程效率与创新能力。值得收藏，点击了解详情。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 5月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月25日

2024年全国大学生数据分析大赛A题：直播带货与电商产品的大数据分析 求Python代码

1条回答 默认 最新

问题事件

2024年全国大学生数据分析大赛A题：直播带货与电商产品的大数据分析求Python代码

1条回答默认最新