3.7:某店铺化妆品销售情况记录表
题目描述
下方提供的是各商品在某时间段的销售数据,某运营想对其进行数据分析,请编写程序完成以下任务。
对pro_sale_data数据表进行清洗
a. 删除重复数据 (删除重复行) b.缺失数据处理 (将缺失值填充为0)检索 title 字段中含有字符串 keyword 的产品数量 (去重后)。每个 id 表示一个产品
给定品牌名称 brand_name,统计该品牌销售额前 5名产品的总销售额
使用 jieba 分词,查询出现次数为 num 的标题(产品名称)中所有词汇的数量
程序提供字符串 keyword,产品名称 brand_name 和 num,需要返回 title 字中含有 keyword 关键词产品数量brand_name 产品下销售额前 5 的产品的总销售额和出现次数为 num 的所有词汇的词汇数量.
- 销售额 = sale_count(销售数量)* price(单价)
题目要求
- 程序不接收参数 keyword 数据类型是 str,brand_name 数据类型是 str,num 数据类型是 int:2,产品需要返回产品数量数据类型是 int,总销售额数据类型是 float,词汇数量的数据类型是 int;
- 返回结果需要包事在元组 tuple 中;
- 如果产品中不含有关键词 keyword,需要返回 0:
- 给定 brand_name 一定出现在数据中:
- 如果对应 num 没有对应的词汇,需要返回 0。
测试用例
输入: keyword="光采”,brand_name="兰芝",num=3
输出:(20,1453666365.0,53)
解释:含有'光采' 关键词的产品数量是 20,’兰芝” 产品排行前5产品总销售额是1453666365.0,分词词频为 3的关键词数量是53个
输入: keyword="洗发",brand_name="佰草集",num=7
输出: (33,1560362304.0,172)
解释:含有“洗发 关键词的产品数量是 33,’相宜本草” 产品排行前 5产品总销售额是 1560362304.0,分词词频为 7 的关键词数量是 172 个
输入: keyword="冰爽",brand_name="兰蔻",num=401
输出:(5,693332000.0,2)
数据说明
pro_sale data: 该数据为销售数据;编码格式为 gbk’ ;总共有27599行、7列;字段含义如下:
| 字段 | 含义 | 解释 |
|---|---|---|
| update_time | 统计时间 | - |
| id | 产品编号 | 一个产品具有一个id |
| title | 产品名称 | - |
| price | 交易价格 | 产品的价格 |
| sale_count | 销量 | - |
| comment_count | 评论数量 | - |
| brand_name | 品牌名称 | - |
文件在GitHub上:https://github.com/mcyt1/pandas-