千雪*桜 2023-11-16 15:34
浏览 18
已结题

pandas数据分析处理

3.7:某店铺化妆品销售情况记录表

题目描述

下方提供的是各商品在某时间段的销售数据,某运营想对其进行数据分析,请编写程序完成以下任务。

  1. 对pro_sale_data数据表进行清洗

     a. 删除重复数据 (删除重复行)
    
     b.缺失数据处理 (将缺失值填充为0)
    
  2. 检索 title 字段中含有字符串 keyword 的产品数量 (去重后)。每个 id 表示一个产品

  3. 给定品牌名称 brand_name,统计该品牌销售额前 5名产品的总销售额

  4. 使用 jieba 分词,查询出现次数为 num 的标题(产品名称)中所有词汇的数量

程序提供字符串 keyword,产品名称 brand_name 和 num,需要返回 title 字中含有 keyword 关键词产品数量brand_name 产品下销售额前 5 的产品的总销售额和出现次数为 num 的所有词汇的词汇数量.

  • 销售额 = sale_count(销售数量)* price(单价)

题目要求

  1. 程序不接收参数 keyword 数据类型是 str,brand_name 数据类型是 str,num 数据类型是 int:2,产品需要返回产品数量数据类型是 int,总销售额数据类型是 float,词汇数量的数据类型是 int;
  2. 返回结果需要包事在元组 tuple 中;
  3. 如果产品中不含有关键词 keyword,需要返回 0:
  4. 给定 brand_name 一定出现在数据中:
  5. 如果对应 num 没有对应的词汇,需要返回 0。

    测试用例

    输入: keyword="光采”,brand_name="兰芝",num=3

输出:(20,1453666365.0,53)

解释:含有'光采' 关键词的产品数量是 20,’兰芝” 产品排行前5产品总销售额是1453666365.0,分词词频为 3的关键词数量是53个

输入: keyword="洗发",brand_name="佰草集",num=7

输出: (33,1560362304.0,172)

解释:含有“洗发 关键词的产品数量是 33,’相宜本草” 产品排行前 5产品总销售额是 1560362304.0,分词词频为 7 的关键词数量是 172 个

输入: keyword="冰爽",brand_name="兰蔻",num=401

输出:(5,693332000.0,2)

数据说明

pro_sale data: 该数据为销售数据;编码格式为 gbk’ ;总共有27599行、7列;字段含义如下:

字段含义解释
update_time统计时间-
id产品编号一个产品具有一个id
title产品名称-
price交易价格产品的价格
sale_count销量-
comment_count评论数量-
brand_name品牌名称-

文件在GitHub上:https://github.com/mcyt1/pandas-

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 11月24日
    • 创建了问题 11月16日