实验二 用python处理数值型数据(必做)
实验目的:熟悉python的基本数据结构,以及文件的输入与输出。
实验环境:anaconda3
实验数据:
2016年阿里天池大赛,也是中国高校第一届大数据挑战赛的数据。
数据包括两个表,分别是
用户行为表mars-tianchi-user-actions.csv。
歌曲艺人表mars-tianchi-songs.csv。
实验内容:
1。对歌曲艺人数据mars-tianchi-songs进行处理,统计出艺人的个数以及每个艺人的歌曲数量。输出文件格式为exp2-1.csv,第一列为艺人的ID,第二列为该艺人的歌曲数目。最后一行输出艺人的个数。
2。将用户行为表和歌曲艺人表以歌曲song-id作为关联,合并为一个大表。各列名称为第一到第五列与用户行为表的列名一致,第六到第十列为歌曲艺人表中的第二列到第六列的列名。输出文件名为exp2-2.csv。
3。按照艺人统计每个艺人每天所有歌曲的播放量,输出文件为exp2-3.csv,各个列名为艺人id,日期Ds,歌曲播放总量。注意:这里只统计歌曲的播放量,不包括下载和收藏的数量。要求输出格式