2301_78284420 2023-12-04 19:54 采纳率: 0%
浏览 39
已结题

实验七:Pandas要有实验截图和代码

实验七:Pandas
Pandas的两大核心数据结构

Pandas是基于Numpy开发出的,专门用于数据分析的开源Python库
Series(一维数据)

img

img

img

DataFrame(多特征数据,既有行索引,又有列索引)

img

img

DataFrame的属性

img

img

img

Panda数据读取(以csv为例)
pandas.read_csv(filepath_or_buffer, sep=",", names=None, usecols = None)
filepath_or_buffer : 文件路径(本地路径或url路径) sep: 分隔符 names: 列索引的名字 usecols: 指定读取的列名 返回的类型: DataFrame

Dataframe通过布尔索引过滤数据

img

img

小案例: 分析2006年至2016年1000部IMDB电影数据

img

2006年-2016年IMDB最受欢迎的1000部电影

img

评分降序排列

img

统计时长
IMDB_1000 = pd.read_csv("./IMDB-Movie-Data.csv") # 获取数据字段 print(IMDB_1000.dtypes) # 根据1000部电影评分进行降序排列,参数ascending, 默认为True(升序), 这里为False(降序) IMDB_1000.sort_values(by="Rating", ascending=False) # 时间最长的电影 IMDB_1000[IMDB_1000["Runtime (Minutes)"]==IMDB_1000["Runtime (Minutes)"].max()] # 时间最短的电影 IMDB_1000[IMDB_1000["Runtime (Minutes)"]==IMDB_1000["Runtime (Minutes)"].min()] # 电影时长平均值 IMDB_1000["Runtime (Minutes)"].mean()
数据处理
存在缺失值, 直接删除数据(删除存在缺失值的样本)

img

存在缺失值, 直接填充数据fillna

img

  • 写回答

12条回答 默认 最新

报告相同问题?

问题事件

  • 系统已结题 12月12日
  • 创建了问题 12月4日