实验七:Pandas
Pandas的两大核心数据结构
Pandas是基于Numpy开发出的,专门用于数据分析的开源Python库
Series(一维数据)



DataFrame(多特征数据,既有行索引,又有列索引)


DataFrame的属性



Panda数据读取(以csv为例)
pandas.read_csv(filepath_or_buffer, sep=",", names=None, usecols = None)
filepath_or_buffer : 文件路径(本地路径或url路径) sep: 分隔符 names: 列索引的名字 usecols: 指定读取的列名 返回的类型: DataFrame
Dataframe通过布尔索引过滤数据


小案例: 分析2006年至2016年1000部IMDB电影数据

2006年-2016年IMDB最受欢迎的1000部电影

评分降序排列

统计时长
IMDB_1000 = pd.read_csv("./IMDB-Movie-Data.csv") # 获取数据字段 print(IMDB_1000.dtypes) # 根据1000部电影评分进行降序排列,参数ascending, 默认为True(升序), 这里为False(降序) IMDB_1000.sort_values(by="Rating", ascending=False) # 时间最长的电影 IMDB_1000[IMDB_1000["Runtime (Minutes)"]==IMDB_1000["Runtime (Minutes)"].max()] # 时间最短的电影 IMDB_1000[IMDB_1000["Runtime (Minutes)"]==IMDB_1000["Runtime (Minutes)"].min()] # 电影时长平均值 IMDB_1000["Runtime (Minutes)"].mean()
数据处理
存在缺失值, 直接删除数据(删除存在缺失值的样本)

存在缺失值, 直接填充数据fillna
