对数据进行如下操作:
1.导入必要的库和csv格式的数据文件(titanic数据)
2按性别处理数据中年龄的缺失值(用合适数值填充)
3通过查看极值和分箱,探索数据中有没有异常值,有异常值则进行处理(用合适数值填充)
4.练习设置分层索引并进行拆堆和堆叠操作
5.按照乘客等级分组,聚合输出各乘客等级的乘客的平均年龄,查看各乘客等级的乘客的生存率
6.按照性别分组,聚合输出各性别的乘客的平均生存率
7.按照乘客等级和性别分组,聚合输出交叉维度的平均生存率,中位数
8.按照客舱进行分组,输出每组5个年龄最小的乘客
9.分别输出以上5-7的bar图,根据实际情况决定水平或堆叠,需要包括title、legend、grid、xtick ytick等元素,需要有图和子图,以及子图之间的对比关系,体现共享x或y轴。
10.选择3-5个pandas的函数或方法,练习其他操作的内容