编程Python数据分析与应用

1、读取文件team.xlsx数据，其中'name'：名字, 'team'：所属团队, '1'：语文分数, '2'：数学分数, '3'：英语分数, '4'：政治分数，完成以下任务：
（1）查询该数据的索引、所有值、列名、数据类型、元素个数、维度以及形状。
（2）访问该数据中’name’、’team’中的前5行数据。
（3）访问该数据所属团队为B组中的成员名字，并筛选出B组中'1'大于60分的同学。
（4）在文件最后添加一列’tol’，意为该成员的四门课的分数总和。
（5）对数值型和’team’列数据分别进行描述性统计。
（6）对该数据按所属团队进行分类，查看每个团队的大小，并计算每个团队的1', '2', '3', '4'四门课的总分和平均分。

2、读取文件team.xlsx数据，其中'name'：名字, 'team'：所属团队, '1'：语文分数, '2'：数学分数, '3'：英语分数, '4'：政治分数，完成以下任务：
（1）画出'1'、 '2'、'3'、 '4'四门课分数的散点图和折线图。
（2）按所属团队进行分类，画出每个团队四门课平均分的直方图、饼图和箱线图。

3、读取文件countries-aggregated.csv数据，其中'Date'：日期, 'Country'：国家, 'Confirmed'、 'Recovered'、 'Deaths'：当日累计确诊、康复、死亡人数，完成以下任务：
（1）查询中国、美国的累计确诊人数，并画出折线图。
（2）查询2020/5/4日确诊病例在1万以上的国家中死亡率（死亡人数/确诊人数）排名前十的国家，并画出直方图。

4、import pandas as pd
pd.Series(pd.date_range('1920','2021'))
使用以上语句生成100年的时间序列，完成以下操作：
（1）找出100年中的劳动节
（2）计算出劳动节分别为星期一到星期日的天数。
（3）绘制劳动节分别为星期一到星期日的天数数量的直方图。

[](链接: https://pan.baidu.com/s/17RH-XmqBgeUCiLQJqXwx0Q?pwd=3sep 提取码: 3sep )

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

溪风沐雪 2022-06-09 22:23

关注

这题目内容太多了，折腾半天，可能有些理解不一定正确，仅供参考

#1、读取文件team.xlsx数据，其中'name'：名字, 'team'：所属团队, '1'：语文分数, '2'：数学分数, '3'：英语分数, '4'：政治分数，完成以下任务：
import pandas as pd
df = pd.read_excel('team.xlsx')

#（1）查询该数据的索引、所有值、列名、数据类型、元素个数、维度以及形状。
print(f'索引：{df.index}')
print(f'所有值：{df[::]}')
print(f'列名：{",".join([c for c in df.columns])}')
print(f'数据类型：{[type(x) for x in df[0:]]}')
print(f'元素个数：{len(df.index)}')
print(f'维度：{[c for c in df.columns][1:]}')
print(f'形状：{df[::].shape}')

#（2）访问该数据中’name’、’team’中的前5行数据。
top5 = df[['name','team']][:5]
print(top5)

# （3）访问该数据所属团队为B组中的成员名字，并筛选出B组中'1'大于60分的同学。
# B组成员
b_lst = df[df['team']=='B'].loc[:,'name']
print(b_lst.to_list())
#B组中'1'大于60分的同学
df = df[df['team']=='B']
b_lst1 = df[df['Q1']>60].loc[:,'name']
print(b_lst1.to_list())

# （4）在文件最后添加一列’tol’，意为该成员的四门课的分数总和。
data = df[['Q1','Q2','Q3','Q4']]
tol = [data.loc[i].sum() for i in data.index]
df['tol'] = tol
print(df)

# （5）对数值型和’team’列数据分别进行描述性统计。
print(f'A组成员占总人数{len(df[df["team"]=="A"].index)/len(df.index)*100}%')
print(f'B组成员占总人数{len(df[df["team"]=="B"].index)/len(df.index)*100}%')
print(f'C组成员占总人数{len(df[df["team"]=="C"].index)/len(df.index)*100}%')
print(f'D组成员占总人数{len(df[df["team"]=="D"].index)/len(df.index)*100}%')
print(f'E组成员占总人数{len(df[df["team"]=="E"].index)/len(df.index)*100}%')
print(f'语文成绩及格率{len(df[df["Q1"]>=60].index)/len(df.index)*100}%')
print(f'数学成绩及格率{len(df[df["Q2"]>=60].index)/len(df.index)*100}%')
print(f'英语成绩及格率{len(df[df["Q3"]>=60].index)/len(df.index)*100}%')
print(f'政治成绩及格率{len(df[df["Q4"]>=60].index)/len(df.index)*100}%')

# （6）对该数据按所属团队进行分类，查看每个团队的大小，并计算每个团队的1', '2', '3', '4'四门课的总分和平均分。
a = df[df["team"]=="A"]
b = df[df["team"]=="B"]
c = df[df["team"]=="C"]
d = df[df["team"]=="D"]
e = df[df["team"]=="E"]

for i,t in zip([a,b,c,d,e],['A','B','C','D','E']):
    num = len(i.index)
    sum_1 = i["Q1"].sum()
    avg_1 = round(sum_1/num,2)
    sum_2 = i["Q2"].sum()
    avg_2 = round(sum_2/num,2)
    sum_3 = i["Q3"].sum()
    avg_3 = round(sum_3/num,2)
    sum_4 = i["Q4"].sum()
    avg_4 = round(sum_4/num,2)
    print(f'团队{t}有{num}人,语文总分/平均分：{sum_1}/{avg_1},数学总分/平均分：{sum_2}/{avg_2},英语总分/平均分：{sum_3}/{avg_3},政治总分/平均分：{sum_4}/{avg_4}')

# 2、读取文件team.xlsx数据，其中'name'：名字, 'team'：所属团队, '1'：语文分数, '2'：数学分数, '3'：英语分数, '4'：政治分数，完成以下任务：
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_excel('team.xlsx')
# （1）画出'1'、 '2'、'3'、 '4'四门课分数的散点图和折线图。
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.sans-serif']=['SimHei']
#散点图
ax1 = df.plot.scatter(x='name', y='Q1', color='r', label='Q1')
df.plot.scatter(x='name', y='Q2', color='b', label='Q2', ax=ax1)
df.plot.scatter(x='name', y='Q3', color='y', label='Q3', ax=ax1)
df.plot.scatter(x='name', y='Q4', color='g', label='Q3', ax=ax1)
plt.xticks('')
#折线图
df.plot(kind='line',x='name', y=['Q1', 'Q2', 'Q3', 'Q4'],subplots=True,layout=(2, 2),figsize=(10, 5))
plt.show()

# （2）按所属团队进行分类，画出每个团队四门课平均分的直方图、饼图和箱线图。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_excel('team.xlsx')
a = df[df["team"]=="A"]
b = df[df["team"]=="B"]
c = df[df["team"]=="C"]
d = df[df["team"]=="D"]
e = df[df["team"]=="E"]
a_avg = [round(a[q].sum()/len(a.index),2) for q in ['Q1','Q2','Q3','Q4']]
b_avg = [round(b[q].sum()/len(b.index),2) for q in ['Q1','Q2','Q3','Q4']]
c_avg = [round(c[q].sum()/len(c.index),2) for q in ['Q1','Q2','Q3','Q4']]
d_avg = [round(d[q].sum()/len(d.index),2) for q in ['Q1','Q2','Q3','Q4']]
e_avg = [round(e[q].sum()/len(e.index),2) for q in ['Q1','Q2','Q3','Q4']]
df_hist = pd.DataFrame({'A':a_avg, 'B':b_avg, 'C':c_avg, 'D':d_avg, 'E':e_avg}, columns=['A','B','C','D','E'],index=['Q1','Q2','Q3','Q4'])
#直方图
df_hist.hist(color='r', alpha=0.5, bins=20)
#饼图
df_hist.plot.pie(subplots=True, figsize=(10, 5))
#箱线图
df_hist.plot.box(figsize=(10, 5))
plt.show()

# 3、读取文件countries-aggregated.csv数据，其中'Date'：日期, 'Country'：国家, 'Confirmed'、 'Recovered'、 'Deaths'：当日累计确诊、康复、死亡人数，完成以下任务：
# （1）查询中国、美国的累计确诊人数，并画出折线图。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_csv('countries-aggregated.csv')
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.sans-serif']=['SimHei']
cn = df[df['Country']=='China']
us = df[df['Country']=='US']
plt.figure(figsize=(9,6))
plt.title('中国、美国的累计确诊人数')
plt.plot(cn.loc[:,'Date'], cn.loc[:,'Confirmed'], color='green', label='China')
plt.plot(cn.loc[:,'Date'], us.loc[:,'Confirmed'], color='red', label='US')
plt.ylabel('确诊人数(百万)')
plt.xlabel('日期')
plt.yticks(range(0,1500000,100000))
plt.xticks(cn.loc[:,'Date'][::10],)
plt.show()
# （2）查询2020/5/4日确诊病例在1万以上的国家中死亡率（死亡人数/确诊人数）排名前十的国家，并画出直方图。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
df = pd.read_csv('countries-aggregated.csv')
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.sans-serif']=['SimHei']
data = df[df['Date']=='2020/5/4'][df['Confirmed']>10000]
data['newc'] = pd.DataFrame(df['Deaths']/df['Confirmed'])
data.sort_values(by="newc" , inplace=True, ascending=False)
top10 = data.head(10)['newc']
top10.hist(color='r', alpha=0.5, bins=25)
plt.show()

# 4、import pandas as pd
# pd.Series(pd.date_range('1920','2021'))
# 使用以上语句生成100年的时间序列，完成以下操作：
# （1）找出100年中的劳动节
import pandas as pd
import time
import matplotlib.pyplot as plt
dates = pd.Series(pd.date_range('1920','2021'))
lst = [str(d).split(' ')[0] for d in list(dates) if '-05-01' in str(d)]
print(lst)
# （2）计算出劳动节分别为星期一到星期日的天数。
lst = [time.strptime(str(d), "%Y-%m-%d %X").tm_wday for d in list(dates) if '-05-01' in str(d)]
weeks = ['星期日','星期一','星期二','星期三','星期四','星期五','星期六']
weekinfo = {weeks[i]:lst.count(i) for i in range(7)}
print(weekinfo)
# （3）绘制劳动节分别为星期一到星期日的天数数量的直方图。
plt.rcParams['axes.unicode_minus']=False
plt.rcParams['font.sans-serif']=['SimHei']
plt.hist(weekinfo.values())
plt.show()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

编程Python数据分析与应用 python
2022-06-09 21:22

回答 1 已采纳这题目内容太多了，折腾半天，可能有些理解不一定正确，仅供参考 #1、读取文件team.xlsx数据，其中'name'：名字, 'team'：所属团队, '1'：语文分数, '2'：数学分数, '3'：
python编程数据分析 python
2022-05-26 00:03

回答 1 已采纳 d = {} dial_clean='15 年已经成为中国全力推进一带一路构想的新起点亚欧互联互通的政策沟通设施联通贸易畅通资金融通民心相通五大领域
两列时间序列数据怎么用apriori算法做关联分析呢？(语言-python) python 数据分析算法
2022-06-01 14:01

回答 3 已采纳原始数据—>滑动窗口L=10截取原始数据得到N个子序列—>线性拟合—>标准化斜率—>子序列符号化处理—>Apriori算法我觉得这个说的挺清楚的啊，关联算法本身解决的是各
Python数据分析基础教程第3章-Python编程分析基础.pptx
2023-06-12 11:12

本章思维导图第3 章 Python 分析编程基础王斌会 Python数据分析基础教程第3章--Python编程分析基础全文共50页，当前为第2页。 3.1 Python数据类型 3.1.1 Python对象第3 章 Python 分析编程基础 Python数据分析...
python自动化办公 python 大数据数据分析
2023-03-07 12:16

回答 3 已采纳该回答引用ChatGPT 请测试这个代码会对 input_folder_path 目录下的所有文件夹进行处理，并将处理后的数据分别保存到 output_folder_path 目录下以对应文件夹名
数据统计分析，量有点大，要编程统计，可以发红包 python
2021-10-05 16:01

回答 1 已采纳 hello
白葡萄酒品质分析处理，求最后思考题的代码怎么写(语言-python) python 有问必答
2022-03-17 12:12

回答 2 已采纳通过遍历来统计，代码可这样写： means=[x[-1] for x in mean_list] for (k,v),m in zip(content_dict.items(),means):
Python：Python数据分析基础教程王斌会第三章Python编程分析基础.pdf
2023-06-13 12:28

Python：Python数据分析基础教程王斌会第三章Python编程分析基础 Python数据分析基础教程/王斌会第三章 Python编程分析基础 - 3.1Python的数据类型 - 3.2数值分析库numpy 3.2.1⼀维数组其他有帮助的⽣成数： np....
银行人的数据分析应该用什么软件？ mysql python 数据库有问必答
2022-02-01 12:58

回答 3 已采纳如果你没有编程基础，可以使用excel表格，不要嫌麻烦，能完成任务就行，如果你要学习编程python或者Java作为基础都可以，mysql用来存储数据，python或者Java编写一个网页系统，主要就
python pocha-0.6 光谱二维相关分析 python 有问必答
2023-02-16 10:08

回答 3 已采纳 Pocha是Python的一个开源库，用于处理近红外光谱数据。它提供了各种统计方法和可视化工具，以帮助用户分析、探索和解释这些数据。以下是使用Pocha进行二维相关分析的步骤：安装Pocha在Pyt
关于数据分析希望找个师傅，您往下看 mysql python sql
2022-06-06 23:13

回答 6 已采纳学习一下Python基本用法，python操作excel主要用到xlrd和xlwt这两个库，对这2个库的方法在熟悉一下就可以了
数据分析领域-Python编程语言-NumPy数据处理-参考资料
2024-03-24 15:28

这是专门适用于大学生的编程语言的代码库的使用说明，用于线性代数的学习与理解，大学生计算机竞赛，Python的学习与使用，数据处理等
如何在一组二维数组中剔除未知字符串？ python scikit-learn 数据分析
2022-10-20 20:59

回答 4 已采纳 a = [[1, 2, 'a'], [2, 3, 'b'], [3, 4, 'c']]for i in range(len(a)): for j in range(len(a[i])):
Python 数据分析初探项目基于 Python 数据可视化的网易云音乐歌单分析系统大学编程作业
2023-08-16 11:48

本基于 Python 数据可视化的网易云音乐歌单分析系统，我使用了 ...通过这次 Python 数据分析初探项目的实践，我巩固了 Python 的语法知识，熟练应用了各个第三方开源模块，为之后的 Python 数据分析学习打下基础。
如何才能做好Python数据分析？需要留意的Python编程知识.docx
2023-07-25 22:21

为了在这个领域中做好Python数据分析工作，需要掌握一些基本的Python编程知识。以下是需要留意的Python编程知识： - Python基础知识：包括变量、循环、条件语句等。这些基础知识是编程的基础，熟练掌握它们可以帮助...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 6月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金10元 6月9日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 6月9日
展开全部

悬赏问题

¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分
¥15 Macbookpro 连接热点正常上网，连接不了Wi-Fi。
¥15 delphi webbrowser组件网页下拉菜单自动选择问题
¥15 linux驱动，linux应用，多线程
¥20 我要一个分身加定位两个功能的安卓app
¥15 基于FOC驱动器，如何实现卡丁车下坡无阻力的遛坡的效果
¥15 IAR程序莫名变量多重定义
¥15 (标签-UDP|关键词-client)
¥15 关于库卡officelite无法与虚拟机通讯的问题

编程Python数据分析与应用

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新