如何用pandas爬取一个页面上多个链接里的表格（不是分页）？

网址：http://yjj.henan.gov.cn/zwgk/zqyj/

我目前只会爬里面任意一个面的表格，不会一起循环拿下

爬取这里面的每一个HTML表格

请大神帮助，本人纯属小白

以下是写的第一个链接里面的HTML表格

本来想用XPATH获取，实在不会只好放弃

import requests
from lxml import etree
import pandas as pd
import csv
import os
if __name__ == "__main__":

#河南药监局
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}
url="http://yjj.henan.gov.cn/2020/12-30/2069739.html"

response = requests.get(url=url,headers=headers)
response.encoding='utf-8'
page_text=response.text
tree = etree.HTML(page_text)
#print( page_text)
df = pd.read_html(page_text, encoding='utf-8', header=0)[0]
df_all.shape
df
df.to_csv('河南省药品监督管理局关于15批次抽检不合格药品的通告（2020年第4期）.csv', encoding='utf-8', index=False)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

python技巧(数据分析及可视化) 2021-03-18 20:29

关注

完整代码

import requests
from bs4 import BeautifulSoup
import time
import pandas as pd
import numpy as np

# 请求头
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}

url = 'http://yjj.henan.gov.cn/zwgk/zqyj/yp/'


# 获取html
html = requests.get(url,headers=headers)
# 统一编码
#html.encoding =html.apparent_encoding
data = html.text
# 转换成soup
soup = BeautifulSoup(data,'lxml')

# 链接
lianjie = soup.select('body > div.zwxxgk_bd > div.zwxxgk_box > div.scroll_main1 > div.zfxxgk_zdgkc > ul > li > a')
# 获取连接列表
lis =[]
for i in lianjie:
    lis.append(i['href'])
    
# 汇总数据
data = pd.DataFrame()
for urli in lis:
    for table in pd.read_html(urli):
        data = data.append(table)
    time.sleep(2)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(4条)

报告相同问题？

关注问题

如何用pandas爬取一个页面上多个链接里的表格（不是分页）？ python
2021-03-18 16:10

回答 5 已采纳完整代码 import requests from bs4 import BeautifulSoup import time import pandas as pd import numpy as
python pandas筛选列数据拆分到多个sheet中怎么才能做到 python 有问必答
2021-12-25 20:59

回答 2 已采纳拆分到多个sheet; 使用Python一分钟完成按照某一列将Excel数据由一个sheet拆分为多个sheet（使用pandas超简单）_ccplus的博客-CSDN博
python的pandas如何把一个由列表构成的双重列表转换成表格 python
2023-02-26 23:45

回答 2 已采纳。。。亲，构建Dataframe你可能还需要再熟悉一下。 column = ["基金代码", "基金名称", "单位净值", "累计净值", "近三个月(%)", "近六个月(%)", "近一年(%)
Python pandas分页爬取网页的表格导出excel文件
2020-09-19 15:12

Brother_Jian的博客我们利用模拟浏览器爬取一个网页上的表格，但是它有很多页，这就需要我们不断点击下一页来获取新的表格继续爬取。如图所示，我们无法确定一个动态更新数据的表格的具体页数，因为他会随着数据变化而增加或减少。 ...
怎么用python读取一个文件夹下的多个表格 python sql 有问必答
2022-01-05 08:46

回答 2 已采纳 data = pd.read_excel(str(file_list)+'\'+orders)这里filelist是list，你都已经遍历放到orders里了，直接用orders，不要再把整个list
Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。 python 有问必答
2021-09-20 23:00

回答 2 已采纳没有指定打开方式写为with open("./Gldjc_Pandas.txt","w+") as fin:即可有帮助望采纳~
Python中pandas读取数据库engine=create_engine()可以多人使用一个连接吗? django python
2019-08-23 14:55

回答 2 已采纳可以共用的，不会冲突
如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析
2023-07-31 15:25

亿牛云爬虫专家的博客 Selenium是一个开源的自动化测试框架，它可以模拟用户在...Selenium Python提供了一个WebDriver API，它可以让我们通过Python代码控制不同的浏览器驱动，如Chrome、Firefox、Edge等，从而实现对不同网站和平台的爬取。
用pandas爬取网页表格数据，获得数据不完整，只爬了一部分，如何解决 python
2021-08-06 12:34

回答 1 已采纳给个地址看看
python pandas的时间序列重采样怎么引用一年12个月而不是变成13个月？ python 开发语言
2021-08-09 21:52

回答 1 已采纳 prng = pd.period_range('2016-1','2016-12',freq = 'M') ts = pd.Series(np.arange(len(prng)), index = p
使用python 爬取网站数据分页数据并将数据导入excel
2023-08-21 11:08

Muzi0.0的博客 extracted_data.append({'日期': data1, '成交量(吨)': data2,'成交均价(元/吨)': data3,'成交额(元)': data4})df.to_excel('data.xlsx', index=False) # 设置index=False以避免...# 定义一个空列表来存储提取的数据。
用python读取多个csv表指定数据写入一个表中 python 有问必答
2022-01-24 01:28

回答 8 已采纳 import pandas as pd import glob import os # 获取当前路径 cwd = os.getcwd() # 要拼接的文件夹及其完整路径，注不要包含中文 ## 待读
python爬取表格数据匹配_爬取表格类网站数据并保存为excel文件
2020-12-20 19:07

weixin_39566578的博客本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 ...保存表格重点:分析表格类网站的ajax请求,以及如何保存这类信息(关于表格方面的)通过分析网址 JavaScript ...
用python和pandas拆分多页xls表格
2018-07-28 10:38

蒋小涛今天逃学了吗的博客用python和pandas拆分多页xls表格将一个具有多页的xls文件，排除掉不想要的一个sheet1后，将其余的表格生成一系列单sheet的xls文件。学习心得：熟悉了pandas对excel表格的基本io操作。算法思路：先...
没有解决我的问题, 去提问

悬赏问题

¥15 为什么使用javacv转封装rtsp为rtmp时出现如下问题：[h264 @ 000000004faf7500]no frame？
¥15 乘性高斯噪声在深度学习网络中的应用
¥15 运筹学排序问题中的在线排序
¥15 关于docker部署flink集成hadoop的yarn，请教个问题 flink启动yarn-session.sh连不上hadoop，这个整了好几天一直不行，求帮忙看一下怎么解决
¥30 求一段fortran代码用IVF编译运行的结果
¥15 深度学习根据CNN网络模型，搭建BP模型并训练MNIST数据集
¥15 C++ 头文件/宏冲突问题解决
¥15 用comsol模拟大气湍流通过底部加热（温度不同）的腔体
¥50 安卓adb backup备份子用户应用数据失败
¥20 有人能用聚类分析帮我分析一下文本内容嘛

码龄粉丝数原力等级 --

如何用pandas爬取一个页面上多个链接里的表格（不是分页）？

5条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

如何用pandas爬取一个页面上多个链接里的表格（不是分页）？

5条回答 默认 最新

悬赏问题

5条回答默认最新