Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。

想利用Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件，在运行过程中最后结果报错，如下图

程序如下

import requests
import requests.cookies
import json
import time
import pandas as pd

cookie_jar = requests.cookies.RequestsCookieJar

with open("./Gldjc_Pandas.txt") as fin:
    cookiejson = json.loads(fin.read())
    for cookie in cookiejson:
        cookie_jar.set(
            name=cookie["name"],
            value=cookie["value"],
            domain=cookie["domain"],
            path=cookie["path"]
        )

cookie_jar

htmls = []
url = "http://info.gldjc.com/info_price/a_l_p_cd_cl_m_k_pn1_so.html"
for idx in range(72):
    time.sleep(1)
    print("**爬数据: 第%d页" % idx)
    r = requests.get(url.format(idx=idx), cookies=cookie_jar)
    htmls.append(r.text)

htmls[0]

# 收集72个网页的表格
df_list = []
for html in htmls:
    df = pd.read_html(html)
    df_cont = df[1]
    df_cont.columns = df[0].columns
    df_list.append(df_cont)

# 合并多个表格
df_all = pd.contact(df_list)
df_all.head(4)
df_all.shape

# 4.Pandas将数据存储到Excel(pd.to_excel)
df_all[["序号", "材料名称", "规格型号", "单位", "除税价", "含税价", "历史价", "税率", "专业", "备注", "收藏"]].to_excel("./Gldjc_Pandas.txt/材料信息价列表.xlsx, index=False")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
技术专家团-Plio大咸鱼 2021-09-20 23:03
关注
没有指定打开方式
写为with open("./Gldjc_Pandas.txt","w+") as fin:即可

有帮助望采纳~

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python,如何将生成的excel文件保存到自己选择的文件夹 python 有问必答
2021-07-13 10:36

回答 4 已采纳你写代码的时候，把自己要存放的路径加在save()里面就可以了
练习用pandas获取网页表格数据并保存至excel中遇到问题 python 爬虫
2022-10-02 17:54

回答 1 已采纳这篇文章：Pandas如何读取保存Excel 也许能够解决你的问题，你可以看下
Pandas借助Python爬虫读取HTML网页表格存储到Excel文件（三十一）
2020-05-10 20:57

梦捷者的博客实现目标：网易有道词典可以用于英语...Python爬虫：可以将网页下载下来然后解析，使用requests库实现，需要绕过登录验证。 0、处理流程 import requests import requests.cookies import json import time import pa
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
爬取有结果，但是导出excel文件是空的 python 其他
2021-03-12 02:16

回答 2 已采纳直接答案：在函数 `news_ershoufang` 最后一行返回下数据 `return data_all`修改下excel的列名，一共两列 `df.columns = ['城市', '房屋户型'
为什么python找不到excel（入门问题） python
2022-05-20 06:44

回答 2 已采纳同意一楼，一个是路径的问题，要么把文件放到python运行空间路径下，可以直接写文件名字（相对路径）；要么就要写全文件的绝对路径。再一个，文件的名称和路径下尽量不要出现中文，要不然报错都没处找。
32. Pandas借助Python爬虫读取HTML网页表格存储到Excel文件
2021-01-19 21:48

hello rpa的博客 Pandas借助Python爬虫读取HTML网页表格存储到Excel文件实现目标：网易有道词典可以用于英语单词查询，可以将查询的单词加入到单词本; 当前没有导出全部单词列表的功能。为了复习方便，可以爬取所有的单词列表，...
json 爬取数据数据后，如何存为excel json python
2022-01-28 21:01

回答 1 已采纳 import json import pandas as pd import time import requests LT_ITEM=[] headers = { 'user-Agent
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
python+selenium+xpath如何定位网页table表格中的数据 python selenium 有问必答爬虫
2022-02-25 12:44

回答 2 已采纳使用last()定位最后一个tr节点，再用索引获取。示例： from lxml import etree with open('a.html','r',encoding='utf-8') as f:
请用python实现从网页获取表格数据结果保存在excel
2023-02-10 09:05

语嫣凝冰的博客首先，使用「pandas」库中的「read_html」函数读取网页的表格数据，然后使用「openpyxl」库的「save」方法将数据保存到 Excel 文件中。下面是一个示例代码： import pandas as pd from openpyxl import Workbook #...
爬虫之数据保存到csv，xlsx等Excel文件中
2022-07-23 11:45

<编程路上>的博客最后一部分继续保存，使用的是pandas中的。
python爬虫网页表格_python网页表格
2020-11-29 08:04

weixin_39608479的博客广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！以网页表格为例：... 今天介绍的黑科技是pandas自带爬虫功能，pd.read_html()，只需传人url，...
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创|编程1v1的博客你好，我是悦创。很多同学一听到 Python 或编程语言，...爬取文档，爬表格，爬学习资料；玩转图表，生成数据可视化；批量命名文件，实现自动化办公；批量搞图，加水印、调尺寸。接下来，我们就逐一用 Python 实
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月20日

悬赏问题

¥30 Matlab打开默认名称带有/的光谱数据
¥50 easyExcel模板动态单元格合并列
¥15 res.rows如何取值使用
¥15 在odoo17开发环境中，怎么实现库存管理系统，或独立模块设计与AGV小车对接？开发方面应如何设计和开发？请详细解释MES或WMS在与AGV小车对接时需完成的设计和开发
¥15 CSP算法实现EEG特征提取，哪一步错了？
¥15 游戏盾如何溯源服务器真实ip?需要30个字。后面的字是凑数的
¥15 vue3前端取消收藏的不会引用collectId
¥15 delphi7 HMAC_SHA256方式加密
¥15 关于#qt#的问题：我想实现qcustomplot完成坐标轴
¥15 下列c语言代码为何输出了多余的空格

Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新