Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。

想利用Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件，在运行过程中最后结果报错，如下图

程序如下

import requests
import requests.cookies
import json
import time
import pandas as pd

cookie_jar = requests.cookies.RequestsCookieJar

with open("./Gldjc_Pandas.txt") as fin:
    cookiejson = json.loads(fin.read())
    for cookie in cookiejson:
        cookie_jar.set(
            name=cookie["name"],
            value=cookie["value"],
            domain=cookie["domain"],
            path=cookie["path"]
        )

cookie_jar

htmls = []
url = "http://info.gldjc.com/info_price/a_l_p_cd_cl_m_k_pn1_so.html"
for idx in range(72):
    time.sleep(1)
    print("**爬数据: 第%d页" % idx)
    r = requests.get(url.format(idx=idx), cookies=cookie_jar)
    htmls.append(r.text)

htmls[0]

# 收集72个网页的表格
df_list = []
for html in htmls:
    df = pd.read_html(html)
    df_cont = df[1]
    df_cont.columns = df[0].columns
    df_list.append(df_cont)

# 合并多个表格
df_all = pd.contact(df_list)
df_all.head(4)
df_all.shape

# 4.Pandas将数据存储到Excel(pd.to_excel)
df_all[["序号", "材料名称", "规格型号", "单位", "除税价", "含税价", "历史价", "税率", "专业", "备注", "收藏"]].to_excel("./Gldjc_Pandas.txt/材料信息价列表.xlsx, index=False")

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
技术专家团-Plio大咸鱼 2021-09-20 23:03
关注
没有指定打开方式
写为with open("./Gldjc_Pandas.txt","w+") as fin:即可

有帮助望采纳~

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。 python 有问必答
2021-09-20 23:00

回答 2 已采纳没有指定打开方式写为with open("./Gldjc_Pandas.txt","w+") as fin:即可有帮助望采纳~
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python,如何将生成的excel文件保存到自己选择的文件夹 python 有问必答
2021-07-13 10:36

回答 4 已采纳你写代码的时候，把自己要存放的路径加在save()里面就可以了
32. Pandas借助Python爬虫读取HTML网页表格存储到Excel文件
2021-01-19 21:48

hello rpa的博客 Pandas借助Python爬虫读取HTML网页表格存储到Excel文件实现目标：网易有道词典可以用于英语单词查询，可以将查询的单词加入到单词本; 当前没有导出全部单词列表的功能。为了复习方便，可以爬取所有的单词列表，...
练习用pandas获取网页表格数据并保存至excel中遇到问题 python 爬虫
2022-10-02 17:54

回答 1 已采纳这篇文章：Pandas如何读取保存Excel 也许能够解决你的问题，你可以看下
python爬虫翻页爬取的数据是第一页的重复数据 python 爬虫问答团队
2021-12-18 19:23

回答 1 已采纳爬下一页就好了
爬取有结果，但是导出excel文件是空的 python 其他
2021-03-12 02:16

回答 2 已采纳直接答案：在函数 `news_ershoufang` 最后一行返回下数据 `return data_all`修改下excel的列名，一共两列 `df.columns = ['城市', '房屋户型'
Pandas借助Python爬虫读取HTML网页表格存储到Excel文件（三十一）
2020-05-10 20:57

梦捷者的博客实现目标：网易有道词典可以用于英语...Python爬虫：可以将网页下载下来然后解析，使用requests库实现，需要绕过登录验证。 0、处理流程 import requests import requests.cookies import json import time import pa
为什么python找不到excel（入门问题） python
2022-05-20 06:44

回答 2 已采纳同意一楼，一个是路径的问题，要么把文件放到python运行空间路径下，可以直接写文件名字（相对路径）；要么就要写全文件的绝对路径。再一个，文件的名称和路径下尽量不要出现中文，要不然报错都没处找。
json 爬取数据数据后，如何存为excel json python
2022-01-28 21:01

回答 1 已采纳 import json import pandas as pd import time import requests LT_ITEM=[] headers = { 'user-Agent
python爬虫代码运行不报错，但是保存到CSV的数据为空，是哪里出了问题 python
2022-08-09 16:38

回答 8 已采纳 respone.text获取的json数据格式有问题,用 json.loads(respone.text)解析出错另外写csv文件的代码要放到for循环外面,所有数据获取之后再一起写入 cit
请用python实现从网页获取表格数据结果保存在excel
2023-02-10 09:05

语嫣凝冰的博客首先，使用「pandas」库中的「read_html」函数读取网页的表格数据，然后使用「openpyxl」库的「save」方法将数据保存到 Excel 文件中。下面是一个示例代码： import pandas as pd from openpyxl import Workbook #...
python爬取数据存入excel中的问题 python 数据分析爬虫
2021-08-18 15:01

回答 2 已采纳不清楚你爬取的网页结构是什么？看你代码及执行结果猜测：第一页中只有一个《ul》,你取了它之下所有的《a》和《span》的内容，然后用“，”将它们连接成一个字符串，结果就是一个《ul》下的内容存为
爬虫之数据保存到csv，xlsx等Excel文件中
2022-07-23 11:45

<编程路上>的博客最后一部分继续保存，使用的是pandas中的。
python爬虫网页表格_python网页表格
2020-11-29 08:04

weixin_39608479的博客广告关闭腾讯云11.11云上盛惠，精选热门产品助力上云，云服务器首年88元起，买的越多返的越多，最高返5000元！以网页表格为例：... 今天介绍的黑科技是pandas自带爬虫功能，pd.read_html()，只需传人url，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月20日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新