Pycharn爬取网页报错

问题遇到的现象和发生背景Pycharn爬取网页报错

问题相关代码，请勿粘贴截图

import requests
import requests.cookies
import json
import time
import pandas as pd
cookie_jar=requests.cookies.RequestsCookieJar()
with open("cookies.txt")as fin:
    cookiejson=json.loads(fin.read())
    for cookie in cookiejson:
        cookie_jar.set(
            name=cookie["name"],
            value=cookie["value"],
            domain=cookie["domain"],
            path=cookie["path"]
        )
htmls=[]
url="https://dict.youdao.com/webwordbook/wordlist?p={idx}&tags="
for idx in range(2):
    time.sleep(1)
    print("**爬取数据：第%d页"%idx)
    r=requests.get(url.format(idx=idx),cookies=cookie_jar)
    htmls.append(r.text)
df_list=[]
for html in htmls:
    df=pd.read_html(html)
    df_cont=df[1]
    df_cont.columns=df[0].colums
    df_list.append(df_cont)

运行结果及报错内容

C:\Users\Administrator\Desktop\test\Scripts\python.exe C:/Users/Administrator/Desktop/test/yuyue.py
**爬取数据：第0页
**爬取数据：第1页
Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\test\yuyue.py", line 25, in <module>
    df=pd.read_html(html)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\util\_decorators.py", line 311, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 1098, in read_html
    return _parse(
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 902, in _parse
    parser = _parser_dispatch(flav)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 851, in _parser_dispatch
    raise ImportError("html5lib not found, please install it")
ImportError: html5lib not found, please install it

进程已结束,退出代码1

我的解答思路和尝试过的方法：应该是第二十五行有问题，但具体不清楚是什么样的问题

我想要达到的结果：顺利爬取网页

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
cab_bage 2022-01-06 19:24
关注
报错都说了（ImportError: html5lib not found, please install it），所以你先试试终端输入pip install html5lib试试呗

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢？答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，...
使用pycharm爬取网页数据时,遇到的问题小结
2020-06-23 18:56

weixin_44431188的博客使用pycharm爬取网页数据时,遇到的问题小结： 1.跟着爬虫教程爬取网页信息时，运行之后控制台显示中文时乱码英文部分显示正常，中文部分乱码：方法：修改编码方式，将Global encoding/project encoding以及下方的...
一、Python爬取网页静态数据
2025-06-27 22:48

Crystal_JJL的博客 Step1 下载Pycharm （此步骤省略） Step2 安装requests库打开terminal，输入pip install requests进行安装。 *安装时出现了版本过旧的问题，使用了pip install --upgrade requests命令进行版本更新。 requests库是...
Pycharm浏览器打开报错解决
2022-09-05 18:01

一件迷途小书童的博客在爬虫的过程中无法用pycharm打开爬取到的网页数据，报错如图所示 “windows找不到文件‘chrome’” 出现原因：pycharm中未设置chrome的路径，致使无法启动解决办法：在Pycharm中添加浏览器的路径（以谷歌浏览器...
python中简单爬取网页代码
2021-08-31 22:10

品尚公益团队的博客简单网页制作： <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>我要自学网</title> </head> <body> <h1一级标题1>这是一级...
pip,PyCharm安装tesserocr报错解决办法
2022-03-03 21:39

亖夕的博客在爬取时可能会遇到验证码验证，可以使用...都会出现报错，报错内容很多，有python setup.py egg_info did not run successfully. note: This error originates from a subprocess, and is likely not a problem
Python使用Requests库爬取网页数据
2022-05-08 15:50

硬件猴的博客 requests属于第三方模块，python里面没有自带requests库，所以呢第一步我们先要安装。 pip install requests 先找到终端然后再输入第二步：导包使用requests前出了安装完了，你好要导包啊，不导包怎么使用它...
python 3 爬虫小白PyCharm爬取简单网页信息控制台错误
2018-03-21 17:27

kyrie_love的博客 E:\JetBrains\PyCharm\Neihanduanzi\duanzi_spider\venv\Scripts\python.exe E:/JetBrains/PyCharm/Neihanduanzi/duanzi_spider/budejie_spider.py Traceback (most recent call last): File "E:/JetBrains/...
python爬取网页时，编码出错问题
2022-04-06 22:38

小王不叫小王叭的博客在使用python进行爬取问题时，容易出现编码错误的情况，如： UnicodeEncodeError: ‘gbk’ codec can’t encode character ‘\xb9’ in position 61513: illegal multibyte sequence 程序代码: headers = { "User-...
python抓取网页数据没有文件输出什么原因_爬虫小白练习用python爬取网站数据，pycharm没有报错也没有输出...
2020-11-29 12:58

weixin_39605706的博客 [Python] 纯文本查看复制代码from lxml import etreeimport requestsimport csvimport timeheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0....
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月6日

Pycharn爬取网页报错

问题遇到的现象和发生背景Pycharn爬取网页报错

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法：应该是第二十五行有问题，但具体不清楚是什么样的问题

我想要达到的结果：顺利爬取网页

1条回答 默认 最新

问题事件

1条回答默认最新