weixin_46635193 2022-01-06 18:52 采纳率: 80%
浏览 70
已结题

Pycharn爬取网页报错

问题遇到的现象和发生背景Pycharn爬取网页报错
问题相关代码,请勿粘贴截图
import requests
import requests.cookies
import json
import time
import pandas as pd
cookie_jar=requests.cookies.RequestsCookieJar()
with open("cookies.txt")as fin:
    cookiejson=json.loads(fin.read())
    for cookie in cookiejson:
        cookie_jar.set(
            name=cookie["name"],
            value=cookie["value"],
            domain=cookie["domain"],
            path=cookie["path"]
        )
htmls=[]
url="https://dict.youdao.com/webwordbook/wordlist?p={idx}&tags="
for idx in range(2):
    time.sleep(1)
    print("**爬取数据:第%d页"%idx)
    r=requests.get(url.format(idx=idx),cookies=cookie_jar)
    htmls.append(r.text)
df_list=[]
for html in htmls:
    df=pd.read_html(html)
    df_cont=df[1]
    df_cont.columns=df[0].colums
    df_list.append(df_cont)

运行结果及报错内容
C:\Users\Administrator\Desktop\test\Scripts\python.exe C:/Users/Administrator/Desktop/test/yuyue.py
**爬取数据:第0页
**爬取数据:第1页
Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\test\yuyue.py", line 25, in <module>
    df=pd.read_html(html)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\util\_decorators.py", line 311, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 1098, in read_html
    return _parse(
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 902, in _parse
    parser = _parser_dispatch(flav)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 851, in _parser_dispatch
    raise ImportError("html5lib not found, please install it")
ImportError: html5lib not found, please install it

进程已结束,退出代码1


我的解答思路和尝试过的方法:应该是第二十五行有问题,但具体不清楚是什么样的问题
我想要达到的结果:顺利爬取网页
  • 写回答

1条回答 默认 最新

  • cab_bage 2022-01-06 19:24
    关注

    报错都说了(ImportError: html5lib not found, please install it),所以你先试试终端输入pip install html5lib试试呗

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月18日
  • 已采纳回答 1月10日
  • 创建了问题 1月6日

悬赏问题

  • ¥15 速帮,学校需要在外上班没空
  • ¥15 人在外地出差,速帮一点点
  • ¥15 如何使用canvas在图片上进行如下的标注,以下代码不起作用,如何修改
  • ¥15 Windows 系统cmd后提示“加载用户设置时遇到错误”
  • ¥50 vue router 动态路由问题
  • ¥15 关于#.net#的问题:End Function
  • ¥15 无法import pycausal
  • ¥15 VS2022创建MVC framework提示:预安装的程序包具有对缺少的注册表值的引用
  • ¥15 weditor无法连接模拟器Local server not started, start with?
  • ¥20 6-3 String类定义