weixin_46635193 2022-01-06 18:52 采纳率: 80%
浏览 71
已结题

Pycharn爬取网页报错

问题遇到的现象和发生背景Pycharn爬取网页报错
问题相关代码,请勿粘贴截图
import requests
import requests.cookies
import json
import time
import pandas as pd
cookie_jar=requests.cookies.RequestsCookieJar()
with open("cookies.txt")as fin:
    cookiejson=json.loads(fin.read())
    for cookie in cookiejson:
        cookie_jar.set(
            name=cookie["name"],
            value=cookie["value"],
            domain=cookie["domain"],
            path=cookie["path"]
        )
htmls=[]
url="https://dict.youdao.com/webwordbook/wordlist?p={idx}&tags="
for idx in range(2):
    time.sleep(1)
    print("**爬取数据:第%d页"%idx)
    r=requests.get(url.format(idx=idx),cookies=cookie_jar)
    htmls.append(r.text)
df_list=[]
for html in htmls:
    df=pd.read_html(html)
    df_cont=df[1]
    df_cont.columns=df[0].colums
    df_list.append(df_cont)

运行结果及报错内容
C:\Users\Administrator\Desktop\test\Scripts\python.exe C:/Users/Administrator/Desktop/test/yuyue.py
**爬取数据:第0页
**爬取数据:第1页
Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\test\yuyue.py", line 25, in <module>
    df=pd.read_html(html)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\util\_decorators.py", line 311, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 1098, in read_html
    return _parse(
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 902, in _parse
    parser = _parser_dispatch(flav)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 851, in _parser_dispatch
    raise ImportError("html5lib not found, please install it")
ImportError: html5lib not found, please install it

进程已结束,退出代码1


我的解答思路和尝试过的方法:应该是第二十五行有问题,但具体不清楚是什么样的问题
我想要达到的结果:顺利爬取网页
  • 写回答

1条回答 默认 最新

  • cab_bage 2022-01-06 19:24
    关注

    报错都说了(ImportError: html5lib not found, please install it),所以你先试试终端输入pip install html5lib试试呗

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月18日
  • 已采纳回答 1月10日
  • 创建了问题 1月6日

悬赏问题

  • ¥15 想用@vueuse 把项目动态改成深色主题,localStorge里面的vueuse-color-scheme一开始就给我改成了dark,不知道什么原因(相关搜索:背景颜色)
  • ¥20 OPENVPN连接问题
  • ¥15 flask实现搜索框访问数据库
  • ¥15 mrk3399刷完安卓11后投屏调试只能显示一个设备
  • ¥100 如何用js写一个游戏云存档
  • ¥15 ansys fluent计算闪退
  • ¥15 有关wireshark抓包的问题
  • ¥15 需要写计算过程,不要写代码,求解答,数据都在图上
  • ¥15 向数据表用newid方式插入GUID问题
  • ¥15 multisim电路设计