weixin_46635193 2022-01-06 18:52 采纳率: 80%
浏览 70
已结题

Pycharn爬取网页报错

问题遇到的现象和发生背景Pycharn爬取网页报错
问题相关代码,请勿粘贴截图
import requests
import requests.cookies
import json
import time
import pandas as pd
cookie_jar=requests.cookies.RequestsCookieJar()
with open("cookies.txt")as fin:
    cookiejson=json.loads(fin.read())
    for cookie in cookiejson:
        cookie_jar.set(
            name=cookie["name"],
            value=cookie["value"],
            domain=cookie["domain"],
            path=cookie["path"]
        )
htmls=[]
url="https://dict.youdao.com/webwordbook/wordlist?p={idx}&tags="
for idx in range(2):
    time.sleep(1)
    print("**爬取数据:第%d页"%idx)
    r=requests.get(url.format(idx=idx),cookies=cookie_jar)
    htmls.append(r.text)
df_list=[]
for html in htmls:
    df=pd.read_html(html)
    df_cont=df[1]
    df_cont.columns=df[0].colums
    df_list.append(df_cont)

运行结果及报错内容
C:\Users\Administrator\Desktop\test\Scripts\python.exe C:/Users/Administrator/Desktop/test/yuyue.py
**爬取数据:第0页
**爬取数据:第1页
Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\test\yuyue.py", line 25, in <module>
    df=pd.read_html(html)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\util\_decorators.py", line 311, in wrapper
    return func(*args, **kwargs)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 1098, in read_html
    return _parse(
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 902, in _parse
    parser = _parser_dispatch(flav)
  File "C:\Users\Administrator\Desktop\test\lib\site-packages\pandas\io\html.py", line 851, in _parser_dispatch
    raise ImportError("html5lib not found, please install it")
ImportError: html5lib not found, please install it

进程已结束,退出代码1


我的解答思路和尝试过的方法:应该是第二十五行有问题,但具体不清楚是什么样的问题
我想要达到的结果:顺利爬取网页
  • 写回答

1条回答 默认 最新

  • cab_bage 2022-01-06 19:24
    关注

    报错都说了(ImportError: html5lib not found, please install it),所以你先试试终端输入pip install html5lib试试呗

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 1月18日
  • 已采纳回答 1月10日
  • 创建了问题 1月6日

悬赏问题

  • ¥15 爬取1-112页所有帖子的标题但是12页后要登录后才能 我使用selenium模拟登录 账号密码输入后 会报错 不知道怎么弄了
  • ¥30 关于用python写支付宝扫码付异步通知收不到的问题
  • ¥50 vue组件中无法正确接收并处理axios请求
  • ¥15 隐藏系统界面pdf的打印、下载按钮
  • ¥15 MATLAB联合adams仿真卡死如何解决(代码模型无问题)
  • ¥15 基于pso参数优化的LightGBM分类模型
  • ¥15 安装Paddleocr时报错无法解决
  • ¥15 python中transformers可以正常下载,但是没有办法使用pipeline
  • ¥50 分布式追踪trace异常问题
  • ¥15 人在外地出差,速帮一点点