xxiao_jie 2020-12-18 14:27 采纳率: 0%
浏览 18

请问怎么爬取多个页面的文档?十分感谢

利用bs4进行解析,就只能得到第一个页面的文本内容。

如下是我写的代码:

import requests
from bs4 import BeautifulSoup
url = "https://wenku.baidu.com/view/92996ded172ded630b1cb660.html"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.60"}

page_text = requests.get(url=url,headers = headers).text

soup = BeautifulSoup(page_text,"lxml")
list = soup.select("#reader-container")
print(list)
for p in list:
    text = p.text
    print(text)
  • 写回答

3条回答 默认 最新

  • 后端工匠之道 2020-12-18 14:36
    关注

    找出翻页连接拼接成url爬取吧?

    评论

报告相同问题?

悬赏问题

  • ¥15 skynet MySQL ProtocolBuffers
  • ¥15 浏览器关闭事件有时没执行怎么回事
  • ¥15 使用docker安装chemex后无法启动
  • ¥15 关于#vue.js#的问题:word excel和ppt预览问题语言-javascript)
  • ¥15 Apache显示系统错误3该如何解决?
  • ¥30 uniapp小程序苹果手机加载gif图片不显示动效?
  • ¥20 js怎么实现跨域问题
  • ¥15 C++dll二次开发,C#调用
  • ¥15 请教,如何使用C#加载本地摄像头进行逐帧推流
  • ¥15 Python easyocr无法顺利执行,如何解决?