请问怎么爬取多个页面的文档？十分感谢

利用bs4进行解析，就只能得到第一个页面的文本内容。

如下是我写的代码：

import requests
from bs4 import BeautifulSoup
url = "https://wenku.baidu.com/view/92996ded172ded630b1cb660.html"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.60"}

page_text = requests.get(url=url,headers = headers).text

soup = BeautifulSoup(page_text,"lxml")
list = soup.select("#reader-container")
print(list)
for p in list:
    text = p.text
    print(text)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
后端工匠之道 2020-12-18 14:36
关注
找出翻页连接拼接成url爬取吧？

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫，爬取瀑布流布局中的信息 python 有问必答
2022-01-20 20:40

回答 2 已采纳瀑布流一般是通过接口加载数据，直接请求接口获取数据就行了。只要是浏览器访问能加载出来的一般都可以获取到，只是难易程度不一样而已。比如有一些js生成的签名，如果js压缩过很难分析签名生成过程，可以考虑
使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 09:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
Python3实现爬取指定百度贴吧页面并保存页面数据生成本地文档的方法
2020-09-20 14:11

在本文中，我们将详细探讨如何使用Python3语言结合urllib模块来爬取指定的百度贴吧页面，并将爬取到的页面数据保存生成为本地文档的方法。首先，需要了解的是Python是一种广泛用于网络爬虫开发的编程语言，其简单...
Python 爬虫爬取页面pagetext不完整是静态页面 python 有问必答爬虫
2021-10-21 15:16

回答 1 已采纳该页面信息通过用户选择选项，js动态渲染加载数据的，比如在选项框中输入name,在XHR中就可以看到name的动态加载链接，对其进行请求可获取相关信息的json数据信息。
如何爬取pdf文档呢？ python 数据挖掘爬虫
2022-03-15 17:59

回答 1 已采纳神仙来了也不行
python爬取网页表格一行内存在多个文件 python 有问必答
2022-01-27 15:14

回答 3 已采纳直接请求数据接口获取数据接口，不需要用selenium采集，代码如下 import requests import time headers = { 'user-Agent':'Mozilla/5.
python爬取各类文档方法归类汇总
2020-09-20 16:54

随着互联网的发展，网页类型越来越多，除了基础的HTML文档之外，还出现了各种类型的文档格式，比如TXT纯文本文件、Word文档、Excel表格、PDF文件以及CSV文件等。在进行网络爬虫学习和开发时，掌握如何针对不同类型的...
Python：如何爬取到该数据？ python
2020-09-07 10:20

回答 2 已采纳首先 f12 抓包，看看 ajax 的 json 请求的实际地址是什么，然后用 r = requests.get(request_url) obj = r.json() print(obj.学
为什么我用pythen爬取百度显示汉字乱码？ python 有问必答
2021-07-01 20:13

回答 3 已采纳获取requests.get()请求数据之后要先用 res.encoding='utf-8' 设置内容的编码再取 res.text 内容 res=requests.get(f'http://www.x
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
Python多线程爬取豆瓣影评API接口
2020-09-18 13:09

在多线程爬虫中，可以通过创建线程池来并发执行多个任务，以提高爬取效率。 7. 数据存储：爬取的数据需要存储在合适的地方以便后续分析处理。常用的数据存储方式包括关系型数据库如使用SQLAlchemy操作的SQLite、...
请问这个python怎么做？ python
2021-09-22 11:27

回答 2 已采纳【参考代码】 # @author: By yangbocsu # @date: 2021/9/22 a,b,c,d,e,f = map(int,input().split(',')) delt
爬取页面数据的python实现案例.rar
2024-01-10 10:08

3. 跨平台性：Python可以在多个操作系统上运行，包括Windows、Linux、Mac等，使爬虫的开发和部署更加便捷。 4. 强大的数据处理能力：Python的数据处理和分析库（如Pandas、NumPy）支持高效的数据处理和分析，方便对...
python爬虫爬取百度百科页面.zip
2023-12-30 13:20

1. **分页爬取**：百度百科中的条目可能包含多个页面，需要识别分页链接并逐页爬取。 2. **动态加载**：部分页面内容可能通过JavaScript动态加载，此时需使用`Selenium`等工具模拟浏览器行为。 3. **反爬虫机制**：...
没有解决我的问题, 去提问

悬赏问题

¥15 skynet MySQL ProtocolBuffers
¥15 浏览器关闭事件有时没执行怎么回事
¥15 使用docker安装chemex后无法启动
¥15 关于#vue.js#的问题：word excel和ppt预览问题语言-javascript)
¥15 Apache显示系统错误3该如何解决？
¥30 uniapp小程序苹果手机加载gif图片不显示动效？
¥20 js怎么实现跨域问题
¥15 C++dll二次开发，C#调用
¥15 请教，如何使用C#加载本地摄像头进行逐帧推流
¥15 Python easyocr无法顺利执行，如何解决？

请问怎么爬取多个页面的文档？十分感谢

3条回答 默认 最新

悬赏问题

3条回答默认最新