python爬虫爬取百度文库

百度文库只能爬取到第一页，第二页的内容在Network中找不到

url：https://wenku.baidu.com/view/609b5c42daef5ef7bb0d3c3c.html

我用的python3

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent':'Googlebot'}
url = str(input('url:    '))

res = requests.get(url,headers=headers)
bea = BeautifulSoup(res.text,'html.parser')
bea = bea.find_all('div',id='pageNo-2')
print(bea)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-黄老师 2021-05-10 10:14
关注
Network中找不到试试在doc里面能不能找到

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python爬虫爬取百度文库 python 有问必答
2021-05-09 14:36

回答 4 已采纳 Network中找不到试试在doc里面能不能找到
python怎么爬取百度百科上canvas标签的图片 python
2018-12-03 07:20

回答 3 已采纳也就是爬取动态图片吧 # coding = utf-8 import urllib.request import re import requests def getDatas(
关于Python爬虫爬百度文库的url python 爬虫
2021-08-09 16:26

回答 1 已采纳可以在浏览器开发者工具里面ctrl+f搜索文章的关键词找到该请求。
python爬虫爬取百度文库（带图形化界面）
2023-02-08 17:14

爬取百度文库的爬虫，带图形化交互界面
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
selenium爬虫遇到VIP页面以及爬取次数限制时该怎么办 python selenium 爬虫
2021-10-24 12:56

回答 1 已采纳遇到VIP页面，我想你应该需要一个VIP会员，并以登入破解。限制爬取次数上，可以用proxy轮转或尽量拉长sleep时间或多办几个账号以上浅见
python爬虫爬取百度文档
2023-12-07 19:36

Z.xh的博客打开爬取到的图片内容为想要的文档，后续可通过图片转...1.获取文档内容，百度文库的文档大多是图片形式。这里面就有所需的所有图片内容。浏览器中搜索找到图片的来源。2.导入数据模块请求数据。3.将图片文件爬取下来。
Python爬虫怎么同时搜两种标签 python selenium
2021-10-18 16:15

回答 1 已采纳用CSS选择器，符合“,”代表或者，可以选中两种class的元素。连接内容，join列表就可以了
Python爬虫所遇到的问题 python
2021-10-02 20:39

回答 1 已采纳巧了我也没有遇到你出现的那两个XHR；红色代表请求失败，404一般是链接所指的网页不存在。
请问写python爬虫如何用urllib或者requests模拟用户登录 python 爬虫
2015-11-30 11:19

回答 1 已采纳可以参考下，过程都关不多，就是你要先用fiddler查看你的模拟登录的网站的请求报头是什么格式的。然后再用python自己来构造请求报头 http://blog.csdn.net/evankak
python爬虫百度文库源码_Python爬取百度文库学习
2020-11-20 22:16

weixin_39616379的博客新版百度文库爬虫 · Jack-Cherish/python-spider@3c5480dgithub.com首先，我想自动化打开百度文库的页面（其实这一步，并不需要，经实践得知）。不过，我觉得这一步算是初级的对selenium理解，希望对大家有所帮助...
爬虫报错，刷新过于频繁。不知如何解决。 python selenium
2021-10-23 09:38

回答 1 已采纳错误的信息大概意思是：你要点击的元素没有被挂载在dom树中(页面上)大概看了一下你的代码：首先这个问题是因为你在切换窗口后，没有切换回到起始的窗口。elements = driver.find_ele
Python爬虫——爬取百度文库文章
2020-02-11 23:52

六神几个的博客爬取-百度文库中的文章爬取大多数百度文库的文章或图片数据
python爬虫爬取百度文库_整理的用Python编写的爬虫文档
2020-11-24 06:32

weixin_39676972的博客 1Python爬虫入门教程[Python]网络爬虫（一）：网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月21日

悬赏问题

¥15 AIC3204的示例代码有吗，想用AIC3204测量血氧，找不到相关的代码。
¥20 CST怎么把天线放在座椅环境中并仿真
¥15 任务A：大数据平台搭建（容器环境）怎么做呢？
¥15 YOLOv8obb获取边框坐标时报错AttributeError: 'NoneType' object has no attribute 'xywhr'
¥15 r语言神经网络自变量重要性分析
¥15 基于双目测规则物体尺寸
¥15 wegame打不开英雄联盟
¥15 公司的电脑，win10系统自带远程协助，访问家里个人电脑，提示出现内部错误，各种常规的设置都已经尝试，感觉公司对此功能进行了限制（我们是集团公司）
¥15 救！ENVI5.6深度学习初始化模型报错怎么办？
¥30 eclipse开启服务后，网页无法打开

python爬虫 爬取百度文库

4条回答 默认 最新

问题事件

悬赏问题

python爬虫爬取百度文库

4条回答默认最新