python爬虫爬取百度文库

百度文库只能爬取到第一页，第二页的内容在Network中找不到

url：https://wenku.baidu.com/view/609b5c42daef5ef7bb0d3c3c.html

我用的python3

import requests
from bs4 import BeautifulSoup

headers = {'User-Agent':'Googlebot'}
url = str(input('url:    '))

res = requests.get(url,headers=headers)
bea = BeautifulSoup(res.text,'html.parser')
bea = bea.find_all('div',id='pageNo-2')
print(bea)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-黄老师 2021-05-10 10:14
关注
Network中找不到试试在doc里面能不能找到

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(3条)

报告相同问题？

关注问题

python爬虫爬取百度文库 python 有问必答
2021-05-09 14:36

回答 4 已采纳 Network中找不到试试在doc里面能不能找到
python怎么爬取百度百科上canvas标签的图片 python
2018-12-03 07:20

回答 3 已采纳也就是爬取动态图片吧 # coding = utf-8 import urllib.request import re import requests def getDatas(
关于Python爬虫爬百度文库的url python 爬虫
2021-08-09 16:26

回答 1 已采纳可以在浏览器开发者工具里面ctrl+f搜索文章的关键词找到该请求。
python爬虫爬取百度文库（带图形化界面）
2023-02-08 17:14

Python爬虫爬取百度文库是一项常见的数据抓取任务，特别是在知识分享和研究领域。本文将详细介绍如何使用Python编写一个带有图形用户界面（GUI）的爬虫，以便更直观、方便地进行操作。首先，我们需要了解Python...
Python selenium的爬虫无法完整爬取整个页面的内容 python selenium 爬虫
2021-10-24 09:44

回答 1 已采纳爬取内容不完整，应该是文档的更多内容，要往下滑动页面才会出现这个不太清楚，应该不是什么反爬，就是类似于中途给你弹出个广告，要具体分析怎么弄VIP内容肯定是需要你的账号是VIP才能看得到的，与selen
selenium爬虫遇到VIP页面以及爬取次数限制时该怎么办 python selenium 爬虫
2021-10-24 12:56

回答 1 已采纳遇到VIP页面，我想你应该需要一个VIP会员，并以登入破解。限制爬取次数上，可以用proxy轮转或尽量拉长sleep时间或多办几个账号以上浅见
python爬虫爬取百度文档
2024-04-13 00:40

2401_84003941的博客 )}', response) # 获取每页的标签 doc_url = “https://wkretype.bdimg.com/retype/merge/” + url[29:-5] # 网页的前缀 n = 0 for i in range(len(result_page)): # 最大同时一次爬取10页 if i % 10 is 0: doc_...
Python爬虫怎么同时搜两种标签 python selenium
2021-10-18 16:15

回答 1 已采纳用CSS选择器，符合“,”代表或者，可以选中两种class的元素。连接内容，join列表就可以了
Python爬虫所遇到的问题 python
2021-10-02 20:39

回答 1 已采纳巧了我也没有遇到你出现的那两个XHR；红色代表请求失败，404一般是链接所指的网页不存在。
请问写python爬虫如何用urllib或者requests模拟用户登录 python 爬虫
2015-11-30 11:19

回答 1 已采纳可以参考下，过程都关不多，就是你要先用fiddler查看你的模拟登录的网站的请求报头是什么格式的。然后再用python自己来构造请求报头 http://blog.csdn.net/evankak
python爬虫爬取百度文档(1)
2024-04-08 08:26

2401_84003523的博客比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**for i in range(len(result_page)): # 最大同时一次爬取10页。)”,', ...
爬虫报错，刷新过于频繁。不知如何解决。 python selenium
2021-10-23 09:38

回答 1 已采纳错误的信息大概意思是：你要点击的元素没有被挂载在dom树中(页面上)大概看了一下你的代码：首先这个问题是因为你在切换窗口后，没有切换回到起始的窗口。elements = driver.find_ele
python爬虫爬取离线文档库
2024-01-18 10:52

爬虫用的是Python3 Scrapy，本文档库会爬取一些主流语言或是框架或是库的API文档，当然如果官网已提供离线文档包，就会直接采用官网的文档包，否则就用爬虫爬。本文档库包括爬虫的源代码与离线文档包，
python爬虫百度文库源码_Python爬取百度文库学习
2020-11-20 22:16

weixin_39616379的博客新版百度文库爬虫 · Jack-Cherish/python-spider@3c5480dgithub.com首先，我想自动化打开百度文库的页面（其实这一步，并不需要，经实践得知）。不过，我觉得这一步算是初级的对selenium理解，希望对大家有所帮助...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月21日

悬赏问题

¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）
¥15 Windows11, backspace, enter, space键失灵

python爬虫 爬取百度文库

4条回答 默认 最新

问题事件

悬赏问题

python爬虫爬取百度文库

4条回答默认最新