Python 爬虫如何获取onclick（非url链接）之后网页？

Python 爬虫如何获取onclick里面内容，不需要用selenium 模拟点击，而是直接获得哦你click返回参数？具体比如说
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS

Tripadvisor 网站，crawl的时候我需要点击next 刷新界面
Next

但是这个next 执行之后url从
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or0

变成
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or05

就是从 xxx#or0 变成 xxx#or5

也就是说是只是改变了hashtag， scrapy 的request 是只能获取hashtag之前的url，无法区分第一页和第二页。

所以我就想知道，如何能crawl这个页面，并且继续crawl下一个界面。
非常感谢修改

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-03-27 10:15
关注
这个不模拟的话那么就要先分析点击事件分析实际的URL 然后再请求

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫如何自动获取Network中的某个XHR地址？ python 爬虫网络
2018-08-25 08:43

回答 4 已采纳楼主问的可能有点不清楚，我的理解是：https://zh.flightaware.com/live/airport/+{机场代号} 楼主有几千个机场代号，需要爬取这几千个URL的https://zh
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python爬虫获取下一页_Python爬虫怎么获取下一页的URL和网页内容？
2020-11-24 10:19

weixin_39815345的博客首页链接是长这样的：http://gdemba.gicp.net:82/interunit/ListMain.asp?FirstEnter=Yes&Style=0000100003&UID={A270A117-76A7-4059-AB8F-B11AC370240B}&TimeID=39116.81通过点击一个“后翻一页”的...
python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
python爬虫如何获取Properties的内容，并解析？ python 有问必答爬虫
2021-12-01 17:44

回答 3 已采纳如果value是用户输入的数据，题主爬不了的。如果js动态加载的，需要找到数据接口来爬，而不是直接爬html，除非用selenium，其他属性可以用bs4模块解析
python爬虫点击事件_Python爬虫爬取仅带有onclick属性的td标签内数据及获取onclick内容...
2020-11-29 13:03

weixin_39738115的博客问题描述我想爬取tr标签内的所有td标签的内容，以及获取onclick属性内的绝对路径问题出现的环境背景及自己尝试过哪些方法尝试直接忽略onclick爬取所有tr标签内的td标签的内容，测试成功尝试优先爬取onclick内容，...
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
爬虫如何在url中加入变量？ python 爬虫
2021-08-14 09:34

回答 4 已采纳 f 在字符串外面 a = input() url = f'https://movie.douban.com/top250?start={a}&filter=' 或者 a = 'abc' b = '
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
python爬取换页_python,网页爬虫_Python爬虫怎么获取下一页的URL和网页内容？，python,网页爬虫,html - phpStudy...
2020-11-24 08:58

weixin_39704971的博客 Python爬虫怎么获取下一页的URL和网页内容？用BeautifulSoup爬取了第一页的内容，但是不知道剩下的页面怎么爬。首页链接是长这样的：http://gdemba.gicp.net:82/interunit/ListMain.asp?...
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫如何从一个页面进入另一个页面-Python爬虫怎么获取下一页的URL和网页内容？...
2020-11-01 21:06

weixin_37988176的博客首页链接是长这样的：http://gdemba.gicp.net:82/interunit/ListMain.asp?FirstEnter=Yes&Style=0000100003&UID={A270A117-76A7-4059-AB8F-B11AC370240B}&TimeID=39116.81通过点击一个“后翻一页”的...
浅析Python3爬虫登录模拟
2020-12-23 17:24

使用Python爬虫登录系统之后，能够实现的操作就多了很多，下面大致介绍下如何使用Python模拟登录。我们都知道，在前端的加密验证，只要把将加密环境还原出来，便能够很轻易地登录。首先分析登录的步骤，通过审查...
没有解决我的问题, 去提问

悬赏问题

¥15 扩散模型sd.webui使用时报错“Nonetype”
¥15 stm32流水灯＋呼吸灯＋外部中断按键
¥15 将二维数组，按照假设的规定，如0/1/0 == "4"，把对应列位置写成一个字符并打印输出该字符
¥15 NX MCD仿真与博途通讯不了啥情况
¥15 win11家庭中文版安装docker遇到Hyper-V启用失败解决办法整理
¥15 gradio的web端页面格式不对的问题
¥15 求大家看看Nonce如何配置
¥15 Matlab怎么求解含参的二重积分？
¥15 苹果手机突然连不上wifi了？
¥15 cgictest.cgi文件无法访问