Python 爬虫如何获取onclick（非url链接）之后网页？

Python 爬虫如何获取onclick里面内容，不需要用selenium 模拟点击，而是直接获得哦你click返回参数？具体比如说
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS

Tripadvisor 网站，crawl的时候我需要点击next 刷新界面
Next

但是这个next 执行之后url从
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or0

变成
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or05

就是从 xxx#or0 变成 xxx#or5

也就是说是只是改变了hashtag， scrapy 的request 是只能获取hashtag之前的url，无法区分第一页和第二页。

所以我就想知道，如何能crawl这个页面，并且继续crawl下一个界面。
非常感谢修改

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-03-27 10:15
关注
这个不模拟的话那么就要先分析点击事件分析实际的URL 然后再请求

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫如何自动获取Network中的某个XHR地址？ python 爬虫网络
2018-08-25 08:43

回答 4 已采纳楼主问的可能有点不清楚，我的理解是：https://zh.flightaware.com/live/airport/+{机场代号} 楼主有几千个机场代号，需要爬取这几千个URL的https://zh
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
python爬虫获取下一页_Python爬虫怎么获取下一页的URL和网页内容？
2020-11-24 10:19

weixin_39815345的博客首页链接是长这样的：http://gdemba.gicp.net:82/interunit/ListMain.asp?FirstEnter=Yes&Style=0000100003&UID={A270A117-76A7-4059-AB8F-B11AC370240B}&TimeID=39116.81通过点击一个“后翻一页”的...
python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
python爬虫网页标签个别无法读取 python 开发语言有问必答爬虫
2022-04-05 22:09

回答 3 已采纳因为个别标签字典中没有bond_nm和bond_nm_tip键 data2 = data_get['bond_nm'] data5 = data_get['bond_nm_tip']
python爬虫如何获取Properties的内容，并解析？ python 有问必答爬虫
2021-12-01 17:44

回答 3 已采纳如果value是用户输入的数据，题主爬不了的。如果js动态加载的，需要找到数据接口来爬，而不是直接爬html，除非用selenium，其他属性可以用bs4模块解析
python爬虫下一页_Python爬虫怎么获取下一页的URL和网页内容？
2020-11-28 07:23

weixin_39634438的博客首页链接是长这样的：http://gdemba.gicp.net:82/interunit/ListMain.asp?FirstEnter=Yes&Style=0000100003&UID={A270A117-76A7-4059-AB8F-B11AC370240B}&TimeID=39116.81通过点击一个“后翻一页”的...
python爬虫返回的html文件打开网页是空的 python
2022-06-15 23:07

回答 1 已采纳很正常，一个网页能运行，不但需要html文件，还需要css和js文件在背后支撑。（前端和后端）你只是爬下来了一个html文件，自然什么都不会展示出来。你仔细想想，如果这么轻易的就能被你爬到百度的htm
爬虫如何在url中加入变量？ python 爬虫
2021-08-14 09:34

回答 4 已采纳 f 在字符串外面 a = input() url = f'https://movie.douban.com/top250?start={a}&filter=' 或者 a = 'abc' b = '
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
爬虫python怎么下载_Python爬虫怎么获取下一页的URL和网页内容？
2020-11-23 12:13

weixin_39806065的博客首页链接是长这样的：http://gdemba.gicp.net:82/interunit/ListMain.asp?FirstEnter=Yes&Style=0000100003&UID={A270A117-76A7-4059-AB8F-B11AC370240B}&TimeID=39116.81通过点击一个“后翻一页”的...
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
python爬虫点击事件_Python爬虫爬取仅带有onclick属性的td标签内数据及获取onclick内容...
2020-11-29 13:03

weixin_39738115的博客问题描述我想爬取tr标签内的所有td标签的内容，以及获取onclick属性内的绝对路径问题出现的环境背景及自己尝试过哪些方法尝试直接忽略onclick爬取所有tr标签内的td标签的内容，测试成功尝试优先爬取onclick内容，...
python爬虫获取下一页_外行学 Python 爬虫第六篇动态翻页
2020-11-25 14:25

weixin_39559523的博客前面的实现过程通过解析网页中的连接来获取元件详细信息页面，解析出相关的数据。在实际页面中发现有很多的分页现象，通过前面的方式仅能获取第一页的内容，无法获取第二页的内容，这就造成无法爬取所有的页面，最终...
没有解决我的问题, 去提问

悬赏问题

¥15 使用C#，asp.net读取Excel文件并保存到Oracle数据库
¥15 C# datagridview 单元格显示进度及值
¥15 thinkphp6配合social login单点登录问题
¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配

Python 爬虫如何获取onclick（非url链接）之后网页？

1条回答 默认 最新

悬赏问题

1条回答默认最新