2 lostvalor LOSTVALOR 于 2016.03.27 11:25 提问

Python 爬虫如何获取onclick(非url链接)之后网页?

Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS

Tripadvisor 网站,crawl的时候我需要点击next 刷新界面
Next

但是这个next 执行之后url从
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or0

变成
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or05

就是 从 xxx#or0 变成 xxx#or5

也就是说是只是改变了hashtag, scrapy 的request 是只能获取hashtag之前的url,无法区分第一页和第二页。

所以我就想知道,如何能crawl这个页面,并且继续crawl下一个界面。
非常感谢修改

2个回答

oyljerry
oyljerry   Ds   Rxr 2016.03.27 18:15

这个不模拟的话 那么就要先分析点击事件分析实际的URL 然后再请求

qq_25970551
qq_25970551   2016.05.26 11:19
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!