Python 爬虫如何获取onclick(非url链接)之后网页?

Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS

Tripadvisor 网站,crawl的时候我需要点击next 刷新界面
Next

但是这个next 执行之后url从
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or0

变成
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or05

就是 从 xxx#or0 变成 xxx#or5

也就是说是只是改变了hashtag, scrapy 的request 是只能获取hashtag之前的url,无法区分第一页和第二页。

所以我就想知道,如何能crawl这个页面,并且继续crawl下一个界面。
非常感谢修改

1个回答

这个不模拟的话 那么就要先分析点击事件分析实际的URL 然后再请求

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何获取网页的全部链接url
我在google上搜玩后,我想要把搜到的网页的url全部复制到文本中,怎么做?
如何获取网页中所有链接的URL?
//下边是我自己的一段代码, 但是不成功, 高手指点rnIHTMLElementCollection *pLinkElemCol ;rnpDoc2->get_links(&pLinkElemCol);rnVARAINT var rnrnlong linkNumber ;rnpLinkElemCol->get_length(&linkNumber) ;rnVARAINT var ;rnfor(long j = 0 ; j < linkNumber ; j ++ )rnrn var.vt = VT_I4 ;rn var.intVal = j ;rn IDispatch *pdsp ;rn pLinkElemCol->item( var , var , &pdsp );rn if( pdsp == NULL )rn IHTMLLinkElement *pLinkElem ;rn pdsp->QueryInterface(IID_IHTMLLinkElement , (void**)&pLinkElem ) ;rn //跟踪调试的时候发现下边这儿pLinkElem始终为NULL,rn if( pLinkElem == NULL ) rn continue ;rn CComBSTR bstrURL ;rn pLinkElem->get_href(&bstrURL);rn CString strURL(bstrURL) ;rn AfxMessageBox(strURL) ;rnrn//请高手指点下哪儿有错误
Python爬虫如何获取重定向后的url
在Python爬虫中会遇到url被重定向的情况,比如我点击https://www.test.com/uiehwuhuhgrehgureg.htm跳转到另一个页面,另一个页面的url会变成https://www.test.com/test.htm 使用下面代码可以获取到重定向后的url import requests def get_redirect_url(): ...
python爬虫(1)_获取网页
分析网站 识别对方使用技术-builtwith模块 pip install builtwith使用: >>> import builtwith >>> builtwith.parse("http://127.0.0.1:8000/examples/default/index") {u'javascript-frameworks': [u'jQuery'], u'font-scripts': [u'
python 爬虫获取网页图片
#抓取百度贴吧的图片    # 网址:http://tieba.baidu.com/p/4775824848 #注意:不同的网址它的图片的正则表达式是不同的,可以在其网页源码查找,根据图片位置 ##相关资料:点击打开链接 import urllib.request import re import os def fetch_pictures(url): html_con
Python 爬虫:获取网页图片
#coding=utf-8 import urllib import re import os weburl = "http://36kr.com/" #爬取网页 tardir = "F:\\0000\\kk" #保存路径
如何获取URL里的链接?
生活rn 旅游rn 电商rnrn请问下如何用java程序获得这些链接呢,要求输出方式为:rnhttp://life.sina.com.cn/,生活rnrn小弟初学者,还望各位大神不吝赐教
如何获取上一个链接的url???
如何获取上一个链接的url???rnfunction_number=Request.ServerVariables("SCRIPT_NAME")这个是获取本页面的url的.但不记得上级页面的变量名了.
python 爬虫 获取网页源码不完整 非动态加载
从浏览器查看网页源码和python中获取的网页源码竟然不同,应该不是动态加载的,python中获取的源码明显有残缺,难道被隐藏了?rn问题困扰了我很久,希望大神解答下,谢谢。rn网址:http://hr.tencent.com/position.php?&start=0#arnrn源码:rn[code=python]rnimport requestsrns = requests.Session()rnheaders = rnrnheaders['Accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'rnheaders['Accept-Encoding'] = 'gzip, deflate, sdch'rnheaders['Accept-Language'] = 'zh-CN,zh;q=0.8'rnheaders['Cache-Control'] = 'max-age=0'rnheaders['Connection'] = 'keep-alive'rnheaders['Upgrade-Insecure-Requests'] = '1'rnheaders['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'rnheaders['Host'] = 'hr.tencent.com'rns .headers = headersrnscont = s.get('http://hr.tencent.com/position.php?&start=0#a')rncont = scont.content.decode('utf-8')rnprint(cont)rnprint(scont.url)rnprint(scont.status_code)rn[/code]
python爬虫学习(循环爬取网页链接)
循环爬取网页链接 基本原理: 爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 基本过程图: 重点:从访问的页面中抽取新的url链接 可以用正则表达式匹配链接&lt;a href 标签 代码演示: # coding=utf-8 import requests import re def spid...
Python爬虫:利用urlparse获取“干净”的url
urlparse 类似处理操作系统路径的 os.path 模块,能够很好的处理网址路径 导入模块 python3 from urllib.parse import urlparse, urljoin python2 from urlparse import urlparse, urljoin 使用测试 url = &quot;https://cdn.itjuzi.com/images/51...
python爬虫获取跳转后的响应url
** 在爬虫中经常会遇到网页给的某个url是跳转前的url,这类请求url一般很长,假如数据库建表时字段限制,则会无法入库,从而导致拿不到数据,看了下网上其他教程,较为繁琐.我在这提供一种思路及代码片段供大家参考. 浏览器向请求url发送请求,如获取到正常的响应,则一般相应状态码时300~305,随后会重定向到另一url(响应url),想到这一点其实就很好解决了. 可打印出相应头内容,...
python爬虫:获取菜鸟网站上url
致敬菜鸟网站. 在上面自学了python, html, javascript等 import requests from bs4 import BeautifulSoup def main(): base_url = "http://www.runoob.com/" url = "http://www.runoob.com/python3/python3-string.htm...
怎么获取爬虫的URL
在写爬虫程序的时候,如果想知道的是百度搜索“CSDN”时的前两页的内容,应该先知道百度搜索“CSDN”时的页面,这个页面的URL怎么知道呢?rnrn此时的URL为“http://www.baidu.com/s?wd=csdn&rsv_bp=0&rsv_spt=3&inputT=849”rn这个可以人为的构造出来么?怎么构造呢?
Python爬虫获取电影链接(续)
上一篇文章中的两个网站都是用的是get方法,获取很简单并且没有任何防爬手段,后面我再尝试BT天堂,影视大全网发现更多的网站搜索页面是post请求并需要提交表单, 所以这里给之前的程序作出一些补充,使之可以爬虫需要post请求的网站。 首先提出一个使用fiddler的小技巧,断点查询,在这里点击Rules在其下拉列表中选择Automatic breakpoint之后选择After R
Python爬虫(4)——获取CSDN链接
代码如下所示:# -*- coding: utf-8 -*- """ Created on Sun Jun 4 20:26:06 2017@author: zch """ #爬取页面链接 import re import urllib.requestdef getlink(url): #模拟浏览器 headers = ("User-Agent","Mozilla/5.0 (Wind
一个获取产品链接的python爬虫
一个爬取产品的链接的小例子,十分简单的小例子。欢迎批评指正
爬虫之页面链接获取
大一的时候见到一个研一学姐用C#写了个网页链接的爬虫,觉得好高大上,最近又有朋友问我怎么写,于是无聊就用python(懒得打开VS)写了个简单的单级链接获取先给代码:from selenium import webdriver from selenium.webdriver.firefox.firefox_binary import FirefoxBinary## 网页链接获取 url = '你要趴
如何获取网页URL和源码
用户在浏览一个网页,当然可以是除了IE以外其他的浏览器rnrn我怎么能获得该网页的地址和网页源码呢??
如何获取网页中的URL?
谢谢!!
如何获取当前网页的URL?
如何获取当前网页的URL?
如何获取网页的URL??急
使用Request.Url.AbsoluteUri可以得到当前页面的urlrn比如我想指定获得某一网站的url 该怎么做啊?rn请各位大侠指点,望详细点,谢谢
python爬虫url管理器
python爬虫url管理器 使用sqlite数据库 url管理 已爬url 未爬url 支持自动识别已爬url 带缓冲池功能不会频繁读写数据库 支持超大数据量 写成一个类 可直接使用 完整注释 可自己改写
python爬虫url去重
1.url去重     从字面上理解,url去重即去除重复的url,在爬虫中就是去除已经爬取过的url,避免重复爬取,既影响爬虫效率,又产生冗余数据。 2.url去重策略     从表面上看,url去重策略就是消除url重复的方法,常见的url去重策略有五种,如下: 1# 1.将访问过的ur保存到数据库中 2# 2.将访问过的ur保存到set(集合)中,只需要o(1)的代价就可以查询ur...
【python 爬虫】python中url链接编码处理方法
一、问题描述 有些网址,会把中文编码成gb2312格式,例如百度知道,美容这一词,网址上面会编码成:%C3%C0%C8%DD那么如何生成这种编码呢?二、解决方法 1、把要编码的文字encode成所需格式 2、利用urllib 库的quote方法编码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8'
如何获取网页返回的链接
我发送一个字符串到对方的页面,然后对方会返回一个URL,我想获取这个URL.rnrn请问怎样做到?rnrn谢谢
如何获取网页的链接与文字?
如何获取网页的链接与文字?rnrn链接地址:http://tv.yunshitv.com/ad/test.php
Python 链接爬虫
import re import urllib.request def getlink(url):     headers = ('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64; rv:57.0) Gecko/20100101 Firefox/57.0')     opener = urllib.request.build_op
python链接爬虫案例
# -*-coding:utf8-*- import re import urllib.request import os def save(imageName,data):     data=urllib.request.urlopen(data).read()     name="E:/Scrapy_Project/jdImages/"+imageName     file=op
Python爬虫1-获取指定网页源码
1、任务简介 前段时间一直在学习Python基础知识,故未更新博客,近段时间学习了一些关于爬虫的知识,我会分为多篇博客对所学知识进行更新,今天分享的是获取指定网页源码的方法,只有将网页源码抓取下来才能从中提取我们需要的数据。 2、任务代码 Python获取指定网页源码的方法较为简单,我在Java中使用了38行代码才获取了网页源码(大概是学艺不精),而Python中只用了6行就达到了效果。 Pyt...
python爬虫获取源码与网页不同
使用requests和bs4库 n静态爬取页面[2017年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2017.html "") nSoup获得部分源码如图 n![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692129_124729.png) n对应网页源码如图 n![图片说明](https://img-ask.csdn.net/upload/201709/29/1506692155_28545.png) n可见,该tr中第一个;在Soup中变成了1 ,而末尾处也多了一个 n该问题发生在每一个tr中,但爬取[2016年数据](http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html "")并没有出现该问题。 n代码照抄教程,应该不存在问题nnn
python爬虫基础--获取并解析网页
python爬虫基础–获取并解析网页 python爬虫基础–获取并解析网页 引入相关的包 打开链接 读取网页中的html文档 BeautifulSoup对象常用的方法 BeautifulSoup对象 处理子标签 处理同级别标签 处理父标签 引入相关的包 urllib与bs4,是获取和解析网页最常用的库 from urllib.request import urlo...
Python爬虫第一步之获取网页源代码
“’ python #coding=utf-8 import urllibdef getHtml(url): page = urllib.urlopen(url) html = page.read() return htmlhtml = getHtml(“http://blog.sina.com.cn/“) “’ # coding=utf-8 PY文件当中是
Python初学,爬虫获取网页的新闻
#! /usr/bin/env python #coding=utf-8 #auto:An_Mei_Ying #date:2019/4/5 #python3.7 import io import sys import urllib import re import requests from urllib.request import urlopen chaper_url="https://z...
Android 如何获取url重定向之后的地址
最近在Android开发的时候遇到一个需求,就是给我一个url地址,让我拿到这个url重定向之后的地址,经过我查阅资料最后找到一个简单的方法拿到重定向之后的地址。 1.把给我们的地址扔到一个webView里面; 2.在webView里面有一个方法setWebViewClient(WebViewClient),WebViewClient有两个回调方法,可以得到url重定向之后的地址。 下面是代码
iframe如何获取redirect之后的url
我有一个主页面:rnhttp://www.aaa.com/1.htmlrnrn页面中有一个iframe,地址是:rnhttp://www.bbb.com/2.htmlrnrn当访问http://www.bbb.com/2.html的时候,会跳转到http://www.bbb.com/3.html。rnrn请问在http://www.aaa.com/1.html中,如何获取http://www.bbb.com/3.html这个url。rnrn条件:rnrnaaa.com是我的服务器,可以随意改代码,bbb是任何一个服务器,无法修改,所以有跨域的问题。rnrnrn
求助,如何得到网页链接中的url
写了个下载小程序,如何在下载时得到要下载文件的url(使用左击链接得到)?使url显示在编辑框内等等
爬虫获取网页源代码
话不多说,直接上代码 import urllib.request import re url = "**********" # 确定要爬取的入口链接 # 模拟成浏览器并爬取对应的网页 谷歌浏览器 headers = {'User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like G...
爬虫获取网页编码
爬虫如何获取所爬的网页的编码
python获取网页上所有链接
import urllib2 #获取源码的函数,urllib3更换 urllib.request.urlopen(url).read() return urllib2.urlopen(url).read() def get_next_target(page): #每次处理page中寻找链接的函数 start_link = page.find('<a href=
相关热词 c#入门推荐书 c# 解码海康数据流 c# xml的遍历循环 c# 取 查看源码没有的 c#解决高并发 委托 c#日期转化为字符串 c# 显示问号 c# 字典对象池 c#5.0 安装程序 c# 分页算法