Python 爬虫如何获取onclick(非url链接)之后网页?

Python 爬虫如何获取onclick里面内容,不需要用selenium 模拟点击,而是直接获得哦你click返回参数?具体比如说
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#REVIEWS

Tripadvisor 网站,crawl的时候我需要点击next 刷新界面
Next

但是这个next 执行之后url从
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or0

变成
https://www.tripadvisor.com/ShowUserReviews-g57592-d416577-r357988112-The_Ivy_Inn_Restaurant-Charlottesville_Virginia.html#or05

就是 从 xxx#or0 变成 xxx#or5

也就是说是只是改变了hashtag, scrapy 的request 是只能获取hashtag之前的url,无法区分第一页和第二页。

所以我就想知道,如何能crawl这个页面,并且继续crawl下一个界面。
非常感谢修改

0

1个回答

这个不模拟的话 那么就要先分析点击事件分析实际的URL 然后再请求

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python小白爬虫(二) _使用正则表达式获取页面中我们想要的数据(案例)
https://blog.csdn.net/qq_36051316/article/details/83375426 这个页面的案例,其实代码已经在页面上有了,这个只是方便哪些复制都不想复制的人。不过,这个东西拿到后就可以运行了,运行前记得导入相应模块 python -m pip install requests 这个是Python3
python爬虫获取跳转后的响应url
** 在爬虫中经常会遇到网页给的某个url是跳转前的url,这类请求url一般很长,假如数据库建表时字段限制,则会无法入库,从而导致拿不到数据,看了下网上其他教程,较为繁琐.我在这提供一种思路及代码片段供大家参考. 浏览器向请求url发送请求,如获取到正常的响应,则一般相应状态码时300~305,随后会重定向到另一url(响应url),想到这一点其实就很好解决了. 可打印出相应头内容,...
Python爬虫如何获取重定向后的url
在Python爬虫中会遇到url被重定向的情况,比如我点击https://www.test.com/uiehwuhuhgrehgureg.htm跳转到另一个页面,另一个页面的url会变成https://www.test.com/test.htm 使用下面代码可以获取到重定向后的url import requests def get_redirect_url(): ...
网页爬虫无法获取JS触发事件的网页链接
    之前公司的网站要求做百度搜索优化,但是页面的跳转主要依赖于js函数实现,奈何本人不是专业前端,只能使用笨办法来实现爬虫无法获取a标签的内容。    方法1:设立空的<a href='url' ></a>    方法2: 使用<a href='url' style='display: none'></a>    ...
爬虫 用java实现一个简易爬取网页超链接的程序
` 爬取结果截取部分 <a href="http://news.163.com/special/2019qglh/" class="zt_link" target="_blank" title="2019全国两会">2019全国两会_网易新闻_网易网</a> <a class="ntes-nav-index-title ntes-nav-entry-
python爬虫 如何获得完整链接(动态网页)
参考:https://blog.csdn.net/hdu09075340/article/details/74202339-------------------参考:https://www.cnblogs.com/hhh5460/p/5044038.html四中方法''' 得到当前页面所有连接 ''' import requests import re from bs4 import Beau...
Python爬虫(七)学习提取网页中所有链接
import re import urllib.request def getlink(url): headers = ("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36") op
Python 爬虫笔记(获取整个站点中的所有外部链接)
#! /usr/bin/env python #coding=utf-8import urllib2 from bs4 import BeautifulSoup import re import datetime import randompages=set() random.seed(datetime.datetime.now()) #Retrieves a list of all In
python3学习(7):链接爬虫,让爬虫跟踪链接,访问感兴趣的内容
环境:python3.6.5 + pycharm注意事项:1. 在python3中,urllib2、urlparser 和 robotparser 全部归于 urllib,该模块目前只包含5个子模块: urllib.error, urllib.parser,  urllib.request,  urllib.response,  urllib.robotparser2. 链接必须为绝对路径,以便包...
Python网络爬虫——把一个网页中所有的链接地址提取出来(去重)
# 把一个网页中所有的链接地址提取出来。运行环境Python3.6.4-实现代码:import urllib.request import re #1. 确定好要爬取的入口链接 url = "http://blog.csdn.net" # 2.根据需求构建好链接提取的正则表达式 pattern1 = '<.*?(href=".*?").*?' #3.模拟成浏览器并爬取对应的网页 谷歌浏览器 ...
Java爬虫(三)--获取网页中的所有地址
在这里就懒得处理异常,代码很简单,看注释 package test; import java.net.URL; import java.util.ArrayList; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.jsoup.Jsoup; ...
Python爬虫小实践:获取某个网站所有的外部链接以及内部链接
我们在进行爬虫时有的时候不可能只是在一个网站上进行内容上的爬取,理想中的爬虫应该是顺着一个链接从一个页面到另外一个页面,这需要获取页面上的所有的外链,同时收集每个页面上的内链。网站首页上不一定会发现外链,为了防止程序出错,就要递归深入到一个网站直到找到一个外链为止。 但在爬取的过程中出现了TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机
Python爬虫:深度、广度(多线程)爬取网页链接并控制层级
在使用爬虫爬取多个页面时(比如爬取邮箱,手机号等),一般层级越高与我们原始目标数据之间准确率越低,所以很有必要控制爬取层级达到有效爬取 无论是深度还是广度爬取,都需要以下变量和方法 #链接的正则表达式,注意是在标签中的href属性里的才是真正的链接 PATTERN_URl = "<a.*href=\"(https?://.*?)[\"|\'].*" #获取网页源代码,注意使用requ...
java网络爬虫——获取页面的所有超链接的内容
package com.http3; import java.util.ArrayList; import java.util.List; import org.htmlparser.Node; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.no
python 对指定URL获取其子链接
仿照http://blog.csdn.net/lming_08/article/details/44710779里面的方法, 获取指定URL 的所需的子链接及其描述. #!/usr/bin/python # -*- coding: utf-8 -*- import sys import urllib2 import re if len(sys.argv) != 2: print "%s ...
java爬虫,提供链接直接爬取网页代码
其实我只想要爬到整个网页的源代码的就好.通过java的一个包jsoup,就可以直接爬取了,后面有下载源代码(含jsoup包)的链接. 输入:网页链接 输出:网页源代码 代码比较简单,解析都在代码中: import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import java.io.FileOutputStream; pu
C++和python如何获取百度搜索结果页面下信息对应的真实链接(百度搜索爬虫,可指定页数)
一、需求说明: 通过百度搜索主页:“https://www.baidu.com”,搜索关键词:“安全”,显示出如下所示的信息,其中每条信息由如下所示的结构: 但是通过上述的截图会发现,信息所对应的链接是一个指向百度的链接。当点击这些结果信息,跳转的页面如下图所示,图片所示的链接才是上图中信息的真实链接: 现在的需求是:获取指定页数的搜索结果页面下的信息所对应的真实链接。
Python 爬虫技巧1 | 将爬取网页中的相对路径转换为绝对路径
1.背景: 在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动! 2.urllib.parse模块 This module defines a standard interface to break Uniform Resource Locat...
使用python抓取js动态加载的网页
我们在做网页抓取的时候,一般来说使用urllib和urllib2就能满足大部分需求。 但是有时候我们遇见那种使用js动态加载的网页。就会发现urllib只能抓出一个部分内容空白的网页。 解决办法是使用selenium+phantomjs进行抓取。。。 审查元素之后,。发现百度图片中,显示图片的div为:pullimages 这个div里面的内容是动态加载的。而使用urllib&urllib2
爬虫学习笔记(点击加载内容的爬取)-001
今天再爬一个网站时遇到通过jsonp的形式回传后续内容的网站 (如图): 经过观察发现每点击一个这个按钮,浏览器就会发送两个get请求:   而第一个参数里边返回的内容正好是我们要的东西,此时再看它的url: https://shankapi.ifeng.com/shanklist/_/getColumnInfo/_/default/6470973085922103296/154280...
爬虫练习之循环爬取网页中全部链接(requsets同步)
先贴代码,之后再写注释,已测试可用 import re import requests # 获取并检验要爬取的网站 def url_get(): url = input("请输入要爬取的首页url:") try: kv = {'user_agent': 'Mozilla/5.0'} requests.get(url, headers=kv
python爬虫学习(循环爬取网页链接)
循环爬取网页链接 基本原理: 爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 基本过程图: 重点:从访问的页面中抽取新的url链接 可以用正则表达式匹配链接<a href 标签 代码演示: # coding=utf-8 import requests import re def spid...
Python 爬虫篇-爬取页面所有可用的链接
原理也很简单,html链接都是在a元素里的,我们就是匹配出所有的a元素,当然a可以是空的链接,空的链接是None,也可能是无效的链接。 我们通过urllib库的request来测试链接的有效性。 当链接无效的话会抛出异常,我们把异常捕获出来,并提示出来,没有异常就是有效的,我们直接显示出来就好了。
[python] 爬取网站所有的URL
运行python脚本,最终程序目录下会是这样: result.txt中保存所有的URL 文件夹sh.neusoft.com中保存爬虫得到的所有网页 main.py的源代码如下 # -*- coding: utf-8 -* import os import re import shutil REJECT_FILETYPE = 'rar,7z,css,js,jpg,j
Jsoup 获取A标签链接绝对地址
网页抓取的时候,一般都会获取a标签的attr href,但是有的标签使用的路径是相对地址,这样自己还要做转换,不过Jsoup本身提供了方法,只要提取href的时候加上abs(absolute)前缀,那么最终拿到的就是绝对地址。 代码如下 [code="java"].attr("abs:href")[/code]...
Python 网络爬虫 008 (编程) 通过ID索引号遍历目标网页里链接的所有网页
通过 ID索引号 遍历目标网页里链接的所有网页使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 04 我使用的 urllib 的版本:urllib2注意: 我没这里使用的是 Python2 ,而不是Python3一 . 前言通过之前两节(爬取一个网页 的网络爬虫 和 解决爬取到
python 实现爬取网站下所有URL
python3 实现爬取网站下所有URL获取首页元素信息:首页的URL链接获取:遍历第一次返回的结果:递归循环遍历:全部代码如下:小结: python3.6 requests && bs4 采用递归方法,最终爬取网站所有链接 获取首页元素信息: 目标 test_URL:http://www.xxx.com.cn/ 首先检查元素,a 标签下是我们需要爬取得链接,通过获取链接路径,定位...
【python 爬虫】python中url链接编码处理方法
一、问题描述 有些网址,会把中文编码成gb2312格式,例如百度知道,美容这一词,网址上面会编码成:%C3%C0%C8%DD那么如何生成这种编码呢?二、解决方法 1、把要编码的文字encode成所需格式 2、利用urllib 库的quote方法编码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8'
跟踪链接实现python爬虫
通过python爬虫得到网页链接
Python爬虫爬取Html中的Url常用知识
近一段时间在学习如何使用Python进行网络爬虫,越来越觉得Python在处理爬虫问题是非常便捷的,那么接下来我就陆陆续续的将自己学习的爬虫知识分享给大家。 首先在进行实战前,我们需要了解几个常用的函数和正则表达式: 一、几个常用的函数 这里介绍的函数是来自于requests扩展包,他们是findall,search和sub函数: findall(pattern, string,
网络爬虫:使用多线程爬取网页链接
经过前面两篇文章,你想大家应该已经知道网络爬虫是怎么一回事了。这篇文章会在之前做过的事情上做一些改进,以及说明之前的做法的不足之处。
使用jsoup爬虫抓取一个URL
        这两天开始写爬虫,本意是想在各大音乐网站上爬些音乐到本地来听的。后来发现这好像并没有我想象的那么容易,我也是醉了。索性把我学习爬虫的经过写成博客,慢慢总结吧。           爬虫最重要的部分就在于如何解析获取到的HTML文档,在这方面我使用了jsoup,一个简单好用的HTML解析器。通过Maven注入到项目之中。我一开始练习爬数据的网站是http://www.stats....
[python爬虫] selenium爬取局部动态刷新网站(URL始终固定)
在爬取网站过程中,通常会遇到局部动态刷新情况,当你点击“下一页”或某一页时,它的数据就进行刷新,但其顶部的URL始终不变。这种局部动态刷新的网站,怎么爬取数据呢?某网站数据显示如下图所示,当点击“第五页”之时,其URL始终不变,传统的网站爬取方法是无法拼接这类链接的,所以本篇文章主要解决这个问题。本文主要采用Selenium爬取局部动态刷新的网站,获取“下一页”按钮实现自动点击跳转,再依次爬取每一...
python爬虫<解决URL被重定向无法抓取到数据问题>
在写爱奇艺爬虫的时候经常碰到URL被重定向的问题,导致无法请求到数据:以下是我的代码:# -*- coding: utf-8 -*-import scrapyheaders = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' }
【python爬虫】抓取链接网页内的文本 (第一步 定位超链接文本)
第一步:导入模块&amp;gt;&amp;gt;&amp;gt; import re  &amp;gt;&amp;gt;&amp;gt; from bs4 import BeautifulSoup  &amp;gt;&amp;gt;&amp;gt; import urllib.request -------------------------------------第二步:导入网址url = &quot;http://zsb.szu.edu.cn/zbs.html&quot;  ----...
[Python3.x]网络爬虫(一):利用urllib通过指定的URL抓取网页内容
1.爬百度首页, 方法1:#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib.request response = urllib.request.urlopen('http://www.baidu.com/') html = response.read(); print(html);方法2:#!/usr/bin/python # -*-
python3.x爬虫(一):打开网页,获取网页内容
1.网页结构(了解) 网页构成三要素:HTML、JavaScript、css head:网页的标题,不在网页内显示。body:网页内显示的内容(上边右图)。我们是爬取body中的内容。 (这是我本地写的一个网站,所以没有链接,所以肯定是不能用来爬虫的) 2.python爬虫用的库 python用于爬虫的库为urllib urllib.request 用于打开和读取URL, ...
爬虫总结1——爬取异步请求(XHR/JS)数据方法
在爬取到http://icloudy.cechina.cn/网页的时候,发现点击“加载更多”会出现新的内容,但是网页却没有发生变化,于是打开F12查看Network发现,会每次点击都会多出来一行,如下: 随便点开一个就可以看到我们真正访问的URL地址: 从这里我们就可以清楚的在xhr返回的header里面看到异步请求的url,这里我们直接访问该url(或者在preview里面可以看到返回的...
python爬虫之抓取网页新闻标题与链接
用chrome的原生工具--检查,找查网页标题与链接对应的元素 可看到,大标题‘中兴与美商务部达成和解协议:支付10亿美元罚款’对应的网页元素是: &amp;lt;h1 class=&quot;main-title&quot;&amp;gt;中兴与美商务部达成和解协议:支付10亿美元罚款&amp;lt;/h1&amp;gt; 所以选中 main-title 贴入代码: 获取新闻来源和时间: 用soup将时间和...
python爬虫:抓取页面上的超链接
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.页面上的超链接在HTML中,超链接用a表示,链接地址写作 href=。。。<a href='http://www.baidu.com'>baidu</a> 发布到浏览器上就是:点击这
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 python爬虫获取学校 python爬虫获取价格