python--爬虫 requests库如何进行网页等待?

PS: timeout参数无效!!!

在网页爬取中遇到了js:setTimeout(3)函数,网页会先加载部分数据,3秒后再次自动请求该网页,获取所有网页数据。
但requests获取网页后,只能获取等待前的数据,不能获取等待后的网页数据。
如何让requests执行js代码,或使用其它方式执行等待,获取数据?

0

2个回答

//将以下js放在页面最下方
$(document).ready(function(){
    setTimeout(function(){ alert("Hello"); }, 3000);// 单位毫秒;3000是3秒;
})
1
yong1xin
yong1xin 额,爬虫怎么绕过这个函数呢?
4 个月之前 回复

好像不行,推荐用selenium吧,implicitly_wait方法

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python之requests 爬虫遇到的时间坑
nn如图:浏览器显示的时间: train_date : Mon+Nov+05+2018+00:00:00+GMT+0800nn这里面的时间显示中存在加号  +  。注意:当你的cookie 确定没 没问题时, 请求参数和浏览器 上面显示的也一模一样,可是请求就是不成功。 这是就要考虑请求参数的问题了,因为浏览器显示参数是已经经过编码后的,你可以查看nnnn鼠标选中 当前的 信息右击,选择 Edit...
爬虫(一)——用Requests模块获取网页信息
调用requests库里面的get方法,获取网页的信息,调用page.text获取网页源码,然后通过print打印出网页源码nimport requestsnpage = requests.get('https://blog.csdn.net/zt_0910/article/details/80075742')ntext = page.textnprint(text.encode("utf-8")...
【Python爬虫】利用Python的requests库进行一次比较全面的数据爬取操作)
【Python爬虫】利用Python的requests库进行一次比较全面的数据爬取操作)n前言:n先做一下自我介绍,本人并非本专业毕业的专业人士,之前有两年的Java Web开发工作经验,近期刚刚接触到Python的爬虫知识,自学了大概一段时间,现在想把自己学习过程中遇到的问题和大家分享一下,这些代码都是自己摸索尝试出来的,其中可能有一些设计并不是很合理,希望大家能给出意见,这篇文章很适合刚刚接触...
python爬虫:使用requests_html库爬取网页中的内容(详细教程)
在python 3.6版本及以上,引入了一个新的库:requests_html 。说实话,这个库是真的方便使用,它可以将爬虫变得很简单,话不多说,直接上手。我们想要爬取下面这个网站的代码部分:nhttps://cpppatterns.com/patterns/copy-range-of-elements.htmln(代码部分指的是如下图黑框中的C++代码)nn我们使用的变成工具是pycharm,接...
Python爬虫笔记之用BeautifulSoup及requests库爬取
这次要爬取的是一个壁纸网站wallhaven,里面有很多用户上传的高清壁纸分享。点击进去会出现一个搜索页面,输入dota2,这就得到了我们要爬取的第一个url:”https://alpha.wallhaven.cc/search?q=dota2&search_image=&“。没错,今天的任务是爬取的是上面dota2专题的所有高清壁纸。 n  点进页面之后照常往下拉,想看看是否有那种点击翻页之类的东
python爬虫之requests库详解(一,如何通过requests来获得页面信息)
前言:nn爬虫的基础是与网页建立联系,而我们可以通过get和post两种方式来建立连接,而我们可以通过引入urllib库[在python3的环境下导入的是urllib;而python2的环境下是urllib和urllib2]或者requests库来实现,从程序的复杂度和可读性考虑,requests库显然更能满足程序员的需求,但是我没有找到这个库详细的中文讲解,这也是我写这篇文章的原因。n 所有的参...
使用Requests库来进行爬虫的详解
Requests是用Python编写,基于urllib,采用Apache2 Licensed开源协议的HTTP库。它比urllib更方便,可以节约我们大量的工作,完全满足HTTP测试需求。rn安装:rnpip3 install requestsrn使用rn实例:rnimport requestsrnrnresponse=requests.get('https://www.baidu.com')rnprint(ty...
【Python爬虫】利用Python的requests库进行一次比较全面的数据爬取操作)三
【Python爬虫】利用Python的requests库进行一次比较全面的数据爬取操作)三n今天经过反复的调试终于成功抓取了14多万条数据,期间老是引文报错导致程序终端,或者是数据数量不对的情况,所以重新修封装了获取html的类把所有可能出现的异常全部捕获后递归重复调用下面是重新封装后的代码:nnn这里针对不同报错都采取了重新调用的方法,写这么except只是为了观察在抓取过程中经常出现的错误,递...
爬虫requests库简单抓取页面信息功能实现(Python)
import requestsnimport re, json,time,randomnfrom requests import RequestExceptionnnnUserAgentList = [n "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.9...
Python小白爬虫(一) _使用requests模块进行Get请求网页得到页面内容(案例)
我们要用到 requests 模块n这个是干啥的呢?n这个模块可以发送网络请求(Get,Post,Delete… …)n我们通过这个模块进行Http Get 请求,这样就可以拿到网页了。n我们要使用这个模块就要用pip来安装:npython -m pip install requestsnn安装完成后我们就可以上代码了(不多说):n# -*- coding: UTF-8 -*-nimport re...
【Python3网络爬虫】 requests库的使用
1.requests库可以使Cookies,登陆验证,代理设置更加简单。一段代码,去对比urllib库的使用:import requestsnr = requests.get('https://wwww.baidu.com')nprint(type(r))nprint(r.status_code)nprint(type(r.text))nprint(r.cookies)n这些可以体现在请求上的相对...
定向爬虫--爬取中国大学排名(bs4和requests库)
预览:nnnn功能描述:nn输入:大学排名URL链接(这里网址为:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html)nn输出:大学排名信息的屏幕输出(排名,大学名称,总分)nn定向爬虫:仅对输入的URL进行爬取,不扩展爬取nn程序的结构设计:nn步骤1:从网络上获取大学排名网页内容nn步骤2:提取网页内容中信息到合适的数据结构(从上图可以看...
【1】python爬虫入门,利用bs4以及requests获取静态网页
注:本文仅适用于爬虫初级入门者,并不涉及太多技术本质rn感谢您阅读此文。最近放假在家,闲时无聊,开始入门了python爬虫,可以完成一些基本的数据爬取(对于一些反爬取例如JS渲染,接口加密等页面仍然处于学习之中),本文就是简单总结最近已熟练掌握的爬取静态网页的方法。rn若是从未接触过相关知识的朋友,在开始之前,需至少掌握python入门知识,详见廖雪峰的官方网站,另外若要深入探究爬虫的本质以及希望
爬虫之urllib库以及requests库的使用说明
import urllib.requestn#######一 urllib库的使用#####n# 里面有三个常用的模板,分别是requeat,error,parse.,其中resqust里面就有urlopen,以及Resqustn'''n#课本p103,最简单的通过get方式爬取网页的方法,就是使用urlopen方法nresponse=urllib.request.urlopen('https:/...
爬虫requests解析后中文乱码问题
在使用requests爬虫后解析网页时总会出现中文乱码问题。比如 如下乱码 Ê±×¯ÎÀÉúÔº 。解决办法就是 :'ʱׯÎÀÉúÔº'.encode('latin1').decode('gbk')时庄卫生院Python2的话 在字符串前面加一个 u 声明他是Unicode就行(如果不行,请看一下在脚本第一行是否有如下代码#encoding=utf-8)这种问题究竟怎么解决 为什么会有乱码呢。...
python爬虫——利用requests库BeautifulSoup简单爬取网页上照片
刚开始接触网络爬虫,记录自己的学习历程。开发环境:python 3.6 IDLE 爬取对象及任务:爬取学院网站上教师的信息,将教师照片保存在某一文件下。url = 'http://cmee.nwafu.edu.cn/szdw/gjzcry/index.htm'程序代码:import requestsnimport bs4nimport osnfrom bs4 import BeautifulSou...
网络爬虫之Requests库及爬取网页的通用代码框架
Requests库nnnn7个主要方法nnnnn 方法n 说明nnnn requests.request()n 构造一个请求,支撑以下方法的基础nnn requests.get()n 获取HTML网页的主要方法,对应于HTTP的GETnnn requests.head()n 获取HTML网页头信息的方法,对应于HTTP的HEADnnn requests.post()n 向HTM...
爬虫--利用Python中的requests库爬取一个视频、图片
最近在B站上学习Python爬虫,在课程里面讲了一个爬取一张图片的例子,课后作业是自己写个爬取视频的程序。nn爬取图片还是比较简单的,这里说一下:n首先获取图片的url链接。nn在百度上搜索图片,如下:nnnn随便点击一个,然后右键->复制图片地址nnnn好了我们就获取到了,该图片的url链接了,为了验证我们得到的链接是否正确,可以在浏览器里输入这个地址来验证。nn程序最后展示,下面在说下爬...
数据爬虫(三):python中requests库使用方法详解
一、什么是RequestsnnRequests 是⽤Python语⾔编写,基于urllib,采⽤Apache2 Licensed开源协议的 HTTP 库。它⽐ urllib 更加⽅便,可以节约我们⼤量的⼯作,完全满⾜HTTP测试需求。nnn⼀句话——Python实现的简单易⽤的HTTP库nnn二、安装Requests库nn进入命令行win+R执行nn命令:pip install requestsn...
【Python网络爬虫】使用requests和beautifulsoup4库轻松实现
如何用Python编写网络爬虫?python提供了很方便的库来帮助我们实现很多复杂的功能。在编写网络爬虫的过程中,我们可以使用requests来与网站交互并获取网页的源代码,再使用beautifulsoup4对得到的网站源代码(通常是html)进行处理来获取所需要的内容。下面进行详细的介绍。关于网页的基础知识url(Uniform Resource Locator)也就是我们平时所说的域名,也就是...
python爬虫系列(2.3-requests库模拟用户登录)
一、模拟登录拉钩网nimport renimport requestsnnnclass LoginLaGou(object):n """n 模拟登录拉钩网n """nn def __init__(self):n self.headers = {n 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel M...
Python爬虫之requests库(三):发送表单数据和JSON数据
import requestsnnnn一、发送表单数据nn要发送表单数据,只需要将一个字典传递给参数datannnnpayload = {'key1': 'value1', 'key2': 'value2'}nr = requests.post("http://httpbin.org/post", data=payload)nprint(r.text)nn{"args":{},"data":&
使用requests模块下载爬虫百度图片
一、前言n       在github上找到个输入关键词和下载数量即可爬虫多张百度图片的方法,实际测试发现不支持中文关键词,并且最多只能下载60张以内,经过修改后可支持中文,并能下载多张图片。n二、代码n       首先需要安装requests模块,该方法主要是使用http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=
小白学爬虫(二)-- requests库初使用
nn什么是requests库nrequests库的安装nrequests库的使用nn爬取第一个网页n获取网页源码的正确打开方式nrequests的reponse对象n常见reponse方法nnn发送一个post请求(headers)nnnnnnnnnnnn什么是requests库nnRequests库是Python中的一个HTTP网络请求库,用来简化网络请求!nnrequests库的安装nn如果在...
python爬虫(requests)库安装
requests是一个比较好的网络请求处理库
爬虫技术库-urllib.request和requests库的使用(Python)
1.  requests库         import requestsn n headers = {n 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36',n...
Python爬虫练习(requests模块)
Python爬虫练习(requests模块)nnnn一、使用正则表达式解析页面和提取数据nnnn1、爬取动态数据(js格式)nn爬取http://fund.eastmoney.com/fund.htmlnn流程:nnnna.分析页面nn用浏览器打开链接,清空已加载的数据,点击下一页,可看到动态数据已被封装成js格式:nnnnvar db = {...}nnnnb.获取urlnnnnc.获取响应nn...
初探:Python中使用request和BeautifulSoup库进行网络爬虫
说起网络爬虫,Python中最底层的应该是urllib,但是语法结构有些繁琐,需要使用正则。而使用request和BeautifulSoup库进行网络爬虫,发现这真的是web开发人员的福音。凡是懂一些前端知识的人来说,使用request和BeautifulSoup库进行爬虫,真的有一种开心而愉快的感觉。nnrequests 主要是一个封装好了http功能的库, 可以实现基本的http操作。nnbe...
python爬虫中requests库和正则表达式之淘宝爬虫实战
#python版本基于2.7rn使用requests库是需要安装的,requests库相比urllib 库来说更高级方便一点,同时与scrapy相比较还是不够强大,本文主要介绍利用requests库和正则表达式完成一项简单的爬虫小项目----淘宝商品爬虫。rnrn有关于更多requests库的使用方法请参考:官方文档rn第一步:我们先打开淘宝网页rnrnrnrnrnrnrnrnrnrnrnrnrn
使用requests+beautifulsoup模块实现python网络爬虫功能
1. 前言之前实现python的网络爬虫, 主要都是使用较为底层的urllib, urllib2 实现的, 这种实现方案显得比较原始, 编码起来也比较费劲, 尤其是提取信息的时候, 还得使用正则表达是匹配 (之前转载的一篇糗事百科的爬虫文章, http://blog.csdn.net/zhyh1435589631/article/details/51296734)。 我们这里采用requests +
Python爬虫——利用requests模块爬取妹子图
近期学了下python爬虫的requests模块,爬虫有趣的地方是爬取图片,因此爬取了妹子图上的图片,给享单身狗们发波福利,哈哈。顺便记录一下第一次才CSDN上发博客,各位大牛们请多让路,菜鸟先飞一步。nn话不多说,进入正题nnnnn开发环境 npython 3.6n涉及到的库 nrequestsnlxmlnnn先上一波爬取的截图nnnnnn网站首页nnnn每一页有很多个系列,每个系列有10张图左...
【爬虫解析4】:requests总结
rnhttps://www.cnblogs.com/whatbeg/p/5320666.htmlrn rn会话对象requests.Session能够跨请求地保持某些参数,比如cookies,即在同一个Session实例发出的所有请求都保持同一个cookies,而requests模块每次会自动处理cookies,这样就很方便地处理登录时的cookies问题。在cookies的处理上会话对象一句话可...
入坑爬虫(五)Requests库处理cookie
requess模块处理cookie相关的请求nnn爬虫中使用cookienn为了能够通过爬虫获取到登录后的页面,或者是解决通过cookie的反扒,需要使用request来处理cookie相关的请求n爬虫中使用cookie的利弊nn能够访问登录后的页面 n能够实现部分反反爬nn带上cookie的坏处: n 一套cookie往往对应的是一个用户的信息,请求太频繁有更大的可能性被对方识别为...
Python3网络爬虫:requests爬取动态网页内容
本文为学习笔记 n学习博主:http://blog.csdn.net/c406495762 Python版本:python3.+ n运行环境:OSX nIDE:pycharm一、工具准备抓包工具:在OSX下,我使用的是Charles4.0 n- 下载链接以及安装教程:http://www.sdifen.com/charles4.html n- 安装完成后,要给Charles安装证书,Mac上使用Ch
爬虫利器:Requests库使用
Requests:让HTTP服务人类。n n 本文中的有些内容来自官方网站,也有一部分是我的理解,算是个笔记版本吧。nnnnn1requests是什么n2安装及更新n1 安装n2 更新nnn3使用n1 发送请求n2 传递URL参数n3 响应内容n31 文本响应内容n32 二进制响应内容n33 JSON响应内容n34 原始响应内容nnnnn4定制请求头n5响应状态码n6响应头n7超时n8错误与异
爬虫requests登录并跳转
   首先,客户需要爬取的页面是: http://www.huobiao.cn/search?word=&block=1  底下各个标的详情数据。nn   如果没有登录的话,招标详情一些关键信息会被隐藏,像这样:nn nnnn   而登录后这些信息都会展示出来。nn   经过分析,本次爬虫需要向三个页面请求数据,第一个是登录页面,第二个是请求每一页中的数据,第三个根据返回的数据找到每个公告...
Python爬虫学习(一)使用Requests和正则表达式爬取简单网页
1.概述rnrn使用Requests库和正则表达式爬取猫眼电影TOP100中的电影信息,包括电影名称、主演、上映时间、评分、图片等信息。然后将获取的信息保存到文本文件。rnrnrnrn2.网页分析rnrn要爬取的网页为猫眼电影TOP100(http://maoyan.com/board/4),网页页面如下所示: rn rn看一下页面的显示规律是怎样的,一页是显示10部电影名称。第二页的url和内容如下所示:url为:...
爬虫(七):Requests小技巧以及定位浏览器中的js位置
1.requests.utils.dict_from_cookiejjar 把cookie对象转为字典rn2.请求ssl证书验证rnresponse=requests.get(‘https://www.12306.cn/mormweb/’,verify=False)rn3.设置超时rnresponse=requests.get(url,timeout=10)rn4,配合状态码判断是否请求成功rnassert ...
爬虫基础--requests库(获取网页信息)
官网文档–http://docs.python-requests.org/zh_CN/latest/user/quickstart.htmlnnn 发送get,post请求nnnnres=requests.get(url) #发送get请求,请求url地址对应的响应 nres=requests.post(url,data={请求的字典}) #发送post请求nnnnn#post请求nimpo...
Python爬虫+requests+伪装浏览器 爬取小说入门总结
前言:nn      Python越来越流行,跟着时代的进程,我也不用全身心的投入训练,我也来玩玩Python,想着以后工作应该不会有windows的所以我就去安装了Ubuntu 和win10的双系统,这个现在网上到处都是教程我就不细说了,按着教程来就是,百度是个万能的东西,至于pycharm也一样的。nn我的配置:Ubuntu16.04+pycharm2018.3(Professional)。n...
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 java爬虫如何学习 如何学习python爬虫

相似问题

2
python--爬虫 requests库如何进行网页等待?
1
在matlab里如何求出指数n1,n2,使得y=k(x1^n1)*(x2^n2)为直线?
0
请教各位老师哪些模型中应用的定量、定性特征需要进行转换?
0
爬虫使用beautiful soup4时遇到Your browse does not support frame!,新手求解决
0
对已得食材进行健康分析的思路
2
numpy 范围 求和 sum,条件如何编写
1
python多重背包问题,已有最佳值,如何获得该最佳的具体方案
3
python的列表推导式如何进行累加计算,需要额外去定义个函数吗
2
怎么把爬取到的数据放到自己的网页上实现同步数据?
0
请问怎么把控制台的爬取得到的数据放到pyqt图形界面中,然后进行分析
1
请教这些32位代码是utf-8代码吗?用正则如何抓取?
1
如何爬取这个音乐网站上的下载链接?网址:http://www.dj024.com
0
如何根据一堆区间推算出最有可能的区间,区间长度不确定的,就是一堆时间区间
0
LASSO回归 如何给出像一般线性回归OLS的自变量标准误
2
如何解决ImportError: DLL load failed: The specified procedure could not be found
2
爬虫之scrapy报错spider 农田
3
“你只需要告诉我们你需要什么样的数据,我会把所有的数据全部都生成A P I接口共享。”是如何做到的?
1
ID3算法在搜索过程中不进行回溯是什么意思,麻烦详细讲解一下搜索过程
0
如何使用Weka对数据集colic.ORIG.arff进行数据预处理?