写爬虫时,需要的html和用requests.get返回的html不一样导致无法进行下一步,请问怎么解决??

我是用的谷歌浏览器,按f12后经过对比,我发现我代码requests.get返回的是——sources里面的html文本,但我想要的是element里面的html文本,怎么才能返回正确的html呢?
↓这是我想要找的:
图片说明

但是返回的却是这个:
图片说明

然后我写的代码是这个:
图片说明
请问该怎么解决这种情况呢??

3个回答

请求返回的里面好像没有tbody标签。但是网页按F12查看的时候好像是有tbody标签的

用request的get方法得到的是服务器返回给你的源码,而你用f12调试看到的是浏览器解释过后的代码,不一样是正常的,要获取f12看到的可以用selenium模拟访问

浏览器显示的是完全渲染后的页面(js异步数据),而request请求仅返回纯html内容,目测你这个

是异步加载的。你可以直接在浏览器页面鼠标右键点击 查看网页源代码 进行对比。
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
使用Docker创建镜像时,requests.get超时的问题
我们使用Docker创建多个ip结点,进行实验时,有一步调用了requests.get函数,结果发现超时。相关程序如下(语言为python): ``` response = requests.get(f'http://{node}/transactions/received',timeout = 1) ``` 异常为:requests.exceptions.ConnectTimeout 我们创建端口使用的是flask包,该网址的定义如下: ``` @app.route('/transactions/received', methods=['GET']) def received_transaction(): response = {'received_transaction': blockchain.received_transaction,} return jsonify(response), 201 ``` 由于不用Docker,直接运行程序创建结点时执行顺利。因此推断程序无误,而是Docker配置上出现了问题。 Docker创建网络的命令大致如下: docker run --rm -p $1001:$5000 --net blockchain1 --name node1 --ip $1.0.0.10 cjkdblockchain 不知道为什么requests.get会超时,请大家指教,谢谢!
python requests.get得到的中文编码错误
在练习爬虫的时候requests.get一个网站 打印出来的得到的text中文是 &#x 5BF6;&#x 8C9D;&#x 9F8D;的(为了防止网页自动编码在&#x后面敲了空格)。其他网站都能正常显示 。 找了很多方法都没法普通的显示成中文。 代码 ``` import requests import chardet response = requests.get("https://store.playstation.com/zh-hant-hk/grid/STORE-MSF86012-SPECIALOFFER/1?smcid=hk-chs_ps%3Acom_header") print(response.text) ```
用Python的requests.get获取网页源代码出现ConnectionError
如下为具体报错: requests.exceptions.ConnectionError: HTTPConnectionPool(host='seth_shy', port=80): Max retries exceeded with url: http://www.jikexueyuan.com/ (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<requests.packages.urllib3.connection.HTTPConnection object at 0x02998410>: Failed to establish a new connection: [Errno 11004] getaddrinfo failed',)))
求教python requests.get中传多个UA的问题
如题。 因为被重定向,所以写了用多个UA来获取网页源码,不是很清楚是不是只要在header中写个UA字典然后request.get方法就会在获取网页源码的时候自己从几个UA中随机选一个(像proxies?),还是还需要手动写random函数? 另,如果在header中写了几个UA,然后还加上referer可以吗? 就是像下面这样写: ``` header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/601.4.4 (KHTML, like Gecko) Version/9.0.3 Safari/601.4.4', 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', 'User-Agent':'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11', 'User-Agent':' Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11', 'referer':'https://www.taobao.com/' } ..... html = requests.get(url,headers = header,cookies = cookie,proxies = proxies) ``` 谢谢!
请问写python爬虫如何用urllib或者requests模拟用户登录
比如我在百度文库下个课件,http://youke.baidu.com/view/05984a27b4daa58da0114ac6, 我用urllib2或者request,我可以用urllib2.open(url)或者requests.get(url)来打开页面,但是不知道如何写cookie的,就是让浏览器认为你已经登录了,请问如何写urllib或者requests.get呢?谢谢
requests安装好,但是执行r = requests.get("https://www.baidu.com")时出问题。
当在python 自带的IDE里输入r = requests.get("https://www.baidu.com")时出出以下提示,要怎么设置才能正常获取 >>> r = requests.get("http://www.baidu.com") Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 597, in urlopen self._prepare_proxy(conn) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 807, in _prepare_proxy conn.connect() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connection.py", line 370, in connect ssl_context=context) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\ssl_.py", line 355, in ssl_wrap_socket return context.wrap_socket(sock, server_hostname=server_hostname) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 407, in wrap_socket _context=self, _session=session) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 814, in __init__ self.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 1068, in do_handshake self._sslobj.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 689, in do_handshake self._sslobj.do_handshake() ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 449, in send timeout=timeout File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 641, in urlopen _stacktrace=sys.exc_info()[2]) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\retry.py", line 399, in increment raise MaxRetryError(_pool, url, error or ResponseError(cause)) urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),)) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "<pyshell#3>", line 1, in <module> r = requests.get("http://www.baidu.com") File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 75, in get return request('get', url, params=params, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 60, in request return session.request(method=method, url=url, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 533, in request resp = self.send(prep, **send_kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in send history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in <listcomp> history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 247, in resolve_redirects **adapter_kwargs File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 646, in send r = adapter.send(request, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 514, in send raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),))
python使用requests.get时,请求头的cookie是随机变化的,该怎么写请求头?
例如以下是请求的url: http://search.10jqka.com.cn/stockpick/search?typed=0&preParams=&ts=1&f=1&qs=result_original&selfsectsn=&querytype=stock&searchfilter=&tid=stockpick&w=%E5%B8%82%E7%9B%88%E7%8E%87%E5%A4%A7%E4%BA%8E%E7%AD%89%E4%BA%8E21%E5%80%8D%E4%B8%94%E5%B8%82%E7%9B%88%E7%8E%87%E5%B0%8F%E4%BA%8E%E7%AD%89%E4%BA%8E22%E5%80%8D&queryarea= 以下请求头: Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,ja;q=0.7,zh-TW;q=0.6,vi;q=0.5 Cache-Control: max-age=0 Connection: keep-alive Cookie: Hm_lvt_78c58f01938e4d85eaf619eae71b4ed1=1550575085,1552764171; PHPSESSID=e9cddc3108ec629d2db0c2f2e30ce810; cid=e9cddc3108ec629d2db0c2f2e30ce8101552829178; ComputerID=e9cddc3108ec629d2db0c2f2e30ce8101552829178; other_uid=ths_mobile_iwencai_2e6c84325ffc4a0b201b430c00d1df46; iwencaisearchquery=%E8%BF%9E%E7%BB%AD15%E5%B9%B4%E6%89%A3%E9%9D%9E%E5%87%80%E5%88%A9%E6%B6%A6%E5%A4%A7%E4%BA%8E0%20%E5%B8%82%E5%87%80%E7%8E%87%E4%BD%8E%E4%BA%8E2%20roe%E9%AB%98%E4%BA%8E10%25%20%E5%B8%82%E7%9B%88%E7%8E%87%E4%BD%8E%E4%BA%8E20; guideState=1; Hm_lpvt_78c58f01938e4d85eaf619eae71b4ed1=1552835669; v=AoFMlTW5uV-o89Vrfg5AnBoTkMaYrvY4Hy-ZvOPWfVvmsa8wK_4FcK9yqbBw Host: search.10jqka.com.cn Referer: http://search.10jqka.com.cn/stockpick/search?typed=1&preParams=&ts=1&f=1&qs=result_rewrite&selfsectsn=&querytype=stock&searchfilter=&tid=stockpick&w=%E5%B8%82%E7%9B%88%E7%8E%87%E5%A4%A7%E4%BA%8E%E7%AD%89%E4%BA%8E21%E5%80%8D%E4%B8%94%E5%B8%82%E7%9B%88%E7%8E%87%E5%B0%8F%E4%BA%8E%E7%AD%89%E4%BA%8E22%E5%80%8D&queryarea= Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36 我的代码: r=requests.get(myurl,headers=myheader) 其中myurl就是上面要请求的url,myheader就是上面的请求头 如果请求头里不包含cookie,那么r.text的结果就显示异常,根本不是我想要的信息: ![图片说明](https://img-ask.csdn.net/upload/201903/18/1552889612_367617.jpg) 若是请求头里包含了cookie,那么r.text就显示正常(正常的我就不列出来了)。但问题来了:这个cookie是随机没有规律的,而且过一段时间就失效,而且好像我打开新的网页也会重置什么的,那我怎么才能写请求头呢?
requests已经安装好,但是执行 r = requests.get("http://www.baidu.com")后出现以下提示
requests已经安装好,但是执行 r = requests.get("http://www.baidu.com")后出现以下提示,要怎么设置才能正常获取网页信息 >>> r = requests.get("http://www.baidu.com") Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 597, in urlopen self._prepare_proxy(conn) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 807, in _prepare_proxy conn.connect() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connection.py", line 370, in connect ssl_context=context) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\ssl_.py", line 355, in ssl_wrap_socket return context.wrap_socket(sock, server_hostname=server_hostname) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 407, in wrap_socket _context=self, _session=session) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 814, in __init__ self.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 1068, in do_handshake self._sslobj.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 689, in do_handshake self._sslobj.do_handshake() ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 449, in send timeout=timeout File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 641, in urlopen _stacktrace=sys.exc_info()[2]) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\retry.py", line 399, in increment raise MaxRetryError(_pool, url, error or ResponseError(cause)) urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),)) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "<pyshell#3>", line 1, in <module> r = requests.get("http://www.baidu.com") File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 75, in get return request('get', url, params=params, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 60, in request return session.request(method=method, url=url, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 533, in request resp = self.send(prep, **send_kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in send history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in <listcomp> history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 247, in resolve_redirects **adapter_kwargs File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 646, in send r = adapter.send(request, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 514, in send raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),)) 但是执行>>> r = requests.get("http://www.126.com")是正常的 >>> print(r.status_code) 200 >>> r.text
求助 python爬虫 requests的get出现10054错误 远程主机强迫关闭了一个现有的连接
这个爬的是智联的招聘信息,在爬了上千条数据后就容易出现这个错误。 Traceback (most recent call last): File "G:/python/zhilian_crawler/crawler3.py", line 284, in <module> get_more_page(1,91) File "G:/python/zhilian_crawler/crawler3.py", line 170, in get_more_page get_page(url+str(one)) File "G:/python/zhilian_crawler/crawler3.py", line 28, in get_page get_more_data(soup) File "G:/python/zhilian_crawler/crawler3.py", line 159, in get_more_data webData=requests.get(url0) File "D:\Python3\lib\requests\api.py", line 70, in get return request('get', url, params=params, **kwargs) File "D:\Python3\lib\requests\api.py", line 56, in request return session.request(method=method, url=url, **kwargs) File "D:\Python3\lib\requests\sessions.py", line 475, in request resp = self.send(prep, **send_kwargs) File "D:\Python3\lib\requests\sessions.py", line 596, in send r = adapter.send(request, **kwargs) File "D:\Python3\lib\requests\adapters.py", line 473, in send raise ConnectionError(err, request=request) requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))
想请教一下使用selenium请求网页和requests.get 获取网页的区别
最近刚开始学习selenium,想知道自己的理解对不对,使用selenium模拟登录网页的话可以直接去搜索网页检查里面出现的内容,是经json等文件渲染之后的网页,而requests获取的网页是网页源代码?是这样的区别吗 不知道自己的理解对不对。
初学爬虫,requests抓取不到网页
直接用requests.get就可以 ``` response = requests.get("https://movie.douban.com/top250?start=0&filter=") print(response.text) ``` 但是我按照教程上的步骤就不可以,是我的代码哪里出了问题吗? ``` import requests from requests.exceptions import RequestException def get_one_page(url): try: response = requests.get(url) if response.status_code == 200: return response.text return None except RequestException: return None def main(): url = 'https://movie.douban.com/top250?start=0&filter=' html = get_one_page(url) print(html) if __name__ == '__main': main() ``` ![图片说明](https://img-ask.csdn.net/upload/201905/09/1557412795_945034.jpg)
【django】关于request.POST[]和request.POST.get()的问题
自己写了个django网站,今天用postman和python requests.post分别进行了登录接口测试,结果发现postman一直报错MultiValueDictKeyError at /login而requests.post是正常。然后我修改了uname和upwd的参数,发现request.POST.get()参数正常,request.POST[]会报错。这个是为什么呢? 代码如下: ``` uname = request.POST.get('uname') upwd = request.POST['upwd'] ``` 同时想请教一下postman和requests工作原理上的区别,谢谢!
用requests_html包爬取网页数据时session.get()缺少位置参数
在利用requests_html包爬取网页数据时 当用session.get()把连接对应当网页取回来时, 出现--------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-17-dd04b69b9201> in <module>() ----> 1 r=session.get(url) TypeError: get() missing 1 required positional argument: 'url' 代码如下: ``` from requests_html import HTMLSession session=HTMLSession url='https://www.jianshu.com/p/85f4624485b9' r=session.get(url) ``` ![图片说明](https://img-ask.csdn.net/upload/201902/27/1551275224_56405.png) 求大神指点,谢谢!
使用Pyhton 的requests.get()的时候遇到个技术难题,有经验的大牛请进。
最近,我们学校采用了一款微信公众号用于抢座,但是每次到时间抢座时间点 就出错,因此我就准备使用Python自动抢座:<br><br> 进入抢座页面,通过fidder抓包时候,发现其通过楼层座位坐标来发送一个get 请求如下(蓝色上面那个url):<br><br> ![图片说明](https://img-ask.csdn.net/upload/201812/26/1545819485_184502.png) <br><br> 10073&代表楼层,接着后面的一串英文字母竟然是随机生成的,从10073&一直到=13,12之前都是自动生成:psH4nFZwbz 每次提交座位都会改变,因此我无法把正确的url 提交服务器占位。 我仔细琢磨了下,其并没有异步数据给后台服务器,我猜想是使用js,就爬取他的js发现有以下代码:<br> ![图片说明](https://img-ask.csdn.net/upload/201812/26/1545819836_639462.png)<br> <br> ![图片说明](https://img-ask.csdn.net/upload/201812/26/1545819854_112927.png)<br> 前者官方定义一个函数,使得在触发函数时重新给 url赋值,新url带有随机生成 的字符串,也就是上述所说的随机字母, 后是“确定选座按钮”点击时触发该函数。 <br> 因为我是用Python的requests发送请求,不能操作js生成的url。<br> 注:学校公众号是微信内置浏览器才能打开,需要定义请求头和weChatSESS Cookie,才能浏览,否则被重定向。 我实在没办法解决这个技术问题,请问我该怎么办? 真的非常感谢。
用Python的requests.get获取网页源代码出现ProxyError
具体报错如下:求大神们解答 ProxyError: HTTPConnectionPool(host='138.128.220.192', port=80): Max retries exceeded with url: http://fujianzhuneng.gotoip11.com/ (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.HTTPConnection object at 0x00000000070DDFD0>: Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接。',)))
爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥?
1、爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥? ``` import requests from lxml import etree url = "https://tieba.baidu.com/f?fr=wwwt&kw=%E4%B8%8D%E8%89%AF%E4%BA%BA" headers = { "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36" } response = requests.get(url,headers=headers).content.decode() print(response) html_str = etree.HTML(response) print(etree.tostring(html_str).decode()) # li = html_str.xpath("//ul[@id='thread_list']/li[@class='j_thread_list clearfix']") # print(li) ```
Python requests模块爬取https网站使用代理的问题
请问在Python使用requests库做爬虫爬取https协议的网站的时候,代理要怎么设置呢? 官方文档的说明如下 import requests proxies = { "http": "http://10.10.1.10:3128", "https": "http://10.10.1.10:1080",} requests.get("http://example.org", proxies=proxies) 我的第一个问题是,为什么 "https": "http://10.10.1.10:1080" 这里对应的ip前面不是https而也是用http呢? 另外,我爬取了http://www.xsdaili.com 上的代理,按照上面的方式通过访问https://httpbin.org/get 验证,但是结果都是代理无法访问(代码如下,d\_ip是示例,实际抓取的ip请见附件)不知道是不是代理的用法有问题。还是所有的代理都无效... 编程新手,对于web相关知识也很有限。希望各位能帮忙解答。 谢谢! import random import requests d_ip = {"https": [ "47.112.200.175:8000", "121.237.149.33:3000", "123.149.136.43:9999"]} headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36'} proxies = {"https" : "http://" + random.choice(d_ip["https"])} r = requests.get("https://httpbin.org/get", headers=headers, proxies=proxies) # 错误如下 ProxyError: HTTPSConnectionPool(host='httpbin.org', port=443): Max retries exceeded with url: /get (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.VerifiedHTTPSConnection object at 0x000001E87F7E7F28>: Failed to establish a new connection: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。')))
robot framework 用requests.get发送HTTPS请求偶发ssl报错
SSLError: HTTPSConnectionPool(host='xxx', port=443): Max retries exceeded with url: xxxxxxxxxxxxxx (Caused by SSLError(SSLEOFError(8, u'EOF occurred in violation of protocol (_ssl.c:579)'),))
python3.8,也安装了requests库,代码哪里出错了,为什么爬取失败
import requests url = "https://m.ip138.com/ip.asp?ip=" try: r = requests.get(url+'202.204.80.112') r.raise_for_status() r.encoding = r.apparent_encoding print(r.text[-500:]) except: print("爬取失败")
动态规划入门到熟悉,看不懂来打我啊
持续更新。。。。。。 2.1斐波那契系列问题 2.2矩阵系列问题 2.3跳跃系列问题 3.1 01背包 3.2 完全背包 3.3多重背包 3.4 一些变形选讲 2.1斐波那契系列问题 在数学上,斐波纳契数列以如下被以递归的方法定义:F(0)=0,F(1)=1, F(n)=F(n-1)+F(n-2)(n&gt;=2,n∈N*)根据定义,前十项为1, 1, 2, 3...
程序员,职场上请远离这种人!
对有些职场人来讲,甩锅就是一种生存手段。01.从大学打篮球说起上大学的时候喜欢打篮球,然后我又特别喜欢抢篮板,经常是跳起来的时候没事,落下来的时候偶尔会踩到别人的脚上,于...
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私...
对计算机专业来说学历真的重要吗?
我本科学校是渣渣二本,研究生学校是985,现在毕业五年,校招笔试、面试,社招面试参加了两年了,就我个人的经历来说下这个问题。 这篇文章很长,但绝对是精华,相信我,读完以后,你会知道学历不好的解决方案,记得帮我点赞哦。 先说结论,无论赞不赞同,它本质就是这样:对于技术类工作而言,学历五年以内非常重要,但有办法弥补。五年以后,不重要。 目录: 张雪峰讲述的事实 我看到的事实 为什么会这样 ...
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过
Python——画一棵漂亮的樱花树(不同种樱花+玫瑰+圣诞树喔)
最近翻到一篇知乎,上面有不少用Python(大多是turtle库)绘制的树图,感觉很漂亮,我整理了一下,挑了一些我觉得不错的代码分享给大家(这些我都测试过,确实可以生成) one 樱花树 动态生成樱花 效果图(这个是动态的): 实现代码 import turtle as T import random import time # 画樱花的躯干(60,t) def Tree(branch, ...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
一个读研让我损失了一百万的真实故事
关注我!只要10分钟,包你学会数据分析 毕业后,应该就业还是考研? 我刚出国留学那会儿,就惊讶的发现,外国local95%都不会选择读研 他们说,硕士学费很贵,时间宝贵,老板不认,所以很费 当几乎所有人都是本科学历时,硕士学历反而像个异类 在老板眼里,三年硕士远远不如3年的工作经验实用 他们甚至专门为拒绝高学历者发明了一个词,叫overoccupie...
Python 植物大战僵尸代码实现(2):植物卡片选择和种植
这篇文章要介绍的是: - 上方植物卡片栏的实现。 - 点击植物卡片,鼠标切换为植物图片。 - 鼠标移动时,判断当前在哪个方格中,并显示半透明的植物作为提示。
西游记团队中如果需要裁掉一个人,会先裁掉谁?
2019年互联网寒冬,大批企业开始裁员,下图是网上流传的一张截图: 裁员不可避免,那如何才能做到不管大环境如何变化,自身不受影响呢? 我们先来看一个有意思的故事,如果西游记取经团队需要裁员一名,会裁掉谁呢,为什么? 西游记团队组成: 1.唐僧 作为团队teamleader,有很坚韧的品性和极高的原则性,不达目的不罢休,遇到任何问题,都没有退缩过,又很得上司支持和赏识(直接得到唐太宗的任命,既给
shell脚本:备份数据库、代码上线
备份MySQL数据库 场景: 一台MySQL服务器,跑着5个数据库,在没有做主从的情况下,需要对这5个库进行备份 需求: 1)每天备份一次,需要备份所有的库 2)把备份数据存放到/data/backup/下 3)备份文件名称格式示例:dbname-2019-11-23.sql 4)需要对1天以前的所有sql文件压缩,格式为gzip 5)本地数据保留1周 6)需要把备份的数据同步到远程备份中心,假如...
聊聊C语言和指针的本质
坐着绿皮车上海到杭州,24块钱,很宽敞,在火车上非正式地聊几句。 很多编程语言都以 “没有指针” 作为自己的优势来宣传,然而,对于C语言,指针却是与生俱来的。 那么,什么是指针,为什么大家都想避开指针。 很简单, 指针就是地址,当一个地址作为一个变量存在时,它就被叫做指针,该变量的类型,自然就是指针类型。 指针的作用就是,给出一个指针,取出该指针指向地址处的值。为了理解本质,我们从计算机模型说起...
为什么你学不过动态规划?告别动态规划,谈谈我的经验
动态规划难吗?说实话,我觉得很难,特别是对于初学者来说,我当时入门动态规划的时候,是看 0-1 背包问题,当时真的是一脸懵逼。后来,我遇到动态规划的题,看的懂答案,但就是自己不会做,不知道怎么下手。就像做递归的题,看的懂答案,但下不了手,关于递归的,我之前也写过一篇套路的文章,如果对递归不大懂的,强烈建议看一看:为什么你学不会递归,告别递归,谈谈我的经验 对于动态规划,春招秋招时好多题都会用到动态...
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外...
字节跳动面试官这样问消息队列:分布式事务、重复消费、顺序消费,我整理了一下
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式和人才交流群,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸...
如何安装 IntelliJ IDEA 最新版本——详细教程
IntelliJ IDEA 简称 IDEA,被业界公认为最好的 Java 集成开发工具,尤其在智能代码助手、代码自动提示、代码重构、代码版本管理(Git、SVN、Maven)、单元测试、代码分析等方面有着亮眼的发挥。IDEA 产于捷克,开发人员以严谨著称的东欧程序员为主。IDEA 分为社区版和付费版两个版本。 我呢,一直是 Eclipse 的忠实粉丝,差不多十年的老用户了。很早就接触到了 IDEA...
面试还搞不懂redis,快看看这40道面试题(含答案和思维导图)
Redis 面试题 1、什么是 Redis?. 2、Redis 的数据类型? 3、使用 Redis 有哪些好处? 4、Redis 相比 Memcached 有哪些优势? 5、Memcache 与 Redis 的区别都有哪些? 6、Redis 是单进程单线程的? 7、一个字符串类型的值能存储最大容量是多少? 8、Redis 的持久化机制是什么?各自的优缺点? 9、Redis 常见性...
大学四年自学走来,这些珍藏的「实用工具/学习网站」我全贡献出来了
知乎高赞:文中列举了互联网一线大厂程序员都在用的工具集合,涉及面非常广,小白和老手都可以进来看看,或许有新收获。
为什么要推荐大家学习字节码?
配套视频: 为什么推荐大家学习Java字节码 https://www.bilibili.com/video/av77600176/ 一、背景 本文主要探讨:为什么要学习 JVM 字节码? 可能很多人会觉得没必要,因为平时开发用不到,而且不学这个也没耽误学习。 但是这里分享一点感悟,即人总是根据自己已经掌握的知识和技能来解决问题的。 这里有个悖论,有时候你觉得有些技术没用恰恰是...
【超详细分析】关于三次握手与四次挥手面试官想考我们什么?
在面试中,三次握手和四次挥手可以说是问的最频繁的一个知识点了,我相信大家也都看过很多关于三次握手与四次挥手的文章,今天的这篇文章,重点是围绕着面试,我们应该掌握哪些比较重要的点,哪些是比较被面试官给问到的,我觉得如果你能把我下面列举的一些点都记住、理解,我想就差不多了。 三次握手 当面试官问你为什么需要有三次握手、三次握手的作用、讲讲三次三次握手的时候,我想很多人会这样回答: 首先很多人会先讲下握...
压测学习总结(1)——高并发性能指标:QPS、TPS、RT、吞吐量详解
一、QPS,每秒查询 QPS:Queries Per Second意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。互联网中,作为域名系统服务器的机器的性能经常用每秒查询率来衡量。 二、TPS,每秒事务 TPS:是TransactionsPerSecond的缩写,也就是事务数/秒。它是软件测试结果的测量单位。一个事务是指一...
新程序员七宗罪
当我发表这篇文章《为什么每个工程师都应该开始考虑开发中的分析和编程技能呢?》时,我从未想到它会对读者产生如此积极的影响。那些想要开始探索编程和数据科学领域的人向我寻求建议;还有一些人问我下一篇文章的发布日期;还有许多人询问如何顺利过渡到这个职业。我非常鼓励大家继续分享我在这个旅程的经验,学习,成功和失败,以帮助尽可能多的人过渡到一个充满无数好处和机会的职业生涯。亲爱的读者,谢谢你。 -罗伯特。 ...
2019年Spring Boot面试都问了什么?快看看这22道面试题!
Spring Boot 面试题 1、什么是 Spring Boot? 2、Spring Boot 有哪些优点? 3、什么是 JavaConfig? 4、如何重新加载 Spring Boot 上的更改,而无需重新启动服务器? 5、Spring Boot 中的监视器是什么? 6、如何在 Spring Boot 中禁用 Actuator 端点安全性? 7、如何在自定义端口上运行 Sprin...
【图解】记一次手撕算法面试:字节跳动的面试官把我四连击了
字节跳动这家公司,应该是所有秋招的公司中,对算法最重视的一个了,每次面试基本都会让你手撕算法,今天这篇文章就记录下当时被问到的几个算法题,并且每个算法题我都详细着给出了最优解,下面再现当时的面试场景。看完一定让你有所收获 一、小牛试刀:有效括号 大部分情况下,面试官都会问一个不怎么难的问题,不过你千万别太开心,因为这道题往往可以拓展出更多有难度的问题,或者一道题看起来很简单,但是给出最优解,确实很...
面试官:关于Java性能优化,你有什么技巧
通过使用一些辅助性工具来找到程序中的瓶颈,然后就可以对瓶颈部分的代码进行优化。 一般有两种方案:即优化代码或更改设计方法。我们一般会选择后者,因为不去调用以下代码要比调用一些优化的代码更能提高程序的性能。而一个设计良好的程序能够精简代码,从而提高性能。 下面将提供一些在JAVA程序的设计和编码中,为了能够提高JAVA程序的性能,而经常采用的一些方法和技巧。 1.对象的生成和大小的调整。 J...
【图解算法面试】记一次面试:说说游戏中的敏感词过滤是如何实现的?
版权声明:本文为苦逼的码农原创。未经同意禁止任何形式转载,特别是那些复制粘贴到别的平台的,否则,必定追究。欢迎大家多多转发,谢谢。 小秋今天去面试了,面试官问了一个与敏感词过滤算法相关的问题,然而小秋对敏感词过滤算法一点也没听说过。于是,有了下下事情的发生… 面试官开怼 面试官:玩过王者荣耀吧?了解过敏感词过滤吗?,例如在游戏里,如果我们发送“你在干嘛?麻痹演员啊你?”,由于“麻痹”是一个敏感词,...
GitHub 标星 1.6w+,我发现了一个宝藏项目,作为编程新手有福了!
大家好,我是 Rocky0429,一个最近老在 GitHub 上闲逛的蒟蒻… 特别惭愧的是,虽然我很早就知道 GitHub,但是学会逛 GitHub 的时间特别晚。当时一方面是因为菜,看着这种全是英文的东西难受,不知道该怎么去玩,另一方面是一直在搞 ACM,没有做一些工程类的项目,所以想当然的以为和 GitHub 也没什么关系(当然这种想法是错误的)。 后来自己花了一个星期看完了 Pyt...
杭漂程序员2019的心路历程,还不起助学贷款,交不起房租,披荆斩棘终雨过天晴
一个杭漂2019的心酸历程,一路披荆斩棘终于还是雨过天晴。
我采访了同事,让他掏出了每天都会浏览的干货网站
前言只有光头才能变强。文本已收录至我的GitHub精选文章,欢迎Star:https://github.com/ZhongFuCheng3y/3y在周六的晚上,我日常去到公司写文章。想写...
相关热词 c#如何定义数组列表 c#倒序读取txt文件 java代码生成c# c# tcp发送数据 c#解决时间格式带星期 c#类似hashmap c#设置istbox的值 c#获取多线程返回值 c# 包含数字 枚举 c# timespan
立即提问

相似问题

1
robot framework 用requests.get发送HTTPS请求偶发ssl报错
1
求助关于python requests.post文件上传的问题?谢谢
1
python requests.get得到的中文编码错误
2
用requests_html包爬取网页数据时session.get()缺少位置参数
3
python使用requests.get时,请求头的cookie是随机变化的,该怎么写请求头?
0
使用requests_html库时。 .html 报黄,显示错误,不自动弹出,有大神知道是因为什么吗
2
【django】关于request.POST[]和request.POST.get()的问题
1
在火狐上可以看到有响应,但是为何requests的get得到的text为空
1
初学爬虫,requests抓取不到网页
1
想请教一下使用selenium请求网页和requests.get 获取网页的区别
0
使用Docker创建镜像时,requests.get超时的问题
3
python 用request.get()方法得到的代码与浏览器中的代码不一样,关键要的数据都没有,望大神指点
2
爬虫返回的response内容完整,但是用etree.HTML解析后,内容就变少了,导致不能用xpath定位,是为啥?
1
requests安装好,但是执行r = requests.get("https://www.baidu.com")时出问题。
1
requests已经安装好,但是执行 r = requests.get("http://www.baidu.com")后出现以下提示
0
Python获取网页所有链接数时,python r.html.links与BeautifulSoup两种方法查找所得链接数不同?
1
【Python】在使用导入的requests_html包时,在pycharm中没有代码提示
1
请问以下爬虫程序错在哪里,爬取到的数据存不进MQSQL数据库
2
爬虫遇到的困难,反 爬 取 为什么会出像这样的问题?
0
django 在if语句中判断之后return render报错