用Python的requests.get获取网页源代码出现ConnectionError 1C

如下为具体报错:
requests.exceptions.ConnectionError: HTTPConnectionPool(host='seth_shy', port=80): Max retries exceeded with url: http://www.jikexueyuan.com/ (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError(': Failed to establish a new connection: [Errno 11004] getaddrinfo failed',)))

4个回答

这个估计是电脑的系统安全限制的原因,我用的是公司的电脑,如果不加公司的代理就是访问不了的。

代理连不上 或者你的目标机器访问不了

qq_34358013
qq_34358013 网络什么的都没有问题,网站也没有问题
接近 4 年之前 回复
qq_34358013
qq_34358013 那请问要怎么修复呢?
接近 4 年之前 回复

用神箭手云爬虫吧,自带高匿ip代理。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
用Python的requests.get获取网页源代码出现ProxyError
具体报错如下:求大神们解答 ProxyError: HTTPConnectionPool(host='138.128.220.192', port=80): Max retries exceeded with url: http://fujianzhuneng.gotoip11.com/ (Caused by ProxyError('Cannot connect to proxy.', NewConnectionError('<urllib3.connection.HTTPConnection object at 0x00000000070DDFD0>: Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接。',)))
想请教一下使用selenium请求网页和requests.get 获取网页的区别
最近刚开始学习selenium,想知道自己的理解对不对,使用selenium模拟登录网页的话可以直接去搜索网页检查里面出现的内容,是经json等文件渲染之后的网页,而requests获取的网页是网页源代码?是这样的区别吗 不知道自己的理解对不对。
python requests.get得到的中文编码错误
在练习爬虫的时候requests.get一个网站 打印出来的得到的text中文是 &#x 5BF6;&#x 8C9D;&#x 9F8D;的(为了防止网页自动编码在&#x后面敲了空格)。其他网站都能正常显示 。 找了很多方法都没法普通的显示成中文。 代码 ``` import requests import chardet response = requests.get("https://store.playstation.com/zh-hant-hk/grid/STORE-MSF86012-SPECIALOFFER/1?smcid=hk-chs_ps%3Acom_header") print(response.text) ```
python使用requests.get时,请求头的cookie是随机变化的,该怎么写请求头?
例如以下是请求的url: http://search.10jqka.com.cn/stockpick/search?typed=0&preParams=&ts=1&f=1&qs=result_original&selfsectsn=&querytype=stock&searchfilter=&tid=stockpick&w=%E5%B8%82%E7%9B%88%E7%8E%87%E5%A4%A7%E4%BA%8E%E7%AD%89%E4%BA%8E21%E5%80%8D%E4%B8%94%E5%B8%82%E7%9B%88%E7%8E%87%E5%B0%8F%E4%BA%8E%E7%AD%89%E4%BA%8E22%E5%80%8D&queryarea= 以下请求头: Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8 Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,ja;q=0.7,zh-TW;q=0.6,vi;q=0.5 Cache-Control: max-age=0 Connection: keep-alive Cookie: Hm_lvt_78c58f01938e4d85eaf619eae71b4ed1=1550575085,1552764171; PHPSESSID=e9cddc3108ec629d2db0c2f2e30ce810; cid=e9cddc3108ec629d2db0c2f2e30ce8101552829178; ComputerID=e9cddc3108ec629d2db0c2f2e30ce8101552829178; other_uid=ths_mobile_iwencai_2e6c84325ffc4a0b201b430c00d1df46; iwencaisearchquery=%E8%BF%9E%E7%BB%AD15%E5%B9%B4%E6%89%A3%E9%9D%9E%E5%87%80%E5%88%A9%E6%B6%A6%E5%A4%A7%E4%BA%8E0%20%E5%B8%82%E5%87%80%E7%8E%87%E4%BD%8E%E4%BA%8E2%20roe%E9%AB%98%E4%BA%8E10%25%20%E5%B8%82%E7%9B%88%E7%8E%87%E4%BD%8E%E4%BA%8E20; guideState=1; Hm_lpvt_78c58f01938e4d85eaf619eae71b4ed1=1552835669; v=AoFMlTW5uV-o89Vrfg5AnBoTkMaYrvY4Hy-ZvOPWfVvmsa8wK_4FcK9yqbBw Host: search.10jqka.com.cn Referer: http://search.10jqka.com.cn/stockpick/search?typed=1&preParams=&ts=1&f=1&qs=result_rewrite&selfsectsn=&querytype=stock&searchfilter=&tid=stockpick&w=%E5%B8%82%E7%9B%88%E7%8E%87%E5%A4%A7%E4%BA%8E%E7%AD%89%E4%BA%8E21%E5%80%8D%E4%B8%94%E5%B8%82%E7%9B%88%E7%8E%87%E5%B0%8F%E4%BA%8E%E7%AD%89%E4%BA%8E22%E5%80%8D&queryarea= Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36 我的代码: r=requests.get(myurl,headers=myheader) 其中myurl就是上面要请求的url,myheader就是上面的请求头 如果请求头里不包含cookie,那么r.text的结果就显示异常,根本不是我想要的信息: ![图片说明](https://img-ask.csdn.net/upload/201903/18/1552889612_367617.jpg) 若是请求头里包含了cookie,那么r.text就显示正常(正常的我就不列出来了)。但问题来了:这个cookie是随机没有规律的,而且过一段时间就失效,而且好像我打开新的网页也会重置什么的,那我怎么才能写请求头呢?
求教python requests.get中传多个UA的问题
如题。 因为被重定向,所以写了用多个UA来获取网页源码,不是很清楚是不是只要在header中写个UA字典然后request.get方法就会在获取网页源码的时候自己从几个UA中随机选一个(像proxies?),还是还需要手动写random函数? 另,如果在header中写了几个UA,然后还加上referer可以吗? 就是像下面这样写: ``` header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_3) AppleWebKit/601.4.4 (KHTML, like Gecko) Version/9.0.3 Safari/601.4.4', 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', 'User-Agent':'Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11', 'User-Agent':' Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11', 'referer':'https://www.taobao.com/' } ..... html = requests.get(url,headers = header,cookies = cookie,proxies = proxies) ``` 谢谢!
使用Docker创建镜像时,requests.get超时的问题
我们使用Docker创建多个ip结点,进行实验时,有一步调用了requests.get函数,结果发现超时。相关程序如下(语言为python): ``` response = requests.get(f'http://{node}/transactions/received',timeout = 1) ``` 异常为:requests.exceptions.ConnectTimeout 我们创建端口使用的是flask包,该网址的定义如下: ``` @app.route('/transactions/received', methods=['GET']) def received_transaction(): response = {'received_transaction': blockchain.received_transaction,} return jsonify(response), 201 ``` 由于不用Docker,直接运行程序创建结点时执行顺利。因此推断程序无误,而是Docker配置上出现了问题。 Docker创建网络的命令大致如下: docker run --rm -p $1001:$5000 --net blockchain1 --name node1 --ip $1.0.0.10 cjkdblockchain 不知道为什么requests.get会超时,请大家指教,谢谢!
requests已经安装好,但是执行 r = requests.get("http://www.baidu.com")后出现以下提示
requests已经安装好,但是执行 r = requests.get("http://www.baidu.com")后出现以下提示,要怎么设置才能正常获取网页信息 >>> r = requests.get("http://www.baidu.com") Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 597, in urlopen self._prepare_proxy(conn) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 807, in _prepare_proxy conn.connect() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connection.py", line 370, in connect ssl_context=context) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\ssl_.py", line 355, in ssl_wrap_socket return context.wrap_socket(sock, server_hostname=server_hostname) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 407, in wrap_socket _context=self, _session=session) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 814, in __init__ self.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 1068, in do_handshake self._sslobj.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 689, in do_handshake self._sslobj.do_handshake() ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 449, in send timeout=timeout File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 641, in urlopen _stacktrace=sys.exc_info()[2]) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\retry.py", line 399, in increment raise MaxRetryError(_pool, url, error or ResponseError(cause)) urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),)) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "<pyshell#3>", line 1, in <module> r = requests.get("http://www.baidu.com") File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 75, in get return request('get', url, params=params, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 60, in request return session.request(method=method, url=url, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 533, in request resp = self.send(prep, **send_kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in send history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in <listcomp> history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 247, in resolve_redirects **adapter_kwargs File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 646, in send r = adapter.send(request, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 514, in send raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),)) 但是执行>>> r = requests.get("http://www.126.com")是正常的 >>> print(r.status_code) 200 >>> r.text
求助 python爬虫 requests的get出现10054错误 远程主机强迫关闭了一个现有的连接
这个爬的是智联的招聘信息,在爬了上千条数据后就容易出现这个错误。 Traceback (most recent call last): File "G:/python/zhilian_crawler/crawler3.py", line 284, in <module> get_more_page(1,91) File "G:/python/zhilian_crawler/crawler3.py", line 170, in get_more_page get_page(url+str(one)) File "G:/python/zhilian_crawler/crawler3.py", line 28, in get_page get_more_data(soup) File "G:/python/zhilian_crawler/crawler3.py", line 159, in get_more_data webData=requests.get(url0) File "D:\Python3\lib\requests\api.py", line 70, in get return request('get', url, params=params, **kwargs) File "D:\Python3\lib\requests\api.py", line 56, in request return session.request(method=method, url=url, **kwargs) File "D:\Python3\lib\requests\sessions.py", line 475, in request resp = self.send(prep, **send_kwargs) File "D:\Python3\lib\requests\sessions.py", line 596, in send r = adapter.send(request, **kwargs) File "D:\Python3\lib\requests\adapters.py", line 473, in send raise ConnectionError(err, request=request) requests.exceptions.ConnectionError: ('Connection aborted.', ConnectionResetError(10054, '远程主机强迫关闭了一个现有的连接。', None, 10054, None))
爬取下来的网页命名为wb_data,为什么wb_data.text与网页源代码内容不一样?
问题如题,我是小白,我看视频里面老师通过‘检查元素’定位元素在源代码中的位置,然后根据代码标签写selector,写代码,一运行就能得到想要的标签元素。我照着模仿,为什么结果为空,我最后发现我的wb_data.text与网页源代码有差别,我就想知道,为什么不一样?为什么视频中老师好像不会有这样的问题?下面是我的过程。 1. 我先打开要爬取的网页 2. 找到目标,点击检查元素定位其在网页代码中的位置 3. 观察,写selector ![图片说明](https://img-ask.csdn.net/upload/201905/16/1557987404_979682.jpg) 4. 写代码 ``` from bs4 import BeautifulSoup import requests url = 'http://www.gov.cn/' wb_data = requests.get(url) soup = BeautifulSoup(wb_data.text, 'lxml') title = soup.select('div.footer-all > ul.footer-two > li > a') print(title) ``` 最后结果: ![图片说明](https://img-ask.csdn.net/upload/201905/16/1557988148_959585.jpg) 希望有大佬帮忙解答下,谢谢。
写爬虫时,需要的html和用requests.get返回的html不一样导致无法进行下一步,请问怎么解决??
我是用的谷歌浏览器,按f12后经过对比,我发现我代码requests.get返回的是——sources里面的html文本,但我想要的是element里面的html文本,怎么才能返回正确的html呢? ↓这是我想要找的: ![图片说明](https://img-ask.csdn.net/upload/202001/03/1578030348_961781.png) 但是返回的却是这个: ![图片说明](https://img-ask.csdn.net/upload/202001/03/1578030443_120256.png) 然后我写的代码是这个: ![图片说明](https://img-ask.csdn.net/upload/202001/03/1578030526_780774.png) 请问该怎么解决这种情况呢??
python requests.get(url) 采集网页中文乱码问题。
![图片说明](https://img-ask.csdn.net/upload/201703/09/1489039070_401640.jpg) 如图:这个编码怎么解决,
requests安装好,但是执行r = requests.get("https://www.baidu.com")时出问题。
当在python 自带的IDE里输入r = requests.get("https://www.baidu.com")时出出以下提示,要怎么设置才能正常获取 >>> r = requests.get("http://www.baidu.com") Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 597, in urlopen self._prepare_proxy(conn) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 807, in _prepare_proxy conn.connect() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connection.py", line 370, in connect ssl_context=context) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\ssl_.py", line 355, in ssl_wrap_socket return context.wrap_socket(sock, server_hostname=server_hostname) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 407, in wrap_socket _context=self, _session=session) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 814, in __init__ self.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 1068, in do_handshake self._sslobj.do_handshake() File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\ssl.py", line 689, in do_handshake self._sslobj.do_handshake() ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 449, in send timeout=timeout File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\connectionpool.py", line 641, in urlopen _stacktrace=sys.exc_info()[2]) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\urllib3\util\retry.py", line 399, in increment raise MaxRetryError(_pool, url, error or ResponseError(cause)) urllib3.exceptions.MaxRetryError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),)) During handling of the above exception, another exception occurred: Traceback (most recent call last): File "<pyshell#3>", line 1, in <module> r = requests.get("http://www.baidu.com") File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 75, in get return request('get', url, params=params, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\api.py", line 60, in request return session.request(method=method, url=url, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 533, in request resp = self.send(prep, **send_kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in send history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 668, in <listcomp> history = [resp for resp in gen] if allow_redirects else [] File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 247, in resolve_redirects **adapter_kwargs File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\sessions.py", line 646, in send r = adapter.send(request, **kwargs) File "C:\Users\Administrator\AppData\Local\Programs\Python\Python36-32\lib\site-packages\requests\adapters.py", line 514, in send raise SSLError(e, request=request) requests.exceptions.SSLError: HTTPSConnectionPool(host='www.baidu.com', port=443): Max retries exceeded with url: /?tn=56080572_10_hao_pg (Caused by SSLError(SSLError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)'),))
python 用request.get()方法得到的代码与浏览器中的代码不一样,关键要的数据都没有,望大神指点
import requests import re from bs4 import BeautifulSoup import time header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'} res=requests.get('https://y.qq.com/n/yqq/toplist/26.html#t1=2019&t2=20&t3=song&t4=1&t5=1',headers=header) soup=BeautifulSoup(res.text,'lxml') print(soup) 这是QQ音乐的官方网站,想从中得到歌曲的信息,用这个方法得到的代码比浏览器中代码缺少很多,没去歌曲的信息,只有一些界面的代码
python用requests模块的get方法以及urllib模块的urlopen方法获取状态码
小白用过requests模块的get方法以及urllib模块的urlopen方法获取状态码,可是有时访问一个不存在的url,进程被挂起,python程序就会终止,出现“[WinError 10054] 远程主机强迫关闭了一个现有的连接”这样的错误,我改怎么处理这种问题 还有为什么返回值只有404和200?其他的比如在检查元素中显示的302,方法里依然返回200,我怎么样才能让它如实返回302呢 ![图片说明](https://img-ask.csdn.net/upload/202002/14/1581653848_789590.png)
求助关于python requests.post文件上传的问题?谢谢
不理解requests.post上传文件是什么意思,求帮助。 例如代码: >>> import requests >>> files = {'file':open(r'C:\Users\Desktop\001.jpg','rb')} >>> response = requests.post('http://www.baidu.com',files=files) >>> print(response.text) 这时有返回结果的,但是有137行,没有粘上。 问题1:这里是上传这个图片文件是什么意思,是在百度首页文本输入框传入一张图片,然后点回车搜索吗? 问题2:这个上传有什么作用吗?实际并看不到将图片上传到哪里了?
使用python requests 利用代理 爬取网站内容时候,返回的网页内容是代理ip的网站内容
proxies={ "http": "http://61.135.217.7:80", "https":"https://113.108.130.210:808" } 请求方式: requests.get(url="a 网址",proxies=proxies} 代理ip来源于 http://www.xicidaili.com/nn/ 按照这样的格式爬取的数据,结果爬取的到的内容不是a网址的内容,而是代理中 ['http']的代理的网页内容。 如果 requests.get(url="a 网址",proxies=None} 不使用代理,则可以获取到网页的正确的内容? 不知道怎么回事
使用Pyhton 的requests.get()的时候遇到个技术难题,有经验的大牛请进。
最近,我们学校采用了一款微信公众号用于抢座,但是每次到时间抢座时间点 就出错,因此我就准备使用Python自动抢座:<br><br> 进入抢座页面,通过fidder抓包时候,发现其通过楼层座位坐标来发送一个get 请求如下(蓝色上面那个url):<br><br> ![图片说明](https://img-ask.csdn.net/upload/201812/26/1545819485_184502.png) <br><br> 10073&代表楼层,接着后面的一串英文字母竟然是随机生成的,从10073&一直到=13,12之前都是自动生成:psH4nFZwbz 每次提交座位都会改变,因此我无法把正确的url 提交服务器占位。 我仔细琢磨了下,其并没有异步数据给后台服务器,我猜想是使用js,就爬取他的js发现有以下代码:<br> ![图片说明](https://img-ask.csdn.net/upload/201812/26/1545819836_639462.png)<br> <br> ![图片说明](https://img-ask.csdn.net/upload/201812/26/1545819854_112927.png)<br> 前者官方定义一个函数,使得在触发函数时重新给 url赋值,新url带有随机生成 的字符串,也就是上述所说的随机字母, 后是“确定选座按钮”点击时触发该函数。 <br> 因为我是用Python的requests发送请求,不能操作js生成的url。<br> 注:学校公众号是微信内置浏览器才能打开,需要定义请求头和weChatSESS Cookie,才能浏览,否则被重定向。 我实在没办法解决这个技术问题,请问我该怎么办? 真的非常感谢。
Python获取网页所有链接数时,python r.html.links与BeautifulSoup两种方法查找所得链接数不同?
bs4方法: ``` import requests from bs4 import BeautifulSoup url="http://www.baidu.com" r=requests.get(url) soup=BeautifulSoup(r.text,'html.parser') num=0 for link in soup.find_all("a"): print(link.get('href')) num=num+1 print(num) ``` 输出结果为11个链接 r.html.links方法 ``` from requests_html import HTMLSession session=HTMLSession() url="http://www.baidu.com" r=session.get(url) num=0 for link in r.html.links: print(link) num=num+1 print(num) ``` 输出结果为26个链接
【Python】在使用导入的requests_html包时,在pycharm中没有代码提示
在网上学习了一下爬虫,学习到的代码有一段大概是: ```python from requests_html import HTMLSession session = HTMLSession() browser = session.get('某个专门搜索壁纸的网站') images = browser.html.find('ul.clearfix > li > a') ``` **(而且一开始输入.html,这个html还会报warning,说是未被解析的类的属性)** ![](https://img-ask.csdn.net/upload/201909/14/1568472964_284243.png) 这里为什么没有.html的提示(find也没有)?能设置出来吗? 还有在获取图片属性为href的url时: ```python for image in images: image_url = image.attrs['href'] ``` 这里的image.attrs也没有提示,一般在使用时有代码提示就会很方便,而且对于新的东西也感觉很容易上手,虽然这些东西在[官方手册](http://html.python-requests.org/)中也有,但如果能设置出来的话还是会很好的,求指教,非常感谢
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私...
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小人工智障。 思路可以运用在不同地方,主要介绍的是思路。
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1...
阿里面试官问我:如何设计秒杀系统?我的回答让他比起大拇指
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图和个人联系方式,欢迎Star和指教 前言 Redis在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在Redis的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸,打败了...
C语言魔塔游戏
很早就很想写这个,今天终于写完了。 游戏截图: 编译环境: VS2017 游戏需要一些图片,如果有想要的或者对游戏有什么看法的可以加我的QQ 2985486630 讨论,如果暂时没有回应,可以在博客下方留言,到时候我会看到。 下面我来介绍一下游戏的主要功能和实现方式 首先是玩家的定义,使用结构体,这个名字是可以自己改变的 struct gamerole { char n...
面试官问我:什么是消息队列?什么场景需要他?用了会出现什么问题?
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式和人才交流群,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸...
Android性能优化(4):UI渲染机制以及优化
文章目录1. 渲染机制分析1.1 渲染机制1.2 卡顿现象1.3 内存抖动2. 渲染优化方式2.1 过度绘制优化2.1.1 Show GPU overdraw2.1.2 Profile GPU Rendering2.2 卡顿优化2.2.1 SysTrace2.2.2 TraceView 在从Android 6.0源码的角度剖析View的绘制原理一文中,我们了解到View的绘制流程有三个步骤,即m...
微服务中的Kafka与Micronaut
今天,我们将通过Apache Kafka主题构建一些彼此异步通信的微服务。我们使用Micronaut框架,它为与Kafka集成提供专门的库。让我们简要介绍一下示例系统的体系结构。我们有四个微型服务:订单服务,行程服务,司机服务和乘客服务。这些应用程序的实现非常简单。它们都有内存存储,并连接到同一个Kafka实例。 我们系统的主要目标是为客户安排行程。订单服务应用程序还充当网关。它接收来自客户的请求...
致 Python 初学者们!
作者| 许向武 责编 | 屠敏 出品 | CSDN 博客 前言 在 Python 进阶的过程中,相信很多同学应该大致上学习了很多 Python 的基础知识,也正在努力成长。在此期间,一定遇到了很多的困惑,对未来的学习方向感到迷茫。我非常理解你们所面临的处境。我从2007年开始接触 Python 这门编程语言,从2009年开始单一使用 Python 应对所有的开发工作,直至今...
究竟你适不适合买Mac?
我清晰的记得,刚买的macbook pro回到家,开机后第一件事情,就是上了淘宝网,花了500元钱,找了一个上门维修电脑的师傅,上门给我装了一个windows系统。。。。。。 表砍我。。。 当时买mac的初衷,只是想要个固态硬盘的笔记本,用来运行一些复杂的扑克软件。而看了当时所有的SSD笔记本后,最终决定,还是买个好(xiong)看(da)的。 已经有好几个朋友问我mba怎么样了,所以今天尽量客观...
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外...
字节跳动面试官这样问消息队列:分布式事务、重复消费、顺序消费,我整理了一下
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式和人才交流群,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸...
Python爬虫爬取淘宝,京东商品信息
小编是一个理科生,不善长说一些废话。简单介绍下原理然后直接上代码。 使用的工具(Python+pycharm2019.3+selenium+xpath+chromedriver)其中要使用pycharm也可以私聊我selenium是一个框架可以通过pip下载 pip installselenium -ihttps://pypi.tuna.tsinghua.edu.cn/simple/ ...
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
这种新手都不会范的错,居然被一个工作好几年的小伙子写出来,差点被当场开除了。
Java工作4年来应聘要16K最后没要,细节如下。。。
前奏: 今天2B哥和大家分享一位前几天面试的一位应聘者,工作4年26岁,统招本科。 以下就是他的简历和面试情况。 基本情况: 专业技能: 1、&nbsp;熟悉Sping了解SpringMVC、SpringBoot、Mybatis等框架、了解SpringCloud微服务 2、&nbsp;熟悉常用项目管理工具:SVN、GIT、MAVEN、Jenkins 3、&nbsp;熟悉Nginx、tomca...
SpringBoot2.x系列教程(三十六)SpringBoot之Tomcat配置
Spring Boot默认内嵌的Tomcat为Servlet容器,关于Tomcat的所有属性都在ServerProperties配置类中。同时,也可以实现一些接口来自定义内嵌Servlet容器和内嵌Tomcat等的配置。 关于此配置,网络上有大量的资料,但都是基于SpringBoot1.5.x版本,并不适合当前最新版本。本文将带大家了解一下最新版本的使用。 ServerProperties的部分源...
Python绘图,圣诞树,花,爱心 | Turtle篇
每周每日,分享Python实战代码,入门资料,进阶资料,基础语法,爬虫,数据分析,web网站,机器学习,深度学习等等。 公众号回复【进群】沟通交流吧,QQ扫码进群学习吧 微信群 QQ群 1.画圣诞树 import turtle screen = turtle.Screen() screen.setup(800,600) circle = turtle.Turtle()...
作为一个程序员,CPU的这些硬核知识你必须会!
CPU对每个程序员来说,是个既熟悉又陌生的东西? 如果你只知道CPU是中央处理器的话,那可能对你并没有什么用,那么作为程序员的我们,必须要搞懂的就是CPU这家伙是如何运行的,尤其要搞懂它里面的寄存器是怎么一回事,因为这将让你从底层明白程序的运行机制。 随我一起,来好好认识下CPU这货吧 把CPU掰开来看 对于CPU来说,我们首先就要搞明白它是怎么回事,也就是它的内部构造,当然,CPU那么牛的一个东...
破14亿,Python分析我国存在哪些人口危机!
一、背景 二、爬取数据 三、数据分析 1、总人口 2、男女人口比例 3、人口城镇化 4、人口增长率 5、人口老化(抚养比) 6、各省人口 7、世界人口 四、遇到的问题 遇到的问题 1、数据分页,需要获取从1949-2018年数据,观察到有近20年参数:LAST20,由此推测获取近70年的参数可设置为:LAST70 2、2019年数据没有放上去,可以手动添加上去 3、将数据进行 行列转换 4、列名...
听说想当黑客的都玩过这个Monyer游戏(1~14攻略)
第零关 进入传送门开始第0关(游戏链接) 请点击链接进入第1关: 连接在左边→ ←连接在右边 看不到啊。。。。(只能看到一堆大佬做完的留名,也能看到菜鸡的我,在后面~~) 直接fn+f12吧 &lt;span&gt;连接在左边→&lt;/span&gt; &lt;a href="first.php"&gt;&lt;/a&gt; &lt;span&gt;←连接在右边&lt;/span&gt; o...
在家远程办公效率低?那你一定要收好这个「在家办公」神器!
相信大家都已经收到国务院延长春节假期的消息,接下来,在家远程办公可能将会持续一段时间。 但是问题来了。远程办公不是人在电脑前就当坐班了,相反,对于沟通效率,文件协作,以及信息安全都有着极高的要求。有着非常多的挑战,比如: 1在异地互相不见面的会议上,如何提高沟通效率? 2文件之间的来往反馈如何做到及时性?如何保证信息安全? 3如何规划安排每天工作,以及如何进行成果验收? ...... ...
作为一个程序员,内存和磁盘的这些事情,你不得不知道啊!!!
截止目前,我已经分享了如下几篇文章: 一个程序在计算机中是如何运行的?超级干货!!! 作为一个程序员,CPU的这些硬核知识你必须会! 作为一个程序员,内存的这些硬核知识你必须懂! 这些知识可以说是我们之前都不太重视的基础知识,可能大家在上大学的时候都学习过了,但是嘞,当时由于老师讲解的没那么有趣,又加上这些知识本身就比较枯燥,所以嘞,大家当初几乎等于没学。 再说啦,学习这些,也看不出来有什么用啊!...
这个世界上人真的分三六九等,你信吗?
偶然间,在知乎上看到一个问题 一时间,勾起了我深深的回忆。 以前在厂里打过两次工,做过家教,干过辅导班,做过中介。零下几度的晚上,贴过广告,满脸、满手地长冻疮。 再回首那段岁月,虽然苦,但让我学会了坚持和忍耐。让我明白了,在这个世界上,无论环境多么的恶劣,只要心存希望,星星之火,亦可燎原。 下文是原回答,希望能对你能有所启发。 如果我说,这个世界上人真的分三六九等,...
2020年全新Java学习路线图,含配套视频,学完即为中级Java程序员!!
新的一年来临,突如其来的疫情打破了平静的生活! 在家的你是否很无聊,如果无聊就来学习吧! 世上只有一种投资只赚不赔,那就是学习!!! 传智播客于2020年升级了Java学习线路图,硬核升级,免费放送! 学完你就是中级程序员,能更快一步找到工作! 一、Java基础 JavaSE基础是Java中级程序员的起点,是帮助你从小白到懂得编程的必经之路。 在Java基础板块中有6个子模块的学...
B 站上有哪些很好的学习资源?
哇说起B站,在小九眼里就是宝藏般的存在,放年假宅在家时一天刷6、7个小时不在话下,更别提今年的跨年晚会,我简直是跪着看完的!! 最早大家聚在在B站是为了追番,再后来我在上面刷欧美新歌和漂亮小姐姐的舞蹈视频,最近两年我和周围的朋友们已经把B站当作学习教室了,而且学习成本还免费,真是个励志的好平台ヽ(.◕ฺˇд ˇ◕ฺ;)ノ 下面我们就来盘点一下B站上优质的学习资源: 综合类 Oeasy: 综合...
爬取薅羊毛网站百度云资源
这是疫情期间无聊做的爬虫, 去获取暂时用不上的教程 import threading import time import pandas as pd import requests import re from threading import Thread, Lock # import urllib.request as request # req=urllib.request.Requ...
如何优雅地打印一个Java对象?
你好呀,我是沉默王二,一个和黄家驹一样身高,和刘德华一样颜值的程序员。虽然已经写了十多年的 Java 代码,但仍然觉得自己是个菜鸟(请允许我惭愧一下)。 在一个月黑风高的夜晚,我思前想后,觉得再也不能这么蹉跎下去了。于是痛下决心,准备通过输出的方式倒逼输入,以此来修炼自己的内功,从而进阶成为一名真正意义上的大神。与此同时,希望这些文章能够帮助到更多的读者,让大家在学习的路上不再寂寞、空虚和冷。 ...
雷火神山直播超两亿,Web播放器事件监听是怎么实现的?
Web播放器解决了在手机浏览器和PC浏览器上播放音视频数据的问题,让视音频内容可以不依赖用户安装App,就能进行播放以及在社交平台进行传播。在视频业务大数据平台中,播放数据的统计分析非常重要,所以Web播放器在使用过程中,需要对其内部的数据进行收集并上报至服务端,此时,就需要对发生在其内部的一些播放行为进行事件监听。 那么Web播放器事件监听是怎么实现的呢? 01 监听事件明细表 名...
3万字总结,Mysql优化之精髓
本文知识点较多,篇幅较长,请耐心学习 MySQL已经成为时下关系型数据库产品的中坚力量,备受互联网大厂的青睐,出门面试想进BAT,想拿高工资,不会点MySQL优化知识,拿offer的成功率会大大下降。 为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上 随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢 数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计...
HTML5适合的情人节礼物有纪念日期功能
前言 利用HTML5,css,js实现爱心树 以及 纪念日期的功能 网页有播放音乐功能 以及打字倾诉感情的画面,非常适合情人节送给女朋友 具体的HTML代码 具体只要修改代码里面的男某某和女某某 文字段也可自行修改,还有代码下半部分的JS代码需要修改一下起始日期 注意月份为0~11月 也就是月份需要减一。 当然只有一部分HTML和JS代码不够运行的,文章最下面还附加了完整代码的下载地址 &lt;!...
相关热词 c# 时间比天数 c# oracle查询 c# 主动推送 事件 c# java 属性 c# 控制台 窗体 c# 静态类存值 c#矢量作图 c#窗体调用外部程式 c# enum是否合法 c# 如何卸载引用
立即提问