python3爬虫遇到报错 “urlopen error no host given”

程序是爬百度图片搜索范冰冰的所有图片。Notepad已经选择了UTF8编码,URL地址也没有回车分行。
直接上代码如下:
import urllib.request
import re
import sys
import os
import urllib
import ssl
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码

def getHtml(url):
page = urllib.request.urlopen(url)
html = page.read()
return html.decode('utf-8')

def getImg(html):
imglist = re.findall('"ObjURL":"(.*?)",', html, re.S)#表示在整个网页中过滤出所有图片的地址,放在imglist中
x = 0
path = 'D:\test'

# 将图片保存到D:\test文件夹中,如果没有test文件夹则创建
if not os.path.isdir(path):

os.makedirs(path)

paths = path+'\' #保存在test路径下

for imgurl in imglist:  
    urllib.request.urlretrieve(imgurl,'D:\\test\\%s.jpg' % x)  #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 
    x = x + 1  
return imglist

url="http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E8%8C%83%E5%86%B0%E5%86%B0"
html=getHtml(url)
print (getImg(html)) #从网页源代码中分析并下载保存图片

3个回答

感谢楼上回复。问题仍然没有解决,我很奇怪的是,前些天还可以正常运行,今天就不行了。您可以运行这个脚本吗?

caozhy
贵阳老马马善福专业维修游泳池堵漏防水工程 你编辑下代码,用</>按钮格式化,现在的代码没有缩进,很多地方都乱了。
一年多之前 回复

1.使用'"ObjURL":"查找的图片地址很多都是无效的,所以会urlopen error no host given出错;
2.图片网站有反爬机制,需要添加headers头,亲测以下代码可运行:

import os
import re
import requests
import urllib
def getHtml(url):
    page = urllib.request.urlopen(url)
    html = page.read()
    return html.decode('utf-8')

def getImg(html):
    imglist = re.findall('"thumbURL":"(.*?)",', html, re.S)#表示在整个网页中过滤出所有图片的地址,放在imglist中
    x = 0
    path = 'D:\test\\'
    #
    # # 将图片保存到D:\test文件夹中,如果没有test文件夹则创建
     if not os.path.isdir(path):
        os.makedirs(path)
       path = path+'\\' #保存在test路径下
    headers={
'Referer':'http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E8%8C%83%E5%86%B0%E5%86%B0',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0'

    }
    s=requests.session()
    s.headers.update(headers)
    for imgurl in imglist:
        #urllib.request.urlretrieve(imgurl,'D:\\test\\%s.jpg' % x)  #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串
        x = x + 1
        img=s.get(url=imgurl)
        print(img)
        with open(path+'%s.jpg' % x, 'wb') as file:
            file.write(img.content)
    return imglist

url="http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E8%8C%83%E5%86%B0%E5%86%B0"
html=getHtml(url)
print (getImg(html)) #从网页源代码中分析并下载保存图片 

如果答案对你有帮助,麻烦采纳下!!!

weixin_39416561
lyhsdy 回复weixin_43408134: 不用页面规则设置不一致,具体看站长心情。如果答案对你有帮助,麻烦采纳下!!
一年多之前 回复
weixin_43408134
raid吾 再请教个问题,我发现打开直接打开百度图片,然后数据范冰冰获得的URL就可以直接用静态方式爬取,不用加header。但是在百度主页面搜索范冰冰,再点击图片,这样获得的URL就需要加header。这个是啥原因啊?谢谢!
一年多之前 回复
weixin_39416561
lyhsdy 回复weixin_43408134: 如果答案对你有帮助,麻烦采纳下!!!
一年多之前 回复
weixin_43408134
raid吾 非常给力,代码运行成功!跟您学习了!
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python-爬虫下载图片时报错

我写了一个简单的python(python3.5)爬虫 网站用代码可以访问 但是用 **_urllib.request.urlretrieve _**时出现了以下错误 **_ValueError: not enough values to unpack (expected 2, got 1)_** 我已经确认这是 下载那一行出的错了 但不知道为什么会这样报错 ![图片说明](https://img-ask.csdn.net/upload/201708/17/1502940585_15928.jpg) ![图片说明](https://img-ask.csdn.net/upload/201708/17/1502940695_821913.jpg) **求解决方法** **小白在此谢过!**

python 3 报错 urllib.error.URLError: <urlopen error unknown url type: "http>

尝试爬取新浪首页新闻到本地 程序报错 源码为: import urllib.request,re url="https://www.sina.com.cn/" req=urllib.request.Request(url) req.add_header("User-Agent","马赛克") pat1='<a target="_blank" href=(.*?)>.*?</a>' data1=urllib.request.urlopen(req).read().decode("UTF-8","ignore") allink=re.compile(pat1).findall(data1) for i in range(0,len(allink)): thislink=allink[i] pat2='<frame src=(.*?)>' req2=urllib.request.Request(url) req2.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:65.0) Gecko/20100101 Firefox/65.0") thispage=urllib.request.urlopen(req2).read().decode("UTF-8","ignore") isframe=re.compile(pat2).findall(thispage) if len(isframe)==0: urllib.request.urlretrieve(thislink,"data/"+str(i)+".html") else: flink=isframe[0] urllib.request.urlretrieve(flink,"data/"+str(i)+".html") 报错信息: Traceback (most recent call last): File "/Users/tanzhouyan/Desktop/python/新闻爬虫.py", line 73, in <module> urllib.request.urlretrieve(thislink,"data/"+str(i)+".html") File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 247, in urlretrieve with contextlib.closing(urlopen(url, data)) as fp: File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 222, in urlopen return opener.open(url, data, timeout) File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 525, in open response = self._open(req, data) File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 548, in _open 'unknown_open', req) File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 503, in _call_chain result = func(*args) File "/Library/Frameworks/Python.framework/Versions/3.7/lib/python3.7/urllib/request.py", line 1387, in unknown_open raise URLError('unknown url type: %s' % type) urllib.error.URLError: <urlopen error unknown url type: "http> 在网上一直没有找到解决方法,谢谢大家~

scrapyd报错Deploy failed: <urlopen error [Errno 110] Connection timed out>

在centos7上安装了scrypyd整套并开启服务后 ![http://localhost:6800/打不开](https://img-ask.csdn.net/upload/201905/17/1558030301_112449.png) 部署项目时出错!并且http://localhost:6800/打不开,但可以访问spiderkeeper的http://localhost:5000 ![图片说明](https://img-ask.csdn.net/upload/201905/17/1558033675_169947.png) scrapy.cfg文件: ![图片说明](https://img-ask.csdn.net/upload/201905/17/1558030344_135804.jpg) 还有我是通过远程访问服务器来操作的,6800端口都打开了,把bind_address 设置成0.0.0.0也还是一样的问题。 最近刚接触到scrapy,此问题在网上找了很久也没找到解决方案,求大佬解答!!!

关于python3.x 编写爬虫的报错问题

找了好几天的资料还是没能解决,拜托各位! ``` import urllib.error import urllib.request import urllib.parse url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link HTTP/1.1' data = {} data['type']= 'AUTO' data['i'] = 'I am fine !' data['doctype'] = 'json' data['xmlVersion'] = '1.8' data['keyfrom'] = 'fanyi.web' data['ue'] = 'UTF-8' data['action'] = 'FY_BY_CLICKBUTTON' data['typoResult'] = 'true' head = {} head['User-Agent']= 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0' try: data = urllib.parse.urlencode(data).encode('utf-8') req = urllib.request.Request(url,data,head) response = urllib.request.urlopen(req) html = response.read().decode('utf-8') print(html) except urllib.error.HTTPError as e: print ('Error code : ',e.code) except urllib.error.URLError as e: print ('The reason: ',e.reason) ``` 抛出异常: ![图片说明](https://img-ask.csdn.net/upload/201703/09/1489022080_873412.png)

Python urllib.urlopen 报错。求解

import urllib 然后 urllib.urlopen() 报错 Undefined variable from import: urlopen 新手求解。

python3爬取豆瓣读书的API报错400,bad request

使用如下python代码读取配置文件中的linkLists(https://api.douban.com/v2/book/1006639),每次爬取到100条左右时就报错bad request 请教各位大神有木有遇到过这种情况,该怎么解决 import json import pymysql import random import time import urllib from urllib import request import doubans.config.linkconfig conn = pymysql.connect( user="root",password="root",database="python",charset='utf8') cur = conn.cursor() def getDetail(url): req = urllib.request.Request(url) req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36') try : res = urllib.request.urlopen(req) jsondata = res.read().decode("UTF-8") res.close() result = json.loads(jsondata) except urllib.error.URLError as e : print(e.reason) if ('title' in result.keys()): title = result["title"] else: title = "" if ('isbn13' in result.keys() and 'ibsn13' != ""): isbn = result["isbn13"] else: isbn = result["isbn10"] l = [] l.append([title,isbn]) sql = "INSERT INTO allbooks values(%s,%s)" cur.executemany(sql, l) conn.commit() for i in range(0,len(doubans.config.linkconfig.linkLists)): print(doubans.config.linkconfig.linkLists[i]) getDetail(doubans.config.linkconfig.linkLists[i]) time.sleep(int(format(random.randint(0, 9)))) 报错信息如下 Traceback (most recent call last): File "F:/Python/doubans/getDetail.py", line 143, in <module> getDetail(doubans.config.linkconfig.linkLists[i]) File "F:/Python/doubans/getDetail.py", line 27, in getDetail if ('title' in result.keys()): UnboundLocalError: local variable 'result' referenced before assignment Bad Request

在学python爬虫时遇到个问题,求解答

``` #! /usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib2 import re def craw(url, page): html1 = urllib2.Request(url) response = urllib2.urlopen(html1).read() response = str(response) pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="//.+?" />' imagelist = re.compile(pat1).findall(response) x = 1 for imageurl in imagelist: imagename = "D:/手表/" + str(page) + str(x) + ".jpg" imagesurl = "http://" + imageurl try: urllib.urlretrieve(imagesurl, filename = imagename) except urllib2.URLError as e: if hasattr(e, "code"): x += 1 if hasattr(e, "reason"): x += 1 x += 1 for i in range(2,6): url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i) craw(url, i) 运行,开始报错: Traceback (most recent call last): File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 30, in <module> craw(url, i) File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 20, in craw urllib.urlretrieve(imagesurl, filename = imagename) File "C:\Python27\lib\urllib.py", line 91, in urlretrieve return _urlopener.retrieve(url, filename, reporthook, data) File "C:\Python27\lib\urllib.py", line 237, in retrieve fp = self.open(url, data) File "C:\Python27\lib\urllib.py", line 205, in open return getattr(self, name)(url) File "C:\Python27\lib\urllib.py", line 342, in open_http h.endheaders(data) File "C:\Python27\lib\httplib.py", line 951, in endheaders self._send_output(message_body) File "C:\Python27\lib\httplib.py", line 811, in _send_output self.send(msg) File "C:\Python27\lib\httplib.py", line 773, in send self.connect() File "C:\Python27\lib\httplib.py", line 754, in connect self.timeout, self.source_address) File "C:\Python27\lib\socket.py", line 553, in create_connection for res in getaddrinfo(host, port, 0, SOCK_STREAM): IOError: [Errno socket error] [Errno 11001] getaddrinfo failed ```

urllib2.URLError: <urlopen error [Errno 104] Connection reset by peer>

python爬虫使用mechanize模拟登陆出现,求解决方法,没有在代码中添加代理ip,不知到如何解决,已经困扰我一上午了,不知道哪位大侠可以帮忙啊!

python无法访问https出现URLError

URLError: "urlopen error [Errno 8] _ssl.c:503: EOF occurred in violation of protocol" 直接通过浏览器可以访问,昨天也是好使的,今天就不行了 代码: url="https://ipaddress/xxx/xxx/xxx" kw={'xxx':'xxx'} data = urllib.urlencode(kw) req = urllib2.Request(url,data) base64string = base64.encodestring('%s:%s' % ('xxx', 'xxx'))[:-1] #这里最后会自动添加一个\n authheader = "Basic %s" % base64string req.add_header("Authorization", authheader) return_data = urllib2.urlopen(req) #请求url data = return_data.read() #读取内容 print data 错误: Traceback (most recent call last): File "C:\Python27\Lib\site-packages\Pythonwin\pywin\framework\scriptutils.py", line 323, in RunScript debugger.run(codeObject, __main__.__dict__, start_stepping=0) File "C:\Python27\Lib\site-packages\Pythonwin\pywin\debugger\__init__.py", line 60, in run _GetCurrentDebugger().run(cmd, globals,locals, start_stepping) File "C:\Python27\Lib\site-packages\Pythonwin\pywin\debugger\debugger.py", line 655, in run exec cmd in globals, locals File "C:\Users\wzs\Desktop\get_resulte.py", line 2, in <module> import urllib File "C:\Python27\lib\urllib2.py", line 126, in urlopen return _opener.open(url, data, timeout) File "C:\Python27\lib\urllib2.py", line 394, in open response = self._open(req, data) File "C:\Python27\lib\urllib2.py", line 412, in _open '_open', req) File "C:\Python27\lib\urllib2.py", line 372, in _call_chain result = func(*args) File "C:\Python27\lib\urllib2.py", line 1207, in https_open return self.do_open(httplib.HTTPSConnection, req) File "C:\Python27\lib\urllib2.py", line 1174, in do_open raise URLError(err) URLError:<urlopen error [Errno 8] _ssl.c:503: EOF occurred in violation of protocol>

ubuntu16.04下python打开http/https报错

![ubuntu16.04下使用python中的urllib.urlopen()打开https报错IOError](https://img-ask.csdn.net/upload/201708/27/1503834919_805174.png) ``` >>> import urllib >>> urllib.urlopen('https://www.baidu.com') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/local/lib/python2.7/urllib.py", line 87, in urlopen return opener.open(url) File "/usr/local/lib/python2.7/urllib.py", line 210, in open return self.open_unknown(fullurl, data) File "/usr/local/lib/python2.7/urllib.py", line 222, in open_unknown raise IOError, ('url error', 'unknown url type', type) IOError: [Errno url error] unknown url type: 'https' ``` 报错信息:IOError: [Errno url error] unknown url type: 'https' ![ubuntu16.04下使用python中的urllib2.urlopen()打开https/http报错](https://img-ask.csdn.net/upload/201708/27/1503835100_415721.png) ``` >>> import urllib2 >>> urllib2.urlopen('https://www.baidu.com') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/local/lib/python2.7/urllib2.py", line 154, in urlopen return opener.open(url, data, timeout) File "/usr/local/lib/python2.7/urllib2.py", line 429, in open response = self._open(req, data) File "/usr/local/lib/python2.7/urllib2.py", line 452, in _open 'unknown_open', req) File "/usr/local/lib/python2.7/urllib2.py", line 407, in _call_chain result = func(*args) File "/usr/local/lib/python2.7/urllib2.py", line 1266, in unknown_open raise URLError('unknown url type: %s' % type) urllib2.URLError: <urlopen error unknown url type: https> >>> urllib2.urlopen('http://www.baidu.com') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/local/lib/python2.7/urllib2.py", line 154, in urlopen return opener.open(url, data, timeout) File "/usr/local/lib/python2.7/urllib2.py", line 429, in open response = self._open(req, data) File "/usr/local/lib/python2.7/urllib2.py", line 447, in _open '_open', req) File "/usr/local/lib/python2.7/urllib2.py", line 407, in _call_chain result = func(*args) File "/usr/local/lib/python2.7/urllib2.py", line 1228, in http_open return self.do_open(httplib.HTTPConnection, req) File "/usr/local/lib/python2.7/urllib2.py", line 1198, in do_open raise URLError(err) urllib2.URLError: <urlopen error [Errno -3] Temporary failure in name resolution> >>> ``` 报错信息: urllib2.URLError: <urlopen error unknown url type: https> urllib2.URLError: <urlopen error [Errno -3] Temporary failure in name resolution> 这个要如何解决?求大神指点迷津,谢谢!

URLError: <urlopen error [WinError 10054] 远程主机强迫关闭了一个现有的连接?

当我输入下面这段代码:iris = sns.load_dataset('iris') sns.pairplot(iris) 就会出现下面这样的报错,找了几个小时也找不出来原因,请大神解决! C:\ProgramData\Anaconda3\lib\urllib\request.py in _call_chain(self, chain, kind, meth_name, *args) 502 for handler in handlers: 503 func = getattr(handler, meth_name) --> 504 result = func(*args) 505 if result is not None: 506 return result C:\ProgramData\Anaconda3\lib\urllib\request.py in https_open(self, req) 1359 def https_open(self, req): 1360 return self.do_open(http.client.HTTPSConnection, req, -> 1361 context=self._context, check_hostname=self._check_hostname) 1362 1363 https_request = AbstractHTTPHandler.do_request_ C:\ProgramData\Anaconda3\lib\urllib\request.py in do_open(self, http_class, req, **http_conn_args) 1318 encode_chunked=req.has_header('Transfer-encoding')) 1319 except OSError as err: # timeout error -> 1320 raise URLError(err) 1321 r = h.getresponse() 1322 except: 1. * 1. URLError: <urlopen error [WinError 10054] 远程主机强迫关闭了一个现有的连接。>

python爬虫执行后报urlopen() got an unexpected keyword argument 'headers'

``` url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule" headers = {} headers['User-Agent'] = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36' data = {} data['i'] = "植树造林" data['from'] = "AUTO" data['to'] = "AUTO" data['smartresult'] = "dict" data['client'] = "fanyideskweb" data['salt'] = "15579873044011" data['sign'] = "dccd15e2e8612d18407aa2b8af294" data['ts'] = "1557987304401" data['bv'] = "e3c02aca4dd13bbb3f44d334e1eb3d08" data['doctype'] = "json" data['version'] = "2.1" data['keyfrom'] = "fanyi.web" data['action'] = "FY_BY_REALTlME" data = urllib.parse.urlencode(data).encode("utf-8") response = urllib.request.urlopen(url=url, data=data, headers=headers, method='POST') html = json.loads(response.read().decode("utf-8")) print(html['translateResult'][0][0]['tgt']) ``` 把header去掉又可以运行了 不知道这是为什么

爬虫 遇到重定向问题,求解答。在线

![这样一直循环重定向,怎么办?](https://img-ask.csdn.net/upload/201504/24/1429841423_709271.png)

python 爬虫 出现IOError错误

# -*- coding:utf-8 -*- #! /usr/bin/env python import urllib import urllib2 import re page = 1 url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0(compatible;MSIE 5.5;Windows NT)' headers = {'User-Agent':user_agent} try: request = urllib2.Request(url,headers = headers) response = urllib2.urlopen(request) content = response.read().decode('utf-8','ignore') pattern = re.compile(r'<div.*?author.*?>*?<img.*?>.*?<a.*?title="(.*?)">.*?<div.*?>.*?(.*?)</div>', re.S) items = re.findall(pattern,content) for item in items: print item[0],item[1] except urllib2.URLError, e: if hasattr(e,"code"): print e.code if hasattr(e,"reason"): print e.reason ```![图片说明](https://img-ask.csdn.net/upload/201604/29/1461898513_494366.png) ```这是出现错误的信息,在powershell中设置chcp 65001就会出现IOError错误,设置成chcp 437或者936就会出现下面的乱码,请问是什么原因? ``` ```

python3 请求网页 Request和urlopen的区别

urllib.request.Request和urllib.request.urlopen的区别?求教

python 爬虫 关于URL路径问题

我想问有没有大佬知道怎么用socket去连接一个具体的URL地址,我用 socket.connect((address,80)),address只能是www.baidu.com这样的地址,而不是 http://xxxxx/xxxxxx/ 这样带具体路径的地址,不然就会出错“getaddrinfo failed”。 **前提是别用其他lib**

python3 爬网络小说 编码gbk,utf-8均报错

很简单的爬取一个小说,但是编码遇到报错,gbk,utf-8都不行。 # -*- coding: utf-8 -*- import urllib.request import re import sys import os import urllib from bs4 import BeautifulSoup from urllib import request #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(weburl): webheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'} webheaders={ 'Referer':'http://www.biqukan.cc/book/20461/12592815.html', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0' } req = urllib.request.Request(url=weburl, headers=webheaders) page = urllib.request.urlopen(req) html = page.read() return html.decode('gbk') def gettext(html): soup = BeautifulSoup(html, "lxml") content = soup.find(class_='panel-body',id='htmlContent') txt=content.get_text() with open('D:\\test.txt','a') as f: f.write(txt) weburl="http://www.biqukan.cc/book/20461/12592815.html" html=getHtml(weburl)#获取该网址网页详细信息,得到的html就是网页的源代码 gettext(html) 错误信息: UnicodeEncodeError: 'gbk' codec can't encode character '\xa0' in position 75: il legal multibyte sequence 还有:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb5 in position 116: invali d start byte

requests库爬虫报错import ssl也没用?

requests库爬虫报错import ssl也没用 ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1108) 代码 ``` import requests import re # urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: # unable to get local issuer certificate (_ssl.c:1045)> import ssl ssl._create_default_https_context = ssl._create_unverified_context # 伪装浏览器 hd={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36",} # 需要开Fiddler才能使用这个ip+端口 px={"http":"http://127.0.0.1:8888"} rst=requests.get('http://www.aliwx.com.cn/',headers=hd,proxies=px) title=re.compile('<title>(.*?)</title>',re.S).findall(rst.text) print('rst: ',rst) print('title: ',title) ``` 详细说明:在看阿里云的爬虫课程实操时出现这个问题,我试过了这个取消全局验证的方法但是仍旧没用,提示信息就是这样,猜测是我的ip和端口有问题?但是之前的操作都和老师是一样的,有大佬知悉请指教一下 ![图片说明](https://img-ask.csdn.net/upload/202003/23/1584937982_542732.png)

关于python爬虫代理ip的问题

在网站上找一个免费的ip代理,在窗口上打印出来自己的代理ip,但是显示结果并没有看到IP的有关记录,全是网易上的网页内容好像,哪位大神可以帮我解惑!!!![图片说明](https://img-ask.csdn.net/upload/201709/01/1504251823_53549.png)![图片说明](https://img-ask.csdn.net/upload/201709/01/1504251832_564632.png)

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

String s = new String(" a ") 到底产生几个对象?

老生常谈的一个梗,到2020了还在争论,你们一天天的,哎哎哎,我不是针对你一个,我是说在座的各位都是人才! 上图红色的这3个箭头,对于通过new产生一个字符串(”宜春”)时,会先去常量池中查找是否已经有了”宜春”对象,如果没有则在常量池中创建一个此字符串对象,然后堆中再创建一个常量池中此”宜春”对象的拷贝对象。 也就是说准确答案是产生了一个或两个对象,如果常量池中原来没有 ”宜春” ,就是两个。...

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

Linux面试题(2020最新版)

文章目录Linux 概述什么是LinuxUnix和Linux有什么区别?什么是 Linux 内核?Linux的基本组件是什么?Linux 的体系结构BASH和DOS之间的基本区别是什么?Linux 开机启动过程?Linux系统缺省的运行级别?Linux 使用的进程间通信方式?Linux 有哪些系统日志文件?Linux系统安装多个桌面环境有帮助吗?什么是交换空间?什么是root帐户什么是LILO?什...

将一个接口响应时间从2s优化到 200ms以内的一个案例

一、背景 在开发联调阶段发现一个接口的响应时间特别长,经常超时,囧… 本文讲讲是如何定位到性能瓶颈以及修改的思路,将该接口从 2 s 左右优化到 200ms 以内 。 二、步骤 2.1 定位 定位性能瓶颈有两个思路,一个是通过工具去监控,一个是通过经验去猜想。 2.1.1 工具监控 就工具而言,推荐使用 arthas ,用到的是 trace 命令 具体安装步骤很简单,大家自行研究。 我的使用步骤是...

学历低,无法胜任工作,大佬告诉你应该怎么做

微信上收到一位读者小涛的留言,大致的意思是自己只有高中学历,经过培训后找到了一份工作,但很难胜任,考虑要不要辞职找一份他能力可以胜任的实习工作。下面是他留言的一部分内容: 二哥,我是 2016 年高中毕业的,考上了大学但没去成,主要是因为当时家里经济条件不太允许。 打工了三年后想学一门技术,就去培训了。培训的学校比较垃圾,现在非常后悔没去正规一点的机构培训。 去年 11 月份来北京找到了一份工...

JVM内存结构和Java内存模型别再傻傻分不清了

JVM内存结构和Java内存模型都是面试的热点问题,名字看感觉都差不多,网上有些博客也都把这两个概念混着用,实际上他们之间差别还是挺大的。 通俗点说,JVM内存结构是与JVM的内部存储结构相关,而Java内存模型是与多线程编程相关,本文针对这两个总是被混用的概念展开讲解。 JVM内存结构 JVM构成 说到JVM内存结构,就不会只是说内存结构的5个分区,而是会延展到整个JVM相关的问题,所以先了解下

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

Google 与微软的浏览器之争

浏览器再现“神仙打架”。整理 | 屠敏头图 | CSDN 下载自东方 IC出品 | CSDN(ID:CSDNnews)从 IE 到 Chrome,再从 Chrome 到 Edge,微软与...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

85后蒋凡:28岁实现财务自由、34岁成为阿里万亿电商帝国双掌门,他的人生底层逻辑是什么?...

蒋凡是何许人也? 2017年12月27日,在入职4年时间里,蒋凡开挂般坐上了淘宝总裁位置。 为此,时任阿里CEO张勇在任命书中力赞: 蒋凡加入阿里,始终保持创业者的冲劲,有敏锐的...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

什么时候跳槽,为什么离职,你想好了么?

都是出来打工的,多为自己着想

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

立即提问
相关内容推荐