Python-爬虫下载图片时报错

我写了一个简单的python(python3.5)爬虫 网站用代码可以访问
但是用 _urllib.request.urlretrieve _时出现了以下错误

ValueError: not enough values to unpack (expected 2, got 1)

我已经确认这是 下载那一行出的错了
但不知道为什么会这样报错

图片说明

图片说明

求解决方法
小白在此谢过!

6个回答

那就是代码的问题,错误提示并不一定是那一行出了问题,排查一下传递的参数或者设置

qq_24210469
ChibaAkira 参数没问题 我已经尝试排查过 并且把重要的内容输出过
2 年多之前 回复

是不是目标网站做了图片防盗链,如果你把爬去的图片地址放到浏览器可以下载,应该是程序的问题,否则应该有防盗链

qq_24210469
ChibaAkira 我用ipython 输入 urllib.request.urlretrieve('XXXXX.JPG','XXXXX'.JPG) 可以下载一张完整的图片
2 年多之前 回复

我用ipython 输入 urllib.request.urlretrieve('XXXXX.JPG','XXXXX'.JPG)
可以下载一张完整的图片

图片说明

参数没问题 我已经尝试排查过 并且把重要的内容输出过

我试了一下用 request.urlopen 打开图片 出现了**同样的错误**
不知道是不是网站的反爬虫

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python scrapy 爬虫图片新手求助
求问大神 我这个data她怎么了 报错: 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Scrapy 1.8.0 started (bot: meizitu) 2020-02-07 09:24:55 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.7.3 (v3.7.3:ef4ec6ed12, Mar 25 2019, 22:22:05) [MSC v.1916 64 bit (AMD64)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d 10 Sep 2019), cryptography 2.8, Platform Windows-10-10.0.17763-SP0 2020-02-07 09:24:55 [scrapy.crawler] INFO: Overridden settings: {'BOT_NAME': 'meizitu', 'NEWSPIDER_MODULE': 'meizitu.spiders', 'ROBOTSTXT_OBEY': True, 'SPIDER_MODULES': ['meizitu.spiders']} 2020-02-07 09:24:55 [scrapy.extensions.telnet] INFO: Telnet Password: 0936097982b9bcc8 2020-02-07 09:24:55 [scrapy.middleware] INFO: Enabled extensions: ['scrapy.extensions.corestats.CoreStats', 'scrapy.extensions.telnet.TelnetConsole', 'scrapy.extensions.logstats.LogStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled downloader middlewares: ['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware', 'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware', 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware', 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware', 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware', 'scrapy.downloadermiddlewares.retry.RetryMiddleware', 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware', 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware', 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware', 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware', 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware', 'scrapy.downloadermiddlewares.stats.DownloaderStats'] 2020-02-07 09:24:56 [scrapy.middleware] INFO: Enabled spider middlewares: ['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware', 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware', 'scrapy.spidermiddlewares.referer.RefererMiddleware', 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware', 'scrapy.spidermiddlewares.depth.DepthMiddleware'] Unhandled error in Deferred: 2020-02-07 09:24:56 [twisted] CRITICAL: Unhandled error in Deferred: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 184, in crawl return self._crawl(crawler, *args, **kwargs) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 188, in _crawl d = crawler.crawl(*args, **kwargs) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1613, in unwindGenerator return _cancellableInlineCallbacks(gen) File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1529, in _cancellableInlineCallbacks _inlineCallbacks(None, g, status) --- <exception caught here> --- File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed builtins.SyntaxError: unexpected EOF while parsing (pipelines.py, line 22) 2020-02-07 09:24:56 [twisted] CRITICAL: Traceback (most recent call last): File "e:\python3.7\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 86, in crawl self.engine = self._create_engine() File "e:\python3.7\lib\site-packages\scrapy\crawler.py", line 111, in _create_engine return ExecutionEngine(self, lambda _: self.stop()) File "e:\python3.7\lib\site-packages\scrapy\core\engine.py", line 70, in __init__ self.scraper = Scraper(crawler) File "e:\python3.7\lib\site-packages\scrapy\core\scraper.py", line 71, in __init__ self.itemproc = itemproc_cls.from_crawler(crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 53, in from_crawler return cls.from_settings(crawler.settings, crawler) File "e:\python3.7\lib\site-packages\scrapy\middleware.py", line 34, in from_settings mwcls = load_object(clspath) File "e:\python3.7\lib\site-packages\scrapy\utils\misc.py", line 46, in load_object mod = import_module(module) File "e:\python3.7\lib\importlib\__init__.py", line 127, in import_module return _bootstrap._gcd_import(name[level:], package, level) File "<frozen importlib._bootstrap>", line 1006, in _gcd_import File "<frozen importlib._bootstrap>", line 983, in _find_and_load File "<frozen importlib._bootstrap>", line 967, in _find_and_load_unlocked File "<frozen importlib._bootstrap>", line 677, in _load_unlocked File "<frozen importlib._bootstrap_external>", line 724, in exec_module File "<frozen importlib._bootstrap_external>", line 860, in get_code File "<frozen importlib._bootstrap_external>", line 791, in source_to_code File "<frozen importlib._bootstrap>", line 219, in _call_with_frames_removed File "E:\python_work\爬虫\meizitu\meizitu\pipelines.py", line 22 f.write(data) ^ SyntaxError: unexpected EOF while parsing 代码如下: pipeline ``` import requests class MeizituPipeline(object): def process_item(self, item, spider): print("main_title:",item['main_title']) print("main_image:", item['main_image']) print("main_tags:", item['main_tags']) print("main_meta:", item['main_meta']) print("page:", item['main_pagenavi']) url = requests.get(item['main_image']) print(url) try: with open(item['main_pagenavi'] +'.jpg','wb') as f: data = url.read() f.write(data) ``` image.py ``` import scrapy from scrapy.http import response from ..items import MeizituItem class ImageSpider(scrapy.Spider): #定义Spider的名字scrapy crawl meiaitu name = 'SpiderMain' #允许爬虫的域名 allowed_domains = ['www.mzitu.com/203554'] #爬取的首页列表 start_urls = ['https://www.mzitu.com/203554'] #负责提取response的信息 #response代表下载器从start_urls中的url的到的回应 #提取的信息 def parse(self,response): #遍历所有节点 for Main in response.xpath('//div[@class = "main"]'): item = MeizituItem() #匹配所有节点元素/html/body/div[2]/div[1]/div[3]/p/a content = Main.xpath('//div[@class = "content"]') item['main_title'] = content.xpath('./h2/text()') item['main_image'] = content.xpath('./div[@class="main-image"]/p/a/img') item['main_meta'] = content.xpath('./div[@class="main-meta"]/span/text()').extract() item['main_tags'] = content.xpath('./div[@class="main-tags"]/a/text()').extract() item['main_pagenavi'] = content.xpath('./div[@class="main_pagenavi"]/span/text()').extract_first() yield item new_links = response.xpath('.//div[@class="pagenavi"]/a/@href').extract() new_link =new_links[-1] yield scrapy.Request(new_link,callback=self.parse) ``` setting ``` BOT_NAME = 'meizitu' SPIDER_MODULES = ['meizitu.spiders'] NEWSPIDER_MODULE = 'meizitu.spiders' ROBOTSTXT_OBEY = True #配置默认请求头 DEFAULT_REQUEST_HEADERS = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36", 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8' } ITEM_PIPELINES = { 'meizitu.pipelines.MeizituPipeline':300, } IMAGES_STORE = 'E:\python_work\爬虫\meizitu' IMAGES_MIN_HEIGHT = 1050 IMAGES_MIN_WIDTH = 700 ```
python 新手,因写论文需要微博爬虫,下载别人的代码自己跑,有一段执行其他目录下的python文件的代码,会报错。
os.system('pkill -f phantom') 报错为:'pkill' 不是内部或外部命令,也不是可运行的程序 或批处理文件。Message:“ 怎么将pkill这个命令改为windows下执行呢? 运行环境为win10,python3.8.2
python爬虫执行报错!!
写了个爬虫,从百度想从百度爬照片,爬10页时没问题,爬100页就报错了!求大神解惑!! 下面是完整代码: #!/usr/bin/env python #coding:utf8 import requests import os import sys reload(sys) sys.setdefaultencoding('utf8') def getManyPages(keyword,pages): params=[] for i in range(30,30*pages+30,30): params.append({ 'tn':'resultjson_com', 'ipn':'rj', 'ct':201326592, 'is':'', 'fp':'result', 'queryWord':keyword, 'cl':2, 'lm':-1, 'ie':'utf-8', 'oe':'utf-8', 'adpicid':'', 'st':-1, 'z':'', 'ic': 0, 'word': keyword, 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': 0, 'istype': 2, 'qc': '', 'nc': 1, 'fr': '', 'pn': i, 'rn': 30, 'gsm': '1e', '1507548959747':'' }) url = 'https://image.baidu.com/search/acjson' print url urls = [] for i in params: #print i urls.append(requests.get(url,params=i).json().get('data')) return urls print urls def getImg(dataList,localPath): if not os.path.exists(localPath): os.mkdir(localPath) x = 0 for list in dataList: for i in list: if i.get('thumbURL') != None: print ('正在下载:%s' % i.get('thumbURL')) ir = requests.get(i.get('thumbURL')) open(localPath + '%d.jpg' % x, 'wb').write(ir.content) x += 1 else: print ('图片链接不存在') if __name__ == "__main__": dataList = getManyPages('美女',1000) getImg(dataList,'/home/ubuntu/photo/') 执行报错: ValueError: Invalid \escape: line 29 column 218 (char 27827)
python3爬虫遇到报错 “urlopen error no host given”
程序是爬百度图片搜索范冰冰的所有图片。Notepad已经选择了UTF8编码,URL地址也没有回车分行。 直接上代码如下: import urllib.request import re import sys import os import urllib import ssl #根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html.decode('utf-8') def getImg(html): imglist = re.findall('"ObjURL":"(.*?)",', html, re.S)#表示在整个网页中过滤出所有图片的地址,放在imglist中 x = 0 path = 'D:\\test' # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建 if not os.path.isdir(path): os.makedirs(path) paths = path+'\\' #保存在test路径下 for imgurl in imglist: urllib.request.urlretrieve(imgurl,'D:\\test\\%s.jpg' % x) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 x = x + 1 return imglist url="http://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E8%8C%83%E5%86%B0%E5%86%B0" html=getHtml(url) print (getImg(html)) #从网页源代码中分析并下载保存图片
写了爬虫百度贴吧的python代码,一直报错,求解决?
![图片说明](https://img-ask.csdn.net/upload/201908/07/1565108384_168239.png) 写了爬虫百度贴吧的python代码,一直报错,求解决 改过这个imglist = re.findall(imgre.html)为imglist = imgre.findall(html) 确实不报错,但是输出有问题![图片说明](https://img-ask.csdn.net/upload/201908/07/1565108814_844027.png)
requests库爬虫报错import ssl也没用?
requests库爬虫报错import ssl也没用 ssl.SSLCertVerificationError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1108) 代码 ``` import requests import re # urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: # unable to get local issuer certificate (_ssl.c:1045)> import ssl ssl._create_default_https_context = ssl._create_unverified_context # 伪装浏览器 hd={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36",} # 需要开Fiddler才能使用这个ip+端口 px={"http":"http://127.0.0.1:8888"} rst=requests.get('http://www.aliwx.com.cn/',headers=hd,proxies=px) title=re.compile('<title>(.*?)</title>',re.S).findall(rst.text) print('rst: ',rst) print('title: ',title) ``` 详细说明:在看阿里云的爬虫课程实操时出现这个问题,我试过了这个取消全局验证的方法但是仍旧没用,提示信息就是这样,猜测是我的ip和端口有问题?但是之前的操作都和老师是一样的,有大佬知悉请指教一下 ![图片说明](https://img-ask.csdn.net/upload/202003/23/1584937982_542732.png)
python3利用urlllib编写简单爬虫中碰到的报错
![图片说明](https://img-ask.csdn.net/upload/201701/01/1483286173_940993.png)
python 爬虫框架scrapy报错
![图片说明](https://img-ask.csdn.net/upload/201804/13/1523608771_773621.png)程序没有问题,但是这些错误很蛋疼,求解决
Python 爬虫爬取一个网站的时候成功,但爬取多个网站就404
![图片说明](https://img-ask.csdn.net/upload/202003/21/1584758718_98632.png) ![图片说明](https://img-ask.csdn.net/upload/202003/21/1584758742_33180.png) ![图片说明](https://img-ask.csdn.net/upload/202003/21/1584758754_204806.png) 第一张图我是把txt文件中第一个网址拿出来,然后保存图片成功,但是当我读取txt文件,准备开始批量爬取的时候(图二),状态码为404,单独爬取一个网站的时候没问题,一放在多个网站中就报错,怎么办?
关于python网络爬虫网页失效的处理提问
小弟在做网络爬虫抓取网站上所有的图片,但是有些图片的链接是失效的。我用的request连接这些网站,在把request得到的东西写入到本地电脑中。可是碰到无效网站时,request就会报错,后续就进行不下去了,怎么处理这个问题呢![图片说明](https://img-ask.csdn.net/upload/201911/13/1573608788_425645.png) ``` image_file=open(im_name,'wb') imgs=requests.get(im_iter) #im_iter是我用正则表达式截出来的图片链接 image_file.write(imgs.content) image_file.close() ``` 这是小弟保存图片的代码
爬虫下载图片时的一个问题
downloadlist=bsobj.findAll(src=True) downloadlist就是要下载的图片的集合。 然后fileURL就是图片的URL了, ``` for download in downloadlist: fileURL=getabsoluteurl(baseURL,download["src"]) print(fileURL) if fileURL is not None: urlretrieve(fileURL,getdownloadpath(fileURL,downloadDirectory),cbk) ``` 下面就是报错原因: ``` //ossweb-img.qq.com/images/lol/v3/logo.png Traceback (most recent call last): File "C:/Users/18022863809/Desktop/python_work/文件下载.py", line 44, in <module> urlretrieve(fileURL,getdownloadpath(a,downloadDirectory),cbk) File "C:/Users/18022863809/Desktop/python_work/文件下载.py", line 29, in getdownloadpath os.makedirs(directory) File "C:\Users\18022863809\AppData\Local\Programs\Python\Python37\lib\os.py", line 211, in makedirs makedirs(head, exist_ok=exist_ok) File "C:\Users\18022863809\AppData\Local\Programs\Python\Python37\lib\os.py", line 211, in makedirs makedirs(head, exist_ok=exist_ok) File "C:\Users\18022863809\AppData\Local\Programs\Python\Python37\lib\os.py", line 221, in makedirs mkdir(name, mode) FileNotFoundError: [WinError 53] 找不到网络路径。: '//ossweb-img.qq.com/images/' ``` 上面就是报错原因,非常奇怪,我直接在浏览器复制这个URL能够访问,为什么这里找不到网络路径呢
python3 爬虫爬取不规则、带有转义符的json字符串,json.loads()报错
今天学习写爬虫,利用正则表达式爬取的一段网页源代码,代码前面有json.parse ![图片说明](https://img-ask.csdn.net/upload/201810/30/1540893329_975308.png) 利用正则表达式把gallery一行爬出来是下面的代码: {\"count\":8,\"sub_images\":[{\"url\":\"http:\\/\\/p99.pstatp.com\\/origin\\/pgc-image\\/154088560091068452d3c58\",\"width\":1080,\"url_list\":[{\"url\":\"http:\\/\\/p99.pstatp.com\\/origin\\/pgc-image\\/154088560091068452d3c58\"},{\"url\":\"http:\\/\\/pb3.pstatp.com\\/origin\\/pgc-image\\/154088560091068452d3c58\"},{\"url\":\"http:\\/\\/pb1.pstatp.com\\/origin\\/pgc-image\\/154088560091068452d3c58\"}],\"uri\":\"origin\\/pgc-image\\/154088560091068452d3c58\",\"height\":1918},{\"url\":\"http:\\/\\/p1.pstatp.com\\/origin\\/pgc-image\\/1540885587029ea96e1c851\",\"width\":690,\"url_list\":[{\"url\":\"http:\\/\\/p1.pstatp.com\\/origin\\/pgc-image\\/1540885587029ea96e1c851\"},{\"url\":\"http:\\/\\/pb3.pstatp.com\\/origin\\/pgc-image\\/1540885587029ea96e1c851\"},{\"url\":\"http:\\/\\/pb9.pstatp.com\\/origin\\/pgc-image\\/1540885587029ea96e1c851\"}],\"uri\":\"origin\\/ ........... 将其json.loads()之后报错如下: json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1) 网上试了HTMLParse,结果后面循环报错,解决不了了。哈哈哈, 有没有大神知道这种情况,怎么处理么?
python 2.7.6报错SyntaxError: invalid syntax
在学习爬虫的时候遇到了点问题: 'User-Agent':'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36' 这一行老是报错SyntaxError: invalid syntax ``` headers = { 'Accept':'text/html, */*' 'User-Agent':'Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/34.0.1847.116 Chrome/34.0.1847.116 Safari/537.36' } ``` 版本问题吗 ?
python多线程爬虫withopen自动关闭
现在我的with open 是在线程中放着,可以正常运行但是会浪费很多操作。放在multi_threads()函数的开头系统,会报错:I/O无法操作已关闭的文件。 ``` class Producer(threading.Thread): def __init__(self,q_page_urls,q_infos,q_names,*args,**kwargs): super(Producer,self).__init__(*args,**kwargs) self.q_page_urls = q_page_urls self.q_infos = q_infos self.q_names = q_names def run(self) -> None: while True: time.sleep(5) url = self.q_page_urls.get() resp = requests.get(url,headers=headers) if resp.content: reasult = resp.content.decode("utf-8") soup = BeautifulSoup(reasult, 'lxml') lis = soup.find("body").find_all_next("li") for infos in lis: contents = [] author_names = [] # 爬取作者 names = infos.find("a", class_="u-user-name") if names is not None: for name in names: author_name = name.string author_names.append(author_name) self.q_names.put({"author_names":author_names}) # 爬取内容 info = infos.find("div", class_="j-r-list-c") if info is not None: for texts in info: text = texts.find("a") if text != -1: content = text.string contents.append(content) self.q_infos.put({"contents":contents}) class Consumer(threading.Thread): def __init__(self, q_infos,q_names, *args, **kwargs): super(Consumer, self).__init__(*args, **kwargs) self.q_infos = q_infos self.q_names = q_names def run(self) -> None: while True: with open("百思不得姐.csv", 'a', encoding="utf_8", newline='') as f: wrieter = csv.writer(f) info_obj = self.q_infos.get(timeout=100) name_obj = self.q_names.get(timeout=100) if name_obj.get("author_names") is not None: wrieter.writerow(name_obj.get("author_names")) if info_obj.get("contents") is not None: wrieter.writerow(info_obj.get("contents")) def multi_threads(): q_page_urls = queue.Queue(50) q_infos = queue.Queue(100) q_names = queue.Queue(100) for i in range (1,51): page_url = "http://www.budejie.com/text/%d" %i q_page_urls.put(page_url) for x in range(5): th_1 = Producer(q_page_urls,q_infos,q_names) th_1.start() for y in range(20): th_2 = Consumer(q_infos,q_names) th_2.start() if __name__ == '__main__': multi_threads() ```
在学python爬虫时遇到个问题,求解答
``` #! /usr/bin/env python # -*- coding: utf-8 -*- import urllib import urllib2 import re def craw(url, page): html1 = urllib2.Request(url) response = urllib2.urlopen(html1).read() response = str(response) pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="//.+?" />' imagelist = re.compile(pat1).findall(response) x = 1 for imageurl in imagelist: imagename = "D:/手表/" + str(page) + str(x) + ".jpg" imagesurl = "http://" + imageurl try: urllib.urlretrieve(imagesurl, filename = imagename) except urllib2.URLError as e: if hasattr(e, "code"): x += 1 if hasattr(e, "reason"): x += 1 x += 1 for i in range(2,6): url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i) craw(url, i) 运行,开始报错: Traceback (most recent call last): File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 30, in <module> craw(url, i) File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 20, in craw urllib.urlretrieve(imagesurl, filename = imagename) File "C:\Python27\lib\urllib.py", line 91, in urlretrieve return _urlopener.retrieve(url, filename, reporthook, data) File "C:\Python27\lib\urllib.py", line 237, in retrieve fp = self.open(url, data) File "C:\Python27\lib\urllib.py", line 205, in open return getattr(self, name)(url) File "C:\Python27\lib\urllib.py", line 342, in open_http h.endheaders(data) File "C:\Python27\lib\httplib.py", line 951, in endheaders self._send_output(message_body) File "C:\Python27\lib\httplib.py", line 811, in _send_output self.send(msg) File "C:\Python27\lib\httplib.py", line 773, in send self.connect() File "C:\Python27\lib\httplib.py", line 754, in connect self.timeout, self.source_address) File "C:\Python27\lib\socket.py", line 553, in create_connection for res in getaddrinfo(host, port, 0, SOCK_STREAM): IOError: [Errno socket error] [Errno 11001] getaddrinfo failed ```
关于python3.x 编写爬虫的报错问题
找了好几天的资料还是没能解决,拜托各位! ``` import urllib.error import urllib.request import urllib.parse url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link HTTP/1.1' data = {} data['type']= 'AUTO' data['i'] = 'I am fine !' data['doctype'] = 'json' data['xmlVersion'] = '1.8' data['keyfrom'] = 'fanyi.web' data['ue'] = 'UTF-8' data['action'] = 'FY_BY_CLICKBUTTON' data['typoResult'] = 'true' head = {} head['User-Agent']= 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0' try: data = urllib.parse.urlencode(data).encode('utf-8') req = urllib.request.Request(url,data,head) response = urllib.request.urlopen(req) html = response.read().decode('utf-8') print(html) except urllib.error.HTTPError as e: print ('Error code : ',e.code) except urllib.error.URLError as e: print ('The reason: ',e.reason) ``` 抛出异常: ![图片说明](https://img-ask.csdn.net/upload/201703/09/1489022080_873412.png)
python中总是显示错误 'ascii' codec can't encode characters in position 0-22: ordinal not in range(128)
在运行爬虫程序的时候总是 'ascii' codec can't encode characters in position 0-22: ordinal not in range(128) 已经用了网上的方法 比如首段加代码转换成utf-8格式之类的 检测也的确已经转化了 但是还是总报错
python 爬虫刚开始学习的一个问题
![图片说明](https://img-ask.csdn.net/upload/201709/14/1505379243_392477.png) 这段代码,当我点Execute Selection in Console时候,可以正常运行,并且结果和教材一致 ![图片说明](https://img-ask.csdn.net/upload/201709/14/1505379267_933740.png) 但是我直接运行这个文件时,就开始报错了 ![图片说明](https://img-ask.csdn.net/upload/201709/14/1505379288_263899.png) 这是怎么回事呢?? 错误信息如下: C:\Users\yzy\AppData\Local\Programs\Python\Python36\python.exe C:/Users/yzy/Desktop/python/webscraping.py Traceback (most recent call last): File "C:\Users\yzy\AppData\Local\Programs\Python\Python36\lib\bz2.py", line 19, in <module> from threading import RLock ImportError: cannot import name 'RLock' During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:/Users/yzy/Desktop/python/webscraping.py", line 4, in <module> from urllib.request import urlopen File "C:\Users\yzy\AppData\Local\Programs\Python\Python36\lib\urllib\request.py", line 98, in <module> import tempfile File "C:\Users\yzy\AppData\Local\Programs\Python\Python36\lib\tempfile.py", line 43, in <module> import shutil as _shutil File "C:\Users\yzy\AppData\Local\Programs\Python\Python36\lib\shutil.py", line 22, in <module> import bz2 File "C:\Users\yzy\AppData\Local\Programs\Python\Python36\lib\bz2.py", line 21, in <module> from dummy_threading import RLock File "C:\Users\yzy\AppData\Local\Programs\Python\Python36\lib\dummy_threading.py", line 49, in <module> sys_modules['_dummy__threading_local'] = sys_modules['_threading_local'] KeyError: '_threading_local' Exception ignored in: <module 'threading' from 'C:\\Users\\yzy\\Desktop\\python\\threading.py'> AttributeError: module 'threading' has no attribute '_shutdown' Process finished with exit code 1
在中国程序员是青春饭吗?
今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...
《MySQL 性能优化》之理解 MySQL 体系结构
本文介绍 MySQL 的体系结构,包括物理结构、逻辑结构以及插件式存储引擎。
程序员请照顾好自己,周末病魔差点一套带走我。
程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。
Python+OpenCV实时图像处理
目录 1、导入库文件 2、设计GUI 3、调用摄像头 4、实时图像处理 4.1、阈值二值化 4.2、边缘检测 4.3、轮廓检测 4.4、高斯滤波 4.5、色彩转换 4.6、调节对比度 5、退出系统 初学OpenCV图像处理的小伙伴肯定对什么高斯函数、滤波处理、阈值二值化等特性非常头疼,这里给各位分享一个小项目,可通过摄像头实时动态查看各类图像处理的特点,也可对各位调参、测试...
2020年一线城市程序员工资大调查
人才需求 一线城市共发布岗位38115个,招聘120827人。 其中 beijing 22805 guangzhou 25081 shanghai 39614 shenzhen 33327 工资分布 2020年中国一线城市程序员的平均工资为16285元,工资中位数为14583元,其中95%的人的工资位于5000到20000元之间。 和往年数据比较: yea...
为什么猝死的都是程序员,基本上不见产品经理猝死呢?
相信大家时不时听到程序员猝死的消息,但是基本上听不到产品经理猝死的消息,这是为什么呢? 我们先百度搜一下:程序员猝死,出现将近700多万条搜索结果: 搜索一下:产品经理猝死,只有400万条的搜索结果,从搜索结果数量上来看,程序员猝死的搜索结果就比产品经理猝死的搜索结果高了一倍,而且从下图可以看到,首页里面的五条搜索结果,其实只有两条才是符合条件。 所以程序员猝死的概率真的比产品经理大,并不是错...
害怕面试被问HashMap?这一篇就搞定了!
声明:本文以jdk1.8为主! 搞定HashMap 作为一个Java从业者,面试的时候肯定会被问到过HashMap,因为对于HashMap来说,可以说是Java集合中的精髓了,如果你觉得自己对它掌握的还不够好,我想今天这篇文章会非常适合你,至少,看了今天这篇文章,以后不怕面试被问HashMap了 其实在我学习HashMap的过程中,我个人觉得HashMap还是挺复杂的,如果真的想把它搞得明明白...
毕业5年,我问遍了身边的大佬,总结了他们的学习方法
我问了身边10个大佬,总结了他们的学习方法,原来成功都是有迹可循的。
python爬取百部电影数据,我分析出了一个残酷的真相
2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%;国产电影总票房411.75亿元,同比增长8.65%,市场占比 64.07%;城市院线观影人次17.27亿,同比增长0.64%。 看上去似乎是一片大好对不对?不过作为一名严谨求实的数据分析师,我从官方数据中看出了一点端倪:国产票房增幅都已经高达8.65%了,为什...
推荐10个堪称神器的学习网站
每天都会收到很多读者的私信,问我:“二哥,有什么推荐的学习网站吗?最近很浮躁,手头的一些网站都看烦了,想看看二哥这里有什么新鲜货。” 今天一早做了个恶梦,梦到被老板辞退了。虽然说在我们公司,只有我辞退老板的份,没有老板辞退我这一说,但是还是被吓得 4 点多都起来了。(主要是因为我掌握着公司所有的核心源码,哈哈哈) 既然 4 点多起来,就得好好利用起来。于是我就挑选了 10 个堪称神器的学习网站,推...
这些软件太强了,Windows必装!尤其程序员!
Windows可谓是大多数人的生产力工具,集娱乐办公于一体,虽然在程序员这个群体中都说苹果是信仰,但是大部分不都是从Windows过来的,而且现在依然有很多的程序员用Windows。 所以,今天我就把我私藏的Windows必装的软件分享给大家,如果有一个你没有用过甚至没有听过,那你就赚了????,这可都是提升你幸福感的高效率生产力工具哦! 走起!???? NO、1 ScreenToGif 屏幕,摄像头和白板...
阿里面试,面试官没想到一个ArrayList,我都能跟他扯半小时
我是真的没想到,面试官会这样问我ArrayList。
曾经优秀的人,怎么就突然不优秀了。
职场上有很多辛酸事,很多合伙人出局的故事,很多技术骨干被裁员的故事。说来模板都类似,曾经是名校毕业,曾经是优秀员工,曾经被领导表扬,曾经业绩突出,然而突然有一天,因为种种原因,被裁员了,...
C语言荣获2019年度最佳编程语言
关注、星标公众号,不错过精彩内容作者:黄工公众号:strongerHuang近日,TIOBE官方发布了2020年1月编程语言排行榜单。我在前面给过一篇文章《2019年11月C语言接近Ja...
大学四年因为知道了这32个网站,我成了别人眼中的大神!
依稀记得,毕业那天,我们导员发给我毕业证的时候对我说“你可是咱们系的风云人物啊”,哎呀,别提当时多开心啦????,嗯,我们导员是所有导员中最帅的一个,真的???? 不过,导员说的是实话,很多人都叫我大神的,为啥,因为我知道这32个网站啊,你说强不强????,这次是绝对的干货,看好啦,走起来! PS:每个网站都是学计算机混互联网必须知道的,真的牛杯,我就不过多介绍了,大家自行探索,觉得没用的,尽管留言吐槽吧???? 社...
良心推荐,我珍藏的一些Chrome插件
上次搬家的时候,发了一个朋友圈,附带的照片中不小心暴露了自己的 Chrome 浏览器插件之多,于是就有小伙伴评论说分享一下我觉得还不错的浏览器插件。 我下面就把我日常工作和学习中经常用到的一些 Chrome 浏览器插件分享给大家,随便一个都能提高你的“生活品质”和工作效率。 Markdown Here Markdown Here 可以让你更愉快的写邮件,由于支持 Markdown 直接转电子邮...
看完这篇HTTP,跟面试官扯皮就没问题了
我是一名程序员,我的主要编程语言是 Java,我更是一名 Web 开发人员,所以我必须要了解 HTTP,所以本篇文章就来带你从 HTTP 入门到进阶,看完让你有一种恍然大悟、醍醐灌顶的感觉。 最初在有网络之前,我们的电脑都是单机的,单机系统是孤立的,我还记得 05 年前那会儿家里有个电脑,想打电脑游戏还得两个人在一个电脑上玩儿,及其不方便。我就想为什么家里人不让上网,我的同学 xxx 家里有网,每...
史上最全的IDEA快捷键总结
现在Idea成了主流开发工具,这篇博客对其使用的快捷键做了总结,希望对大家的开发工作有所帮助。
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
这种新手都不会范的错,居然被一个工作好几年的小伙子写出来,差点被当场开除了。
谁是华为扫地僧?
是的,华为也有扫地僧!2020年2月11-12日,“养在深闺人不知”的华为2012实验室扫地僧们,将在华为开发者大会2020(Cloud)上,和大家见面。到时,你可以和扫地僧们,吃一个洋...
AI 没让人类失业,搞 AI 的人先失业了
最近和几个 AI 领域的大佬闲聊 根据他们讲的消息和段子 改编出下面这个故事 如有雷同 都是巧合 1. 老王创业失败,被限制高消费 “这里写我跑路的消息实在太夸张了。” 王葱葱哼笑一下,把消息分享给群里。 阿杰也看了消息,笑了笑。在座几位也都笑了。 王葱葱是个有名的人物,21岁那年以全额奖学金进入 KMU 攻读人工智能博士,累计发表论文 40 余篇,个人技术博客更是成为深度学习领域内风向标。 ...
2020年,冯唐49岁:我给20、30岁IT职场年轻人的建议
点击“技术领导力”关注∆每天早上8:30推送 作者|Mr.K 编辑| Emma 来源|技术领导力(ID:jishulingdaoli) 前天的推文《冯唐:职场人35岁以后,方法论比经验重要》,收到了不少读者的反馈,觉得挺受启发。其实,冯唐写了不少关于职场方面的文章,都挺不错的。可惜大家只记住了“春风十里不如你”、“如何避免成为油腻腻的中年人”等不那么正经的文章。 本文整理了冯...
一份王者荣耀的英雄数据报告
咪哥杂谈本篇阅读时间约为 6 分钟。1前言前一阵写了关于王者的一些系列文章,从数据的获取到数据清洗,数据落地,都是为了本篇的铺垫。今天来实现一下,看看不同维度得到的结论。2环境准备本次实...
作为一名大学生,如何在B站上快乐的学习?
B站是个宝,谁用谁知道???? 作为一名大学生,你必须掌握的一项能力就是自学能力,很多看起来很牛X的人,你可以了解下,人家私底下一定是花大量的时间自学的,你可能会说,我也想学习啊,可是嘞,该学习啥嘞,不怕告诉你,互联网时代,最不缺的就是学习资源,最宝贵的是啥? 你可能会说是时间,不,不是时间,而是你的注意力,懂了吧! 那么,你说学习资源多,我咋不知道,那今天我就告诉你一个你必须知道的学习的地方,人称...
那些年,我们信了课本里的那些鬼话
教材永远都是有错误的,从小学到大学,我们不断的学习了很多错误知识。 斑羚飞渡 在我们学习的很多小学课文里,有很多是错误文章,或者说是假课文。像《斑羚飞渡》: 随着镰刀头羊的那声吼叫,整个斑羚群迅速分成两拨,老年斑羚为一拨,年轻斑羚为一拨。 就在这时,我看见,从那拨老斑羚里走出一只公斑羚来。公斑羚朝那拨年轻斑羚示意性地咩了一声,一只半大的斑羚应声走了出来。一老一少走到伤心崖,后退了几步,突...
一个程序在计算机中是如何运行的?超级干货!!!
强烈声明:本文很干,请自备茶水!???? 开门见山,咱不说废话! 你有没有想过,你写的程序,是如何在计算机中运行的吗?比如我们搞Java的,肯定写过这段代码 public class HelloWorld { public static void main(String[] args) { System.out.println("Hello World!"); } ...
【蘑菇街技术部年会】程序员与女神共舞,鼻血再次没止住。(文末内推)
蘑菇街技术部的年会,别开生面,一样全是美女。
那个在阿里养猪的工程师,5年了……
简介: 在阿里,走过1825天,没有趴下,依旧斗志满满,被称为“五年陈”。他们会被授予一枚戒指,过程就叫做“授戒仪式”。今天,咱们听听阿里的那些“五年陈”们的故事。 下一个五年,猪圈见! 我就是那个在养猪场里敲代码的工程师,一年多前我和20位工程师去了四川的猪场,出发前总架构师慷慨激昂的说:同学们,中国的养猪产业将因为我们而改变。但到了猪场,发现根本不是那么回事:要个WIFI,没有;...
为什么程序猿都不愿意去外包?
分享外包的组织架构,盈利模式,亲身经历,以及根据一些外包朋友的反馈,写了这篇文章 ,希望对正在找工作的老铁有所帮助
Java校招入职华为,半年后我跑路了
何来 我,一个双非本科弟弟,有幸在 19 届的秋招中得到前东家华为(以下简称 hw)的赏识,当时秋招签订就业协议,说是入了某 java bg,之后一系列组织架构调整原因等等让人无法理解的神操作,最终毕业前夕,被通知调往其他 bg 做嵌入式开发(纯 C 语言)。 由于已至于校招末尾,之前拿到的其他 offer 又无法再收回,一时感到无力回天,只得默默接受。 毕业后,直接入职开始了嵌入式苦旅,由于从未...
世界上有哪些代码量很少,但很牛逼很经典的算法或项目案例?
点击上方蓝字设为星标下面开始今天的学习~今天分享四个代码量很少,但很牛逼很经典的算法或项目案例。1、no code 项目地址:https://github.com/kelseyhight...
立即提问