在学python爬虫时遇到个问题,求解答
 #! /usr/bin/env python
# -*- coding: utf-8 -*-

import urllib
import urllib2
import re

def craw(url, page):
    html1 = urllib2.Request(url)
    response = urllib2.urlopen(html1).read()
    response = str(response)
    pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="//.+?" />'
    imagelist = re.compile(pat1).findall(response)
    x = 1
    for imageurl in imagelist:
                imagename = "D:/手表/" + str(page) + str(x) + ".jpg"
                imagesurl = "http://" + imageurl
                try:
                    urllib.urlretrieve(imagesurl, filename = imagename)
                except urllib2.URLError as e:
                       if hasattr(e, "code"):
                           x += 1
                       if hasattr(e, "reason"):
                           x += 1
                x += 1

for i in range(2,6):
    url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
    craw(url, i)

运行,开始报错:
Traceback (most recent call last):
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 30, in <module>
    craw(url, i)
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 20, in craw
    urllib.urlretrieve(imagesurl, filename = imagename)
  File "C:\Python27\lib\urllib.py", line 91, in urlretrieve
    return _urlopener.retrieve(url, filename, reporthook, data)
  File "C:\Python27\lib\urllib.py", line 237, in retrieve
    fp = self.open(url, data)
  File "C:\Python27\lib\urllib.py", line 205, in open
    return getattr(self, name)(url)
  File "C:\Python27\lib\urllib.py", line 342, in open_http
    h.endheaders(data)
  File "C:\Python27\lib\httplib.py", line 951, in endheaders
    self._send_output(message_body)
  File "C:\Python27\lib\httplib.py", line 811, in _send_output
    self.send(msg)
  File "C:\Python27\lib\httplib.py", line 773, in send
    self.connect()
  File "C:\Python27\lib\httplib.py", line 754, in connect
    self.timeout, self.source_address)
  File "C:\Python27\lib\socket.py", line 553, in create_connection
    for res in getaddrinfo(host, port, 0, SOCK_STREAM):
IOError: [Errno socket error] [Errno 11001] getaddrinfo failed

9个回答

import urllib
import urllib2
import re

def craw(url, page):
html1 = urllib2.Request(url)
response = urllib2.urlopen(html1).read()
response = str(response)
pat1 = '"//.+?" />'
imagelist = re.compile(pat1).findall(response)
x = 1
print(imagelist)
for imageurl in imagelist:
imagename = str(page) + str(x) + ".jpg"
imagesurl = "http://" + imageurl[3:-4]
print(imagesurl)
try:
urllib.urlretrieve(imagesurl, filename = imagename)
except urllib2.URLError as e:
if hasattr(e, "code"):
x += 1
if hasattr(e, "reason"):
x += 1

            x += 1

for i in range(2,6):
url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
craw(url, i)

正则不对,匹配后的内容和http://拼接后不是正确的url,所以打不开,碰到这些问题逐步print出来就能找到哪里错了

Ericjohnn
Ericjohnn 谢谢你啊,已经解决了
接近 2 年之前 回复
Ericjohnn
Ericjohnn 的确是我正则表达式写错了,但是像你这样改的话,爬出来的东西就不仅仅是手表了
接近 2 年之前 回复

地址和端口号,估计你的地址有问题

先打印一下imagesurl,估计它的地址有问题。或者你的网络不能访问这个URL

1、你提取图片网址的正则表达式有问题,你得到的列表应该img标签的列表,而不是网址的列表,应该修改为:pat1 = '',加一个group分组
2、中文目录需要处理一下:imagename=unicode(imagename)
3、小问题,你的编码设置好像有点问题

timezhourenquan
timezhourenquan pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="(//.+?)" />'他自动转为网址了
接近 2 年之前 回复

网络可能不可以访问这个URL

1、你提取图片网址的正则表达式有问题,你得到的列表应该img标签的列表,而不是网址的列表,应该修改为:pat1 = \'\',加一个group分组,我测试应该是可以的
2、中文目录需要处理一下:imagename=unicode(imagename)
3、小问题,你的编码设置好像有点问题

首先, python2里面中文字符串要带u开头, 你url就没弄好
其次, 为什么不用requests库, 原生的urllib 默认不带自动urlencode功能,中文可能没encode成百分号那种编码

本人刚学python 的爬虫,就去爬京东的手表图片练手,然后一直报错,代码,错误都在上面了,求解决呀

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
请教一个 Python 爬虫信息提取问题
-
Python scrapy爬虫问题
-
最近在学python3,想知道requests 和urllib有什么区别
-
Python编程驾驶飞船游戏。
-
最近在学python selenium模块。模拟浏览器登录网页
-
请问可以把爬虫数据不经过数据库直接显示到html去吗?最近在学django框架
-
Python 3.4 filedialog怎么选择多个文件
-
用C语言编译完成这个程序,但我现在在学Java,对C的了解不多,希望大触们能帮帮我
-
Python小白求问,想做Python web开发 ,数据库部分得学什么?比如MySQL得学到什么程度?必须掌握哪些内容?
-
python pip安装总是失败
-
python使用simpledialog出现RuntimeError: main thread is not in main loop的问题
-
关于ajax中发送不到servlet的问题
-
MapReducer中Reducer是如何完成key的遍历的?
-
学习ASP.NET动态Web开发技术下载VS2019Community需要选择什么功能?
-
python 的数据 怎么显示到html5上
-
请问论坛大佬解释一下printf输出long double 类型的值时输出错误的原因。
-
python怎样模拟登录百度贴吧
-
求用scrapy抓取天猫中T恤的评论
-
如何在PYTHON中调用windows的可执行文件?
-
程序员实用工具网站
目录 1、搜索引擎 2、PPT 3、图片操作 4、文件共享 5、应届生招聘 6、程序员面试题库 7、办公、开发软件 8、高清图片、视频素材网站 9、项目开源 10、在线工具宝典大全 程序员开发需要具备良好的信息检索能力,为了备忘(收藏夹真是满了),将开发过程中常用的网站进行整理。 1、搜索引擎 1.1、秘迹搜索 一款无敌有良心、无敌安全的搜索引擎,不会收集私人信息,保...
我花了一夜用数据结构给女朋友写个H5走迷宫游戏
起因 又到深夜了,我按照以往在csdn和公众号写着数据结构!这占用了我大量的时间!我的超越妹妹严重缺乏陪伴而 怨气满满! 而女朋友时常埋怨,认为数据结构这么抽象难懂的东西没啥作用,常会问道:天天写这玩意,有啥作用。而我答道:能干事情多了,比如写个迷宫小游戏啥的! 当我码完字准备睡觉时:写不好别睡觉! 分析 如果用数据结构与算法造出东西来呢? ...
别再翻了,面试二叉树看这 11 个就够了~
写在前边 数据结构与算法: 不知道你有没有这种困惑,虽然刷了很多算法题,当我去面试的时候,面试官让你手写一个算法,可能你对此算法很熟悉,知道实现思路,但是总是不知道该在什么地方写,而且很多边界条件想不全面,一紧张,代码写的乱七八糟。如果遇到没有做过的算法题,思路也不知道从何寻找。面试吃了亏之后,我就慢慢的做出总结,开始分类的把数据结构所有的题型和解题思路每周刷题做出的系统性总结写在了 Github...
让程序员崩溃的瞬间(非程序员勿入)
今天给大家带来点快乐,程序员才能看懂。 来源:https://zhuanlan.zhihu.com/p/47066521 1. 公司实习生找 Bug 2.在调试时,将断点设置在错误的位置 3.当我有一个很棒的调试想法时 4.偶然间看到自己多年前写的代码 5.当我第一次启动我的单元测试时 ...
接私活必备的 10 个开源项目!
点击蓝色“GitHubDaily”关注我加个“星标”,每天下午 18:35,带你逛 GitHub!作者 | SevDot来源 | http://1t.click/VE8W...
GitHub开源的10个超棒后台管理面板
目录 1、AdminLTE 2、vue-Element-Admin 3、tabler 4、Gentelella 5、ng2-admin 6、ant-design-pro 7、blur-admin 8、iview-admin 9、material-dashboard 10、layui 项目开发中后台管理平台必不可少,但是从零搭建一套多样化后台管理并不容易,目前有许多开源、免费、...
Git 天天用 但是 Git 原理你了解吗?
Git 原理 做技术一定要知其然知其所以然,意思就是:知道它是这样的,更知道它为什么是这样的。我主要通过4块内容来简单介绍 Git 是原理是什么样的。这4块内容如下: Git 存储目录结构介绍 Git 是如何存储的 Git 的对象 Git引用 当然 Git 原理不仅仅包含这些,想要更深入了解请查看官方教程 https://git-scm.com/book/zh/v2/。 本文内容是我在 Git...
100 个网络基础知识普及,看完成半个网络高手
欢迎添加华为云小助手微信(微信号:HWCloud002或HWCloud003),输入关键字“加群”,加入华为云线上技术讨论群;输入关键字“最新活动”,获取华为云最新特惠促销。华为云诸多技术大咖、特惠活动等你来撩! 1)什么是链接? 链接是指两个设备之间的连接。它包括用于一个设备能够与另一个设备通信的电缆类型和协议。 2)OSI 参考模型的层次是什么? 有 7 个 OSI 层:物理...
漫画:什么是摩尔斯电码?
摩尔斯电码是什么摩尔斯电码(Morse code),是1837年由美国人发明,本质上是一种对信息的编码,最初用于人们的远程通信。那个时候,人们连电话都还没发明出来,更不用...
中国最顶级的一批程序员,从首富到首负!
过去的20年是程序员快意恩仇的江湖时代通过代码,实现梦想和财富有人痴迷于技术,做出一夜成名的产品有人将技术变现,创办企业成功上市这些早一代的程序员们创造的奇迹引发了一浪高...
为什么面向对象糟透了?
又是周末,编程语言“三巨头”Java, Lisp 和C语言在Hello World咖啡馆聚会。服务员送来咖啡的同时还带来了一张今天的报纸, 三人寒暄了几句, C语言翻开了...
分享靠写代码赚钱的一些门路
作者 mezod,译者 josephchang10如今,通过自己的代码去赚钱变得越来越简单,不过对很多人来说依然还是很难,因为他们不知道有哪些门路。今天给大家分享一个精彩...
对计算机专业来说学历真的重要吗?
我本科学校是渣渣二本,研究生学校是985,现在毕业五年,校招笔试、面试,社招面试参加了两年了,就我个人的经历来说下这个问题。 这篇文章很长,但绝对是精华,相信我,读完以后,你会知道学历不好的解决方案,记得帮我点赞哦。 先说结论,无论赞不赞同,它本质就是这样:对于技术类工作而言,学历五年以内非常重要,但有办法弥补。五年以后,不重要。 目录: 张雪峰讲述的事实 我看到的事实 为什么会这样 ...
在线就能用的Linux我给你找好了
来源:公众号【编程珠玑】 作者:守望先生 网站:https://www.yanbinghu.com 前言 是不是不想装虚拟机,还想体验一下Linux?是不是自己的电脑不在,又想搞事情?今天给大家推荐几个在线就可以玩的Linux环境以及学习Shell的地方。 在线Linux环境 如果你不想安装虚拟机,这里提供几个在线就能把玩Linux的网站,他们不需要注册用户,可以直接使用。 Unix...
世界上最好的学习法:费曼学习法
你是否曾幻想读一遍书就记住所有的内容?是否想学习完一项技能就马上达到巅峰水平?除非你是天才,不然这是不可能的。对于大多数的普通人来说,可以通过笨办法(死记硬背)来达到学习的目的,但效率低下。当然,也可以通过优秀的学习法来进行学习,比如今天讲的“费曼学习法”,可以将你的学习效率极大的提高。 费曼学习法是由加拿大物理学家费曼所发明的一种高效的学习方法,费曼本身是一个天才,13岁自学微积分,24岁加入曼...
学Linux到底学什么
来源:公众号【编程珠玑】 作者:守望先生 网站:https://www.yanbinghu.com/2019/09/25/14472.html 前言 ​我们常常听到很多人说要学学Linux或者被人告知说应该学学Linux,那么学Linux到底要学什么? 为什么要学Linux 在回答学什么之前,我们先看看为什么要学。首先我们需要认识到的是,很多服务器使用的是Linux系统,而作为服务器应...
深入理解C语言指针
一、指针的概念 要知道指针的概念,要先了解变量在内存中如何存储的。在存储时,内存被分为一块一块的。每一块都有一个特有的编号。而这个编号可以暂时理解为指针,就像酒店的门牌号一样。 1.1、变量和地址 先写一段简单的代码: void main(){ int x = 10, int y = 20; } 这段代码非常简单,就是两个变量的声明,分别赋值了 10、20。我们把内存当做一个酒店,而每个房间就...
C语言实现推箱子游戏
很早就想过做点小游戏了,但是一直没有机会动手。今天闲来无事,动起手来。过程还是蛮顺利的,代码也不是非常难。今天给大家分享一下~ 一、介绍 开发语言:C语言 开发工具:Dev-C++ 5.11 日期:2019年9月28日 作者:ZackSock 也不说太多多余的话了,先看一下效果图: 游戏中的人物、箱子、墙壁、球都是字符构成的。通过wasd键移动,规则的话就是推箱子的规则,也就不多说了。 二、代...
面试官:兄弟,说说基本类型和包装类型的区别吧
Java 的每个基本类型都对应了一个包装类型,比如说 int 的包装类型为 Integer,double 的包装类型为 Double。基本类型和包装类型的区别主要有以下 4 点。
焦虑的互联网人及35岁定律
一、35岁定律 好像现在整个互联网行业都在贩卖焦虑,从之前的30岁淘汰,到现在的35岁,到最新的39.9岁,你会发现,年龄趋势怎么在上升啊,对了兄弟,就是那一批人嘛,他们每年涨一岁,可不就是焦虑年龄越来越大了。 最早我看到的新闻是说,第一批互联网人都赶上了好时候,现在差不多五十岁左右,要么创业成功,要么在大公司做股东,反正都是实现了经济自由的一波人,包括马老师,都是那一拨。 那剩下的呢?有人...
8000字干货:那些很厉害的人是怎么构建知识体系的
本文约8000字,正常阅读需要15~20分钟。读完本文可以获得如下收益: 分辨知识和知识体系的差别 理解如何用八大问发现知识的连接点; 掌握致用类知识体系的构建方法; 能够应用甜蜜区模型找到特定领域来构建知识体系。 1. 知识体系?有必要吗? 小张准备通过跑步锻炼身体,可因为之前听说过小腿变粗、膝盖受伤、猝死等等与跑步有关的意外状况,有点担心自己会掉进各种坑里,就在微信上问朋友圈一直晒跑步...
相关热词 c#线程阻塞的方法 c#获取文件所在路径 c#mysql添加删除 c# 分段处理 大文件 c#list 头加元素 c# textbox密码 c# 循环 时间间隔 c#判断访问设备 c# sso开源框 c#dataset增加列