在学python爬虫时遇到个问题，求解答

 #! /usr/bin/env python
# -*- coding: utf-8 -*-

import urllib
import urllib2
import re

def craw(url, page):
    html1 = urllib2.Request(url)
    response = urllib2.urlopen(html1).read()
    response = str(response)
    pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="//.+?" />'
    imagelist = re.compile(pat1).findall(response)
    x = 1
    for imageurl in imagelist:
                imagename = "D:/手表/" + str(page) + str(x) + ".jpg"
                imagesurl = "http://" + imageurl
                try:
                    urllib.urlretrieve(imagesurl, filename = imagename)
                except urllib2.URLError as e:
                       if hasattr(e, "code"):
                           x += 1
                       if hasattr(e, "reason"):
                           x += 1
                x += 1

for i in range(2,6):
    url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
    craw(url, i)

运行，开始报错：
Traceback (most recent call last):
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 30, in <module>
    craw(url, i)
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 20, in craw
    urllib.urlretrieve(imagesurl, filename = imagename)
  File "C:\Python27\lib\urllib.py", line 91, in urlretrieve
    return _urlopener.retrieve(url, filename, reporthook, data)
  File "C:\Python27\lib\urllib.py", line 237, in retrieve
    fp = self.open(url, data)
  File "C:\Python27\lib\urllib.py", line 205, in open
    return getattr(self, name)(url)
  File "C:\Python27\lib\urllib.py", line 342, in open_http
    h.endheaders(data)
  File "C:\Python27\lib\httplib.py", line 951, in endheaders
    self._send_output(message_body)
  File "C:\Python27\lib\httplib.py", line 811, in _send_output
    self.send(msg)
  File "C:\Python27\lib\httplib.py", line 773, in send
    self.connect()
  File "C:\Python27\lib\httplib.py", line 754, in connect
    self.timeout, self.source_address)
  File "C:\Python27\lib\socket.py", line 553, in create_connection
    for res in getaddrinfo(host, port, 0, SOCK_STREAM):
IOError: [Errno socket error] [Errno 11001] getaddrinfo failed

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

9条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大蛇王 2017-12-18 01:16
关注
import urllib
import urllib2
import re

def craw(url, page):
html1 = urllib2.Request(url)
response = urllib2.urlopen(html1).read()
response = str(response)
pat1 = '"//.+?" />'
imagelist = re.compile(pat1).findall(response)
x = 1
print(imagelist)
for imageurl in imagelist:
imagename = str(page) + str(x) + ".jpg"
imagesurl = "http://" + imageurl[3:-4]
print(imagesurl)
try:
urllib.urlretrieve(imagesurl, filename = imagename)
except urllib2.URLError as e:
if hasattr(e, "code"):
x += 1
if hasattr(e, "reason"):
x += 1

x += 1

for i in range(2,6):
url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
craw(url, i)

正则不对，匹配后的内容和http://拼接后不是正确的url，所以打不开，碰到这些问题逐步print出来就能找到哪里错了
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(8条)

报告相同问题？

关注问题

在学python爬虫时遇到个问题，求解答 python 爬虫
2017-12-12 08:19

回答 9 已采纳 import urllib import urllib2 import re def craw(url, page): html1 = urllib2.Request(url)
想请教一下python爬虫中文乱码问题 python 有问必答正则表达式
2021-07-02 22:54

回答 3 已采纳教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考： import reque
python中的accountpool模块没有了吗？ python 爬虫
2022-07-31 16:09

回答 1 已采纳你需要在GitHub上进行下载模块后导入才行哟~ https://bbs.csdn.net/topics/605915124 这个下载地址希望能帮助到你觉得有帮助的话可以点击一下采纳哟，谢谢~
详解python 破解网站反爬虫的两种简单方法
2020-12-20 17:27

最近在学爬虫时发现许多网站都有自己的反爬虫机制，这让我们没法直接对想要的数据进行爬取，于是了解这种反爬虫机制就会帮助我们找到解决方法。常见的反爬虫机制有判别身份和IP限制两种，下面我们将一一来进行介绍...
python 学了爬虫和一些数据结构、算法以后，再学点什么好 python 数据结构算法
2022-04-11 20:44

回答 2 已采纳事实上，爬虫的知识体系也是比较庞大的（在技能树中）：如果你还有兴趣，可以深挖一下爬虫工程。没兴趣的话，那你可以尝试下web开发、GUI编程、AI，这些都很有趣。你还可以尝试设计一个大型项目，在学习新
读取文件时，能不能跳过不能编码的字符继续读取？(语言-python) python
2022-07-22 10:28

回答 4 已采纳可以啊，你不指定就是了呀，只是可能你保存的小说是乱码的
python pip安装总是失败 python 爬虫
2018-01-29 03:43

回答 18 已采纳你的bs版本弄错了，应该是 pip install beautifulsoup4 错误提式为语法错误，print后面没有括号，这是python2的写法，很明显你是下错beautifulsoup的版
python高阶爬虫实战分析
2020-12-23 22:42

说爬虫一定要先说爬取内容的方法，python有这么几个支持爬虫的库，一个是urllib和它的后续版本库，这个库做爬取的时候生成的中继对象是比较多的，楼主也记不大住都有什么，而且这个库的使用在楼主看
请问可以把爬虫数据不经过数据库直接显示到html去吗？最近在学django框架 django python
2019-06-25 08:37

回答 2 已采纳 django 的一个页面的基本用法吧。就是请求一个页面，页面返回里render函数可以传递 list的比如有这个例子。 views里的代码 ``` def home(re
一次性学多个语言现实吗？ c++ python 学习方法
2023-02-25 21:55

回答 2 已采纳该回答内容部分引用GPT，GPT_Pro更好的解决问题学习多种语言可以帮助你更好地理解编程的基本原理，也可以帮助你提升应用能力。但是，一次性学习太多的语言可能会让你感到无从下手，因为你需要花更多的时间
用Request库向百度搜索引擎提交关键词失败？ python 搜索引擎
2020-02-25 01:09

回答 1 已采纳请求头和url里面少了东西，所以报错了 ``` # -*- coding:utf-8 -*- import requests kv = {'wd':'python'} ##请求头里面
Playwright + Python爬虫
2022-06-01 15:54

Anesthesia丶的博客其实就是一个python的一个类库而已，所以使用命令安装即可。安装Playwright后，可以使用命令，会自动安装chromium、firefox、webkit等三款浏览器以及对应的驱动包。当然这个过程比较漫长，因为安装包比较大，
html的网络的响应处代码（url为当前网址）和元素里显示的代码 html5 python
2021-07-28 00:06

回答 1 已采纳如果是异步请求再渲染额外内容，那么会不同
https原理丨Python爬虫基础入门系列(11)
2022-05-03 17:15

互联网阿星的博客【福利+1】本文主要是关于https原理：证书传递、验证和数据加密、解密过程解析。在学Python爬虫的你，戳进来看看，说不定对你有用噢~
Python爬虫抓取网页丨Python基础实战系列(2)
2022-05-10 22:34

互联网阿星的博客【内含爬虫学习大礼包】继续跟着阿星做出一个Python爬虫实战案例吧！抓取您想要的网页，并将其保存至本地计算机。你刚开始学Python爬虫？那真得进来看看~
没有解决我的问题, 去提问

悬赏问题

¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)