在学python爬虫时遇到个问题，求解答

 #! /usr/bin/env python
# -*- coding: utf-8 -*-

import urllib
import urllib2
import re

def craw(url, page):
    html1 = urllib2.Request(url)
    response = urllib2.urlopen(html1).read()
    response = str(response)
    pat1 = '<img width="220" height="220" class="err-product" data-img="1" src="//.+?" />'
    imagelist = re.compile(pat1).findall(response)
    x = 1
    for imageurl in imagelist:
                imagename = "D:/手表/" + str(page) + str(x) + ".jpg"
                imagesurl = "http://" + imageurl
                try:
                    urllib.urlretrieve(imagesurl, filename = imagename)
                except urllib2.URLError as e:
                       if hasattr(e, "code"):
                           x += 1
                       if hasattr(e, "reason"):
                           x += 1
                x += 1

for i in range(2,6):
    url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
    craw(url, i)

运行，开始报错：
Traceback (most recent call last):
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 30, in <module>
    craw(url, i)
  File "C:/Users/JIE/Desktop/py file/����ѵ��.py", line 20, in craw
    urllib.urlretrieve(imagesurl, filename = imagename)
  File "C:\Python27\lib\urllib.py", line 91, in urlretrieve
    return _urlopener.retrieve(url, filename, reporthook, data)
  File "C:\Python27\lib\urllib.py", line 237, in retrieve
    fp = self.open(url, data)
  File "C:\Python27\lib\urllib.py", line 205, in open
    return getattr(self, name)(url)
  File "C:\Python27\lib\urllib.py", line 342, in open_http
    h.endheaders(data)
  File "C:\Python27\lib\httplib.py", line 951, in endheaders
    self._send_output(message_body)
  File "C:\Python27\lib\httplib.py", line 811, in _send_output
    self.send(msg)
  File "C:\Python27\lib\httplib.py", line 773, in send
    self.connect()
  File "C:\Python27\lib\httplib.py", line 754, in connect
    self.timeout, self.source_address)
  File "C:\Python27\lib\socket.py", line 553, in create_connection
    for res in getaddrinfo(host, port, 0, SOCK_STREAM):
IOError: [Errno socket error] [Errno 11001] getaddrinfo failed

展开全部

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

9条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大蛇王 2017-12-17 17:16
关注
import urllib
import urllib2
import re

def craw(url, page):
html1 = urllib2.Request(url)
response = urllib2.urlopen(html1).read()
response = str(response)
pat1 = '"//.+?" />'
imagelist = re.compile(pat1).findall(response)
x = 1
print(imagelist)
for imageurl in imagelist:
imagename = str(page) + str(x) + ".jpg"
imagesurl = "http://" + imageurl[3:-4]
print(imagesurl)
try:
urllib.urlretrieve(imagesurl, filename = imagename)
except urllib2.URLError as e:
if hasattr(e, "code"):
x += 1
if hasattr(e, "reason"):
x += 1

x += 1

for i in range(2,6):
url = "https://search.jd.com/Search?keyword=手表%20男&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&suggest=1.def.0.V16&wq=手表&page=" + str(i)
craw(url, i)

正则不对，匹配后的内容和http://拼接后不是正确的url，所以打不开，碰到这些问题逐步print出来就能找到哪里错了
展开全部

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(8条)

编辑

预览

报告相同问题？

关注问题

想请教一下python爬虫中文乱码问题 python 有问必答正则表达式
2021-07-02 14:54

回答 3 已采纳教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考： import reque
python 学了爬虫和一些数据结构、算法以后，再学点什么好 python 数据结构算法
2022-04-11 12:44

回答 2 已采纳事实上，爬虫的知识体系也是比较庞大的（在技能树中）：如果你还有兴趣，可以深挖一下爬虫工程。没兴趣的话，那你可以尝试下web开发、GUI编程、AI，这些都很有趣。你还可以尝试设计一个大型项目，在学习新
python中的accountpool模块没有了吗？ python 爬虫
2022-07-31 08:09

回答 1 已采纳你需要在GitHub上进行下载模块后导入才行哟~ https://bbs.csdn.net/topics/605915124 这个下载地址希望能帮助到你觉得有帮助的话可以点击一下采纳哟，谢谢~
python高阶爬虫实战分析
2020-12-23 14:42

说爬虫一定要先说爬取内容的方法，python有这么几个支持爬虫的库，一个是urllib和它的后续版本库，这个库做爬取的时候生成的中继对象是比较多的，楼主也记不大住都有什么，而且这个库的使用在楼主看
读取文件时，能不能跳过不能编码的字符继续读取？(语言-python) python
2022-07-22 02:28

回答 4 已采纳可以啊，你不指定就是了呀，只是可能你保存的小说是乱码的
python pip安装总是失败 python 爬虫
2018-01-28 19:43

回答 18 已采纳你的bs版本弄错了，应该是 pip install beautifulsoup4 错误提式为语法错误，print后面没有括号，这是python2的写法，很明显你是下错beautifulsoup的版
请问可以把爬虫数据不经过数据库直接显示到html去吗？最近在学django框架 django python
2019-06-25 00:37

回答 2 已采纳 django 的一个页面的基本用法吧。就是请求一个页面，页面返回里render函数可以传递 list的比如有这个例子。 views里的代码 ``` def home(re
Python爬虫系列——正则表达式
2023-06-10 12:10

热爱码码的泽的博客各位猿媛大家好，我是萌新小农，目前大二在读，正在努力学习Py，希望大家能多多关照和支持。也可以私下交流学习。同时也期望我的文章能够为大家带来帮助和解决大家的一些...python中，re库拥有全部正则表达式的功能。
一次性学多个语言现实吗？ c++ python 学习方法
2023-02-25 13:55

回答 2 已采纳该回答内容部分引用GPT，GPT_Pro更好的解决问题学习多种语言可以帮助你更好地理解编程的基本原理，也可以帮助你提升应用能力。但是，一次性学习太多的语言可能会让你感到无从下手，因为你需要花更多的时间
用Request库向百度搜索引擎提交关键词失败？ python 搜索引擎
2020-02-24 17:09

回答 1 已采纳请求头和url里面少了东西，所以报错了 ``` # -*- coding:utf-8 -*- import requests kv = {'wd':'python'} ##请求头里面
html的网络的响应处代码（url为当前网址）和元素里显示的代码 html5 python
2021-07-27 16:06

回答 1 已采纳如果是异步请求再渲染额外内容，那么会不同
Playwright + Python爬虫
2022-06-01 07:54

Anesthesia丶的博客其实就是一个python的一个类库而已，所以使用命令安装即可。安装Playwright后，可以使用命令，会自动安装chromium、firefox、webkit等三款浏览器以及对应的驱动包。当然这个过程比较漫长，因为安装包比较大，
Python爬虫案例练习100+更新中⭐常见案例⭐
2021-03-17 09:33

Harry-iu的博客 python1. 新浪搜索接口爬取2. 访问百度更多页面3. 百度贴吧爬取前n页4. 使用百度翻译接口每天进步亿点点… 1. 新浪搜索接口爬取使用知识document.charset 控制台检查页面编码类型 res.encoding = ‘’ 解码 ...
https原理丨Python爬虫基础入门系列(11)
2022-05-03 09:15

互联网阿星的博客【福利+1】本文主要是关于https原理：证书传递、验证和数据加密、解密过程解析。在学Python爬虫的你，戳进来看看，说不定对你有用噢~
Python爬虫抓取网页丨Python基础实战系列(2)
2022-05-10 14:34

互联网阿星的博客【内含爬虫学习大礼包】继续跟着阿星做出一个Python爬虫实战案例吧！抓取您想要的网页，并将其保存至本地计算机。你刚开始学Python爬虫？那真得进来看看~
没有解决我的问题, 去提问

在学python爬虫时遇到个问题，求解答

9条回答 默认 最新

9条回答默认最新