2 lzyzsere lzyzsere 于 2016.04.22 00:33 提问

python3 爬取https指向的图片链接 问题

初学python爬虫部分,昨天动手做了做爬取网页图片并且下载的小程序。
发现网页中有的图片可以被下载并且保存在本地,有的却不能。
查看了下网页代码原来可以被爬取的是

而不能被爬取的是
用urllib包好像处理不了

请问如何解决

附上程序报错提示
Traceback (most recent call last):
File "D:\Python34\lib\urllib\request.py", line 1182, in do_open
h.request(req.get_method(), req.selector, req.data, headers)
File "D:\Python34\lib\http\client.py", line 1088, in request
self._send_request(method, url, body, headers)
File "D:\Python34\lib\http\client.py", line 1126, in send_request
self.endheaders(body)
File "D:\Python34\lib\http\client.py", line 1084, in endheaders
self._send_output(message_body)
File "D:\Python34\lib\http\client.py", line 922, in _send_output
self.send(msg)
File "D:\Python34\lib\http\client.py", line 857, in send
self.connect()
File "D:\Python34\lib\http\client.py", line 1231, in connect
server_hostname=server_hostname)
File "D:\Python34\lib\ssl.py", line 365, in wrap_socket
_context=self)
File "D:\Python34\lib\ssl.py", line 583, in __init
_
self.do_handshake()
File "D:\Python34\lib\ssl.py", line 810, in do_handshake
self._sslobj.do_handshake()
ssl.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:600)

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
File "D:\py_practice\pachong_rumen_1024.py", line 45, in
bytes = urllib.request.urlopen(url);
File "D:\Python34\lib\urllib\request.py", line 161, in urlopen
return opener.open(url, data, timeout)
File "D:\Python34\lib\urllib\request.py", line 463, in open
response = self._open(req, data)
File "D:\Python34\lib\urllib\request.py", line 481, in _open
'_open', req)
File "D:\Python34\lib\urllib\request.py", line 441, in _call_chain
result = func(*args)
File "D:\Python34\lib\urllib\request.py", line 1225, in https_open
context=self._context, check_hostname=self._check_hostname)
File "D:\Python34\lib\urllib\request.py", line 1184, in do_open
raise URLError(err)
urllib.error.URLError:

4个回答

lzyzsere
lzyzsere   2016.04.22 00:37

```可以被爬取的是
不可以被爬取的是




CSDNXIAOD
CSDNXIAOD   2016.04.22 00:42

Python3爬取图片
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

oyljerry
oyljerry   Ds   Rxr 2016.04.22 11:26

图片的网址对比一下是否有问题,两者图片地址用浏览器分别打开试试

qq_23214785
qq_23214785   2016.05.25 11:32

写爬虫,用神箭手云爬虫吧,比其他爬虫框架快多了,官方客服mm很热情

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
python 爬取图片网站图片链接并下载收集
python进行图片网站图片收集,主要分成如下几个部分:(1)进行网站html页面分析,分析你要找到的图片的链接,以及每个链接url是怎么构成的,如果通过爬取页面的html获取这些图片的链接(2)通过python将这些已知链接的图片下载下来注意这行代码header = {"Referer":"http://", "User-agent":"Mozilla/5.0"} #输入和imagepage类...
爬取豆瓣图片链接(Java)
目的  爬取豆瓣某页图片链接:秒速5厘米 秒速5センチメートル的剧照思路  总体思路:一页一页的获得每一页的图片链接。对于每一页,既获得下一页的页面地址,也获得本页的图片链接。   一个例子:https://img3.doubanio.com/view/photo/photo/public/p2407668722.jpg。 这并不是原图链接。由于没有模拟登陆,无法查看原图链接。但经过比对分析,只需
python3爬虫爬取网页图片简单示例
本人也是刚刚开始学习python的爬虫技术,然后本来想在网上找点教程来看看,谁知道一搜索,大部分的都是用python2来写的,新手嘛,一般都喜欢装新版本。于是我也就写一个python3简单的爬虫,爬虫一下贴吧的图片吧。话不多说,我们开始。
python3 爬虫--网页图片爬取
数据越来越爆炸的今天,数据的获取显得越为重要,Python爬虫正是简洁高效的数据获取工具。
python3 登陆https,并抓取信息
刚开始学python,直接下了3.1版本的python。需要做一个登录https页面,获得信息的程序,但是发现网上很多例子都是python 2.x版本的,而且2跟3还有很大的差异,比如2下有urllib、urllib2两种库,而到了python 3上只有urllib了,所以其下的很多函数的调用方式也有不同。另外python 3下的print必须带括号,网上很多python 2的例子好像都没有。#!/usr/bin/env python #coding=utf-8 import urllib impor
Python3.x爬虫下载网页图片
详细的讲解Python爬虫下载网站图片
python爬虫--re结合xpath爬取图片
背景:虚拟机ubuntu16.04利用xpath与爬取www.uumnt.cc/图片当然,我们要爬取的是动物板块!程序分析,将动物板块一页一页分析拿取出来,然后拿去各种动物页面的链接,然后对链接分析拿取图片(每个链接拿取4张图)效果为:源码如下: 1 # -*- coding:utf-8 -*- 2 3 #准备爬取https://www.uumnt.cc/dongwu/的一些图片 ...
python3实现豆瓣top250电影信息爬取
#python3 #网页基本电影信息提取,即不包括动态内容(评论内容等) #未写入文件,可自行添加 #使用bs4,而不是正则 ##https://movie.douban.com/top250?start=0&filter= ##https://movie.douban.com/top250?start=25&filter= ##https://movie.douban.com/t
python3使用正则爬取妹子图
# encoding:utf-8 import re # 使用正则 匹配想要的图片 import requests #使用requests得到网页源码 这里就简单的做一个函数 # 定义mzt函数 def mzt(): num = 1 # 这个是用来编辑图片的名字 (因为不喜欢看他原来图片的名字感觉乱乱的) for i in range(0, 100): # 循环100次 (
Python3~爬取某公司招聘信息
from urllib import request from bs4 import BeautifulSoup import ssl import json ssl._create_default_https_context=ssl._create_unverified_context def bs4_parse(list_obj): item_list=[] for tr...