为什么python爬虫程序下载的图片不正确?

import re
import urllib.request

def open_url(url):

user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'
headers={'User-Agent':user_agent,'Referer':'http://www.mmjpg.com/mm/1317'}
reg=urllib.request.Request(url,headers)
response=urllib.request.urlopen(url)
html=response.read()

 return html

def craw(url,page):
html=open_url(url)
html1=str(html)

pat1='<div class="content" id="content">.+?<div class="page" id="page">'

result1=re.compile(pat1).findall(html1)
result1=result1[0]

pat2='<div class="content" id="content"><a href=".*"><img src="(.+?.jpg)"'  

imagelist=re.compile(pat2).findall(result1)

  for each in imagelist:
            print(each)       #能够正确抓取图片地址
    imgname=each.split('/')[-1]
    fandler=open('D:/files/download/'+imgname,'wb')
    data=open_url(each)
    fandler.write(data)
    fandler.close()

for i in range(1,49):
url='http://www.mmjpg.com/mm/1317/'+str(i)
craw(url,i)

爬虫能够正确抓取图片的地址,但下载在电脑上的图片如下:
图片说明

请教高手原因出在哪?

1个回答

图片地址做了反爬,你直接复制图片地址在浏览器上打开就是你下载下来的图片,所以你需要在请求图片网址时,data=open_url(each) 你的headers错误了,应该是headers={'User-Agent':user_agent,'Referer':'http://www.mmjpg.com/mm/1317''+str(i)}

lyton_online
lyton_online 修改了header是里面的referer数据,但还是不行,下载的图片依然不对
12 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
图片爬虫程序
使用正则式匹配图片URL,爬取但网页图片,友好显示
python爬虫程序
利用python编写的一个爬取CNNIC信息的程序。
用Python写的美女图片爬虫程序
用Python写的的美女爬虫程序,在自己电脑测试可行,已经爬取了上千的美女图片,有需要的朋友可以研究一下,代码相对还是比较简单易懂的....
图片爬虫程序 JAVA
package com.liyiwen.Crawler; import java.io.*; import java.net.MalformedURLException; import java.net.URL; import java.net.URLConnection; import java.util.ArrayList; import java.util.Collection; impo
SEO python 爬虫程序
SEO Python爬虫程序
一个简单的python爬虫程序
一个简单的python爬虫程序
CVPR2017_Papers下载爬虫程序
每年CVPR总是要看不少papers,于是,不如把所有papers都下载下来,再一一筛选,免去了在线查找的麻烦。So,下载就是简单的不能再简单的爬虫程序,毕竟,山不在高,有仙则名,水不在深,有龙则灵,code不在全,能用就行!
很土的python爬虫程序
#!/usr/bin/env python # -*- coding: utf-8 -*- import re import requests f = open('1.txt','r') html = f.read() f.close() pic_url = re.findall('<img src="/(.*?)"',html,re.S) i = 0 for each in pic_url:
请教Python做爬虫程序
请教各位高手,谁用Python做过爬虫程序?rnrn用什么模块,框架,具体的思路是怎样?rnrn谁能告诉小弟一下阿?rn谢谢~!!
Python新浪微博爬虫程序.docx
Python新浪微博爬虫程序.docx 讲的清楚明白 清晰 很完善 适合基础不好的学习
python简单的爬虫程序
linux下爬取某一网站的图片到制定文件夹
Python起步之爬虫程序
第一部分(基本知识准备阶段): 一、Python3.x的urllib使用例子(此部分转载自:http://blog.csdn.net/zsuguangh/article/details/6226385 2.x版本的python可以直接使用import urllib来进行操作,但是3.x版本的python使用的是import urllib.request来进行操作,下面是简单的例子: ====
一个Python 爬虫程序
一个简单的实现煎蛋网妹子图片爬取的Python脚本# -*- coding:utf-8 -*- ''' version:Python 2.6 standard libs: urllib author:Dead_morning system: cetos 6.5 ''' import re import urllibdef get_content(html_page): '''html downlad
简单的python爬虫程序
首先文章是看的别人的 https://www.cnblogs.com/xueweihan/p/4592212.html 相比较下,我的更简单些。 爬取的网站是http://bohaishibei.com/post/category/main/ 过程的话,可以看上面那位作者写的过程。我在本文中就不一一赘述了。 下面直接上代码。记录自己的学习过程 import re from urlli...
糗事百科python爬虫程序
python程序用于自动获取糗事百科的内容
Python新浪微博爬虫程序
写在前面:本文比较详细,不想看啰嗦的可以直接到这里下载源码0x00. 起因因为参加学校大学生创新竞赛,研究有关微博博文表达的情绪,需要大量微博博文,而网上无论是国内的某度、csdn,还是国外谷歌、gayhub、codeproject等都找不到想要的程序,没办法只能自己写一个程序了。 ps.在爬盟找到类似的程序,但是是windows下的,并且闭源,而且最终爬取保存的文件用notepad++打开有很多
简单的Python爬虫程序
# coding=utf-8 import urllib import re f = urllib.urlopen("http://tieba.baidu.com/p/4093780003") html = f.read() f.close() reg = r'src="(.+?\.jpg)"' imgre = re.compile(reg) imglist = re.findall(img
python爬虫程序(python3.6版本)
python的爬虫程序,适用于python3.6以上的版本,效果非常的好。
爬虫程序的简单介绍(Python)
关于Python实现爬虫程序的一些总结。
python 简单网络爬虫程序
注释清晰 简单易懂 适合刚刚接触网络爬虫以及python语言的初学者
python简单爬虫程序
简单爬取百度壁纸的python程序
python爬虫程序相关学习
一直对爬虫程序非常感兴趣,因此收集相关资料以供自己学习 python实现简单爬虫功能,获取图片 http://www.cnblogs.com/fnng/p/3576154.html python入门教程 http://www.runoob.com/python/python-install.html
python:第一个简单爬虫程序
爬虫的套路 爬虫就是模拟浏览器行为,将别人网站的内容,抓取下来,提取自己想要的内容。 第一步:分析爬取网站的url,请求的url需要哪些参数呀,要不要用户认证等。 第二步:模拟浏览器行为进行网络请求。 第三步:数据保存,在保存之前可以做数据清洗过滤等操作。 代码的展示 from urllib import request def main(): # 1、url ur
【Python】Python下载动态页面图片
1.搭建Selenium环境:pip install selenium到D:\python3.6.5\Lib\site-packages下把selenium文件夹复制到D:\python3.6.5\Lib2.下载安装32位的chrome浏览器:https://www.chromedownloads.net/chrome32win-stable/759.html注意:需要使用32位的浏览器,如果本身...
爬虫程序
from bs4 import BeautifulSoup import requests def one(url): r = requests.get(url, allow_redirects = False) fin = r.text soup = BeautifulSoup(fin,'html.parser') comments = soup.find('d...
python 下载网页图片
[code=&quot;python&quot;] #encoding=utf-8 ''' Created on Dec 7, 2011 @author: cooler ''' import urllib2 import urllib import os imagepath=[&quot;http://hdn.xnimg.cn/photos/hdn221/20110528/1145/tiny_QKbC...
python下载批量图片
参考http://www.jianshu.com/p/1f63fa9d1c20 需要下载数据集,尝试自己写,使用multiprocessing库中的Pool类,对代码小作修改: import urllib import time import socket from multiprocessing import Pool def save_pic(pic_url,pic_name)
python下载网页图片
我想下载维基百科上的一幅图片,rn下载地址是:url=“http://upload.wikimedia.org/wikipedia/commons/3/36/Mount_Yu_Shan_-_Taiwan.jpg”rn我写了一段代码是:rnrnimport os,urllib2,urllibrnpath='E:\img'rnfile_name='1.jpg'rnfile_name= os.path.join(path,file_name)rnurl="http://upload.wikimedia.org/wikipedia/commons/3/36/Mount_Yu_Shan_-_Taiwan.jpg"rntry:rn urllib.urlretrieve(url , file_name)rnexcept:rn print '\tError retrieving the URL:', file_namernrn可是图片却下载不下来,不知是哪里的错误。希望大家指点迷津,新手,见笑~~~~rn
python 下载百度贴吧图片
主程序 #!/usr/bin/python # -*-coding:utf-8-*- import urllib.parse, urllib.request, http.cookiejar, re, time import tools import threading from db import db class tieba(threading.Thread): '下载贴吧图片'
python 下载百度图片
百度图片是动态加载的,本例只是抓取了网页上的js源码,做的正则匹配 #encoding=utf-8 import urllib, urllib2 import os import re url = r'http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&f
java图片爬虫程序,包括连接数据库
用java编写的网络图片爬虫程序,可以按网页URL名称保存图片,连接MySql数据库,有爬取深度。
爬虫程序爬虫程序 java 数据挖掘
爬虫程序 java爬虫程序 java 数据挖掘爬虫程序 java 数据挖掘爬虫程序 java 数据挖掘
网页爬虫及解析
https://www.ibm.com/developerworks/cn/opensource/os-cn-crawler/
网络爬虫程序-网络爬虫程序
网络爬虫程序-网络爬虫程序-网络爬虫程序
python scrapy框架下的爬虫程序
豹哥用的是python3.6.4,安装scrapy 废了老大事了,pip失败然后逐个安装最好才好的,scrapy框架不会的大家针对自己的版本去查看网上的教程,特别多,而且也很简单易懂,豹哥就不逐个列举了。在cmd中检查scrapy 安装成功后在cmd中创建项目命令如下:scrapy startproject MyCraw然后在C盘里边-&amp;gt;user-&amp;gt;MyCraw-&amp;gt;spiders...
用python写一个爬虫程序
写一个爬虫程序,访问广西空气质量实时发布系统 网页实时获取南宁市各个站点的PM2.5的值(要在后台运行,实时获取)把获取的值存放到Python内置的数据库里面,这是我同学的作业,本人没学过python,但是为了情义,再怎么难也要帮他写出来,于是我花了两天的时间,绞尽脑汁,终于帮我同学完成了,这也是我人生中第一个python程序。 首先要做准备工作,去我的资源库里找到python爬虫并在后
Python爬虫程序学习资料网址
本文为作者初学爬虫时的参考资料~ P.S. 感谢其他博主的分享 0、综述 http://blog.csdn.net/mack415858775/article/details/40182187 1、正则表达式 http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 2、在采集网页信息的时候,经常
[python爬虫] 抓取糗事百科的爬虫程序
抓取糗事百科的爬虫程序先贴上代码,等假期回家了把过程写一写# -*- coding:utf-8 -*- import re import urllib2 page = 1 url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows N
python关于小说的简易爬虫程序
关于小说的简易爬虫,仅供大家进行学习参考,有问题可以一块讨论
Python爬虫程序(获取ip所在地)
批量查询ip所在地
相关热词 c# stream 复制 android c# c#监测窗口句柄 c# md5 引用 c# 判断tabtip 自己写个浏览器程序c# c# 字符串变成整数数组 c#语言编程写出一个方法 c# 转盘抽奖 c#选中treeview