lyton_online 2018-10-10 02:58 采纳率: 0%
浏览 1799

为什么python爬虫程序下载的图片不正确?

import re
import urllib.request

def open_url(url):

user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'
headers={'User-Agent':user_agent,'Referer':'http://www.mmjpg.com/mm/1317'}
reg=urllib.request.Request(url,headers)
response=urllib.request.urlopen(url)
html=response.read()

 return html

def craw(url,page):
html=open_url(url)
html1=str(html)

pat1='<div class="content" id="content">.+?<div class="page" id="page">'

result1=re.compile(pat1).findall(html1)
result1=result1[0]

pat2='<div class="content" id="content"><a href=".*"><img src="(.+?.jpg)"'  

imagelist=re.compile(pat2).findall(result1)

  for each in imagelist:
            print(each)       #能够正确抓取图片地址
    imgname=each.split('/')[-1]
    fandler=open('D:/files/download/'+imgname,'wb')
    data=open_url(each)
    fandler.write(data)
    fandler.close()

for i in range(1,49):
url='http://www.mmjpg.com/mm/1317/'+str(i)
craw(url,i)

爬虫能够正确抓取图片的地址,但下载在电脑上的图片如下:
图片说明

请教高手原因出在哪?

  • 写回答

1条回答 默认 最新

  • lyhsdy 2018-10-10 03:45
    关注

    图片地址做了反爬,你直接复制图片地址在浏览器上打开就是你下载下来的图片,所以你需要在请求图片网址时,data=open_url(each) 你的headers错误了,应该是headers={'User-Agent':user_agent,'Referer':'http://www.mmjpg.com/mm/1317''+str(i)}

    评论

报告相同问题?

悬赏问题

  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?
  • ¥15 c++头文件不能识别CDialog