lyton_online 2018-10-10 02:58 采纳率: 0%
浏览 1799

为什么python爬虫程序下载的图片不正确?

import re
import urllib.request

def open_url(url):

user_agent='Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134'
headers={'User-Agent':user_agent,'Referer':'http://www.mmjpg.com/mm/1317'}
reg=urllib.request.Request(url,headers)
response=urllib.request.urlopen(url)
html=response.read()

 return html

def craw(url,page):
html=open_url(url)
html1=str(html)

pat1='<div class="content" id="content">.+?<div class="page" id="page">'

result1=re.compile(pat1).findall(html1)
result1=result1[0]

pat2='<div class="content" id="content"><a href=".*"><img src="(.+?.jpg)"'  

imagelist=re.compile(pat2).findall(result1)

  for each in imagelist:
            print(each)       #能够正确抓取图片地址
    imgname=each.split('/')[-1]
    fandler=open('D:/files/download/'+imgname,'wb')
    data=open_url(each)
    fandler.write(data)
    fandler.close()

for i in range(1,49):
url='http://www.mmjpg.com/mm/1317/'+str(i)
craw(url,i)

爬虫能够正确抓取图片的地址,但下载在电脑上的图片如下:
图片说明

请教高手原因出在哪?

  • 写回答

1条回答 默认 最新

  • lyhsdy 2018-10-10 03:45
    关注

    图片地址做了反爬,你直接复制图片地址在浏览器上打开就是你下载下来的图片,所以你需要在请求图片网址时,data=open_url(each) 你的headers错误了,应该是headers={'User-Agent':user_agent,'Referer':'http://www.mmjpg.com/mm/1317''+str(i)}

    评论

报告相同问题?

悬赏问题

  • ¥30 vmware exsi重置后的密码
  • ¥15 易盾点选的cb参数怎么解啊
  • ¥15 MATLAB运行显示错误,如何解决?
  • ¥15 c++头文件不能识别CDialog
  • ¥15 Excel发现不可读取的内容
  • ¥15 UE5#if WITH_EDITOR导致打包的功能不可用
  • ¥15 关于#stm32#的问题:CANOpen的PDO同步传输问题
  • ¥20 yolov5自定义Prune报错,如何解决?
  • ¥15 电磁场的matlab仿真
  • ¥15 mars2d在vue3中的引入问题