requests 无法通过链接爬取照片

本项目主要是为了通过requests爬取验证码图片，便于通过文本识别绕过验证码。
但是通过requests无法下载保存验证码图片，无法交给第三方识别。
通过工具能够成功定位到图片元素的位置，并确认图片链接。如下图

验证码图片出现时，通过抓包得到如下结果。其中validateimage即为图片，详细请求信息如下图。预览为图片，响应为空

尝试通过requests获取图片

r1 = requests.get(r'http://yuyue.seu.edu.cn/eduplus/validateimage', headers=headers, allow_redirects= False)
print(r1.content)

image_path = 'test_'+str(random.randint(0, 9999))+'.jpg'
print(image_path)
with open(image_path, 'wb') as f:
    f.write(r1.content)
    f.close()

input('输入结束')

输出结果如下，链接可以成功访问，但是得到的不是图片。图中得到.jpg文件其实根本无法打开，其本质为图中展示的代码

点击该链接，可以在新页面打开图片。图片可以通过右键“另存为”’保存。

该链接网址的元素组成如下图

如果继续访问元素中的链接，仍将会跳转到此页面，只是会刷新验证码。
已排除问题：

header、cookies、referer设置都没有问题
在requests.get()中设置了allow_redirects= False，以防止页面跳转。但是没有效果

感觉可能问题：（只是猜测，本人不太了解相关知识）

网页采用了动态加载，掩盖了图片的源地址。但是该如何访问图片原地址？
是否采用js逆向？

其他：

虽然可以通过selenium 库获得该图片，但是selenium调用速度太慢。本项目讲求速度
最好能通过requests库解决该问题，如果有其他更好的方案，本人十分愿意虚心学习交流。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

11条回答默认最新

IT小辉同学 Java领域优质创作者 2023-09-20 11:08

关注

1.根据我的后端经验，有可能返回的是一个base64的字节，并不是真实的图片，经过前端组件渲染才形成的图片
2.非常不建议爬取学校官网图片，服务器本来就有那么多人访问，而且保护很强，自己也拿捏不住尺度，容易造成对于服务器的攻击
3.可以试试彼岸图网或者豆瓣里面的图片，但是适度，不要过分爬取
4.这里提供部分代码作为参考：
案例一：

import requests
from bs4 import BeautifulSoup as bs
import os
url="http://pic.people.com.cn/"
resp=requests.get(url=url)
resp.encoding="gbk"
page=bs(resp.text,"html.parser")
ul=page.find("ul",class_="swiper-wrapper")
li=ul.find_all("li")[1:]
# print(li)
for l in li:
    a=l.find_all("a")
    for a in a:
        img=a.find_all("img")
        for img in img:
            src=img.get("src")
            name=img.get("alt")
            print(name)
            img_down=url+src
            img_down=requests.get(img_down)
            img_down.encoding="utf-8"
            with open("../data/img/"+name+".png","wb") as f:
                f.write(img_down.content)
                print(name,":","下载完成！！！")
print("全部下载完成！")

案例二：

import requests as re
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from lxml import etree
import time
driver=webdriver.Chrome()
start_url="https://cc0.cn/"
driver.get(url=start_url)
time.sleep(3)
driver.find_element_by_xpath("/html/body/div[1]/div/form/input[4]").send_keys("风景",Keys.ENTER)
time.sleep(1)   
img_list=[]
for i in range(5):
    path=f'/html/body/div[4]/div[{i}]/a/img'
    img=driver.find_element_by_xpath(str(path))
    img_list.append(img)
    time.sleep(2)
img_list

案例三：

import warnings  
import openpyxl
import requests as rq
import pandas as pd
import numpy as np
from bs4 import BeautifulSoup as bs
from matplotlib.pyplot import plot as plt
warnings.filterwarnings("ignore") #忽略警告

# 爬取目标
base_url="https://pic.netbian.com/new/"
#设置请求头
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
#进行访问
rep_html=rq.get(base_url,headers=headers)
#字符集设置
rep_html.encoding="gbk"
#显示获取到的网页内容
# print(rep_html.text)
#网页数据解析
page=bs(rep_html.text,"html.parser")
#获取ul标签
ul=page.find('ul',class_="clearfix")
#在ul标签中获取图片地址
img_list=ul.find_all("img")
print(img_list[1])
#在ul标签中获取图片名称
name_list=ul.find_all("b")
print(name_list[1])
# 爬取目标
base_url="https://pic.netbian.com/new/"
#设置请求头
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36'}
#进行访问
rep_html=rq.get(base_url,headers=headers)
#字符集设置
rep_html.encoding="gbk"
#显示获取到的网页内容
# print(rep_html.text)
#网页数据解析
page=bs(rep_html.text,"html.parser")
#获取ul标签
ul=page.find('ul',class_="clearfix")
#在ul标签中获取图片地址
img_list=ul.find_all("img")
#在ul标签中获取图片名称
name_list=ul.find_all("b")
img_list_clean=[]
name_list_clean=[]
for img in img_list:
    #获取img标签中的url，并且进行拼接
    img="https://pic.netbian.com"+img["src"]
    img_list_clean.append(img)
    #获取图片名称
for name in name_list:
    name_list_clean.append(name.text)
print(img_list_clean[1])
print(name_list_clean[1])
#构造数据字典
data={"img_name":name_list_clean,"img_url":img_list_clean}
#喂入DataFrame
pd_data=pd.DataFrame(data)
#数据保存
pd_data.to_excel("../data/xlsx/img.xlsx",index_label=None)
#数据读取
data=pd.read_excel("../data/xlsx/img.xlsx")
data

欢迎私信一起交流学习

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(10条)

报告相同问题？

关注问题

Python requests.post方法爬取携程酒店获取不到数据 python
2021-07-28 11:42

回答 3 已采纳我猜请求头里面一定有数据是动态变化的，并且要做验证，你得知道它是如何加密的那些数据~
Python爬虫 requests.post爬取json内容失败 ajax html5 json python
2020-12-25 10:40

回答 3 已采纳 res = requests.post(url,headers=headers,json=payload)
python使用requests get爬取网页失败 python 有问必答
2021-04-17 17:26

回答 4 已采纳 https://www.baidu.com/s 改成 http://www.baidu.com/s
Pyhton爬取TIOBE编程语言信息
2021-05-07 16:12

HSBhuang的博客简介百度百科 TIOBE排行榜是根据互联网上有经验的...了解了什么是TIOBE，接下来让我们爬取一下TIOBE里面的编程语言排行榜的信息。爬取过程 1、打开TIOBE官网https://www.tiobe.com/tiobe-index/，检查分析页面信息
Python利用requests爬取网页遇到的payload问题 python 有问必答爬虫
2021-08-13 14:31

回答 4 已采纳网站多少
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 1 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
救命！vscode 运行requests库爬取网站，终端不输出 python vscode 有问必答爬虫
2021-10-04 19:45

回答 4 已采纳你没print当然没输出，IDLE是默认输出的但是其他需要自己print print(r.text)
使用Python的Requests和BeautifulSoup库爬取网站视频
2024-05-28 22:19

Bingjia_Hu的博客 Python 作为一种功能强大的编程语言，提供了许多用于爬取网页内容的库。其中，Requests 用于发送 HTTP 请求，而 BeautifulSoup 则用于解析 HTML 页面。如何使用 Python 的 Requests 和 BeautifulSoup 库来爬取网站...
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 23:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 09:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
救救孩子吧，用requests+re爬取彩虹岛主页信息
2019-12-18 09:16

回答 2 已采纳帮你把主页里面游戏名字爬出来了 ``` import requests import re url = 'http://tmall.chd.sdo.com/' res= requests
爬取目标网站的新闻标题和链接并将爬取的数据保存为CSV文件
2024-07-22 10:41

技术栈： 编程语言：Python 请求库：requests 解析库：BeautifulSoup（HTML解析），lxml（更高效的解析）存储：pandas（数据框架），sqlite3（数据库），csv（CSV文件）
用requests库爬取网页内容，运行以后一直在get函数这 python 有问必答
2022-06-01 21:42

回答 4 已采纳爬取网页内容要看你在requests的get中参数有没有传全，比如 headers,cookies等，通过F12查看请求参数。对于动态加载数据的页面，要使用selenium等其他库。
python爬取盘搜的有效链接实现代码
2020-09-19 00:33

- **Python**：主流的编程语言之一，拥有强大的库支持。 - **Requests**：用于发送HTTP请求，获取网页内容。 - **Json**：处理JSON格式的数据。 - **Multiprocessing**：提供进程和线程管理功能，这里使用线程池提高...
python requests模块实习某短视频软件视频爬取
2022-05-26 19:09

总的来说，“python requests模块实习某短视频软件视频爬取”这个课题涵盖了Python网络请求、网页解析、数据提取、反爬策略等多个重要知识点，是学习Python爬虫和网络编程的绝佳实践。通过此项目，学生不仅可以巩固...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月20日

requests 无法通过链接爬取照片

11条回答 默认 最新

问题事件

11条回答默认最新