python爬虫疑问

问题遇到的现象和发生背景

爬虫中 for 循环遍历图片地址列表时，其中地址的状态码有 404 也有 200，但是我单独 get 请求循环中状态码为 404 的地址时，状态码又是 200 。

用代码块功能插入代码，请勿粘贴截图


#url地址
url = 'https://dimtown.com/62526.html'

#伪装 请求头 防止被反爬
headers = {
    #浏览器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/105.0.0.0 Mobile Safari/537.36 Edg/105.0.1343.42'
}
form_data = {
    'log': ' ',
    'pwd': ' ',
    'redirect_to': 'https://dimtown.com/',
    'ludou_token': '75e4ab8f52731de18ca618c12fa96256',
    'wp-submit': ''
}

#创建自定义变量 response   post 请求方法，对 url 地址发送请求，并携带 headers 请求头伪装
response = requests.post(url = url,headers = headers,data = form_data)

#查看状态码
print(response)
#获取数据
#print(response.text)

#转换数据 转成可以解析对象（）
selector = parsel.Selector(response.text)
#print(selector)

#查找图片 url
img_url_list = selector.css('p img::attr(src)').getall()
print(img_url_list)


for img_url in img_url_list:
    print(img_url)
    img = requests.get(url = img_url, headers = headers)
    print(img)


img = requests.get('https://wx4.sinaimg.cn/large/005tGGVqgy1h6hjnkyp81j31qbcn24qw.jpg', headers = headers)
print(img)

运行结果及报错内容

for 循环结果为：

https://wx4.sinaimg.cn/large/005tGGVqgy1h6hjnkyp81j31qbcn24qw.jpg 
<Response [404]>
https://wx3.sinaimg.cn/large/005tGGVqgy1h6hjnrd6mdj320ucmyb2j.jpg 
<Response [404]>
https://wx4.sinaimg.cn/large/005tGGVqgy1h6hjnylvy6j32q5c5e1l5.jpg 
<Response [404]>
https://wx3.sinaimg.cn/large/005tGGVqgy1h6hjo33dy1j323i72qb2e.jpg 
<Response [404]>
https://wx1.sinaimg.cn/mw2000/005tGGVqgy1h6hjon5uboj343c64wu12.jpg
<Response [200]>
https://wx1.sinaimg.cn/mw2000/005tGGVqgy1h6hjods3ogj364w43cx6v.jpg
<Response [200]>
https://wx2.sinaimg.cn/mw2000/005tGGVqgy1h6hjoulxebj364w43cnph.jpg
<Response [200]>
https://wx2.sinaimg.cn/mw2000/005tGGVqgy1h6hjoipbqlj343c64w7wl.jpg
<Response [200]>
https://wx4.sinaimg.cn/mw2000/005tGGVqgy1h6hjo8asp2j343c64whe2.jpg
<Response [200]>

单独 get 请求结果：

<Response [200]>

我想要达到的结果

for 循环中的状态码和单独请求一致

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2022-09-29 00:37
关注
因为有的url 比如https://wx3.sinaimg.cn/large/005tGGVqgy1h6hjo33dy1j323i72qb2e.jpg 后面多了一个空格，把空格去掉就行了，解决问题的话帮忙点击以下采纳谢谢

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python爬虫学习疑问 python 爬虫
2022-06-17 19:05

回答 4 已采纳 import requests url = 'https://movie.douban.com/top250' headers = { 'User-Agent':'Mozilla/5.0 (Win
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫编程习题 python 有问必答
2022-12-20 19:53

回答 6 已采纳兰州博文科技学院 http://www.bowenedu.cn/
人工智能开发语言 python,python人工智能编程教程
2022-10-10 15:18

快乐的小肥熊的博客 Python作为人工智能首选编程语言，随着人工智能时代的到来，Python开发效率非常高，Python有非常强大的第三方库，基本上你想通过计算机实现任何功能，Python官方库里都有相应的模块进行支持，直接下载调用后，在基础...
python爬虫selenium点击按钮 python selenium 爬虫
2022-10-21 12:35

回答 2 已采纳可以看下xpath语法，还有个插件（xPath Finder）在firefox浏览器里可以一键定位到元素并复制xpath路径，如果插件给出的xpath路径定位不到，可以尝试自己写相对路径
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫需要学习哪些语言 java mysql python 有问必答
2021-07-14 10:26

回答 3 已采纳参考：https://www.cnblogs.com/cherish-cxh/p/10025979.html熟悉多线程编程、网络编程、HTTP协议相关开发过完整爬虫项目（最好有全站爬虫经验，这个下面会
爬虫就是python吗_python就是爬虫吗
2020-12-09 21:09

weixin_39630855的博客很多初学者都有这样的疑问：python就是爬虫吗？爬虫有什么干什么的？下面来说一说什么是python和爬虫。pythonPython是一种计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)...
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
python爬虫需要对象编程吗_Python爬虫基础知识及前期准备
2020-11-20 22:17

weixin_39611930的博客学习爬虫有一小段时间了，于是决定把自己学爬虫时所学的，写过的代码以及看过的文档记录下来，权当小结。第一次写这些，如果有错误，请多指教。首先我们需要了解一下什么是爬虫。根据百度百科上给出的定义，” 网络...
Python发展史及网络爬虫
2020-03-28 15:24

程序员arlly的博客这篇文章给大家介绍了python发展史及网络爬虫知识，感兴趣的朋友跟随小编一起看看吧 Python 简介 Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读性，相比...
python爬虫基本概念_python爬虫定义
2020-12-17 00:39

weixin_39722025的博客很多刚接触python的朋友有很多疑问，python爬虫是什么？那又为什么把python叫做爬虫？python爬虫是什么？在进入文章之前，我们首先需要知道什么是爬虫。爬虫，即网络爬虫，大家可以理解为在网络上爬行的一只蜘蛛，...
Python爬虫爬虫需要遵守的规则
2020-03-24 21:59

胡乱huluan的博客 Python爬虫（二十）学习Python爬虫过程中的心得体会以及知识点的整理，方便我自己查找，也希望可以和大家一起交流。 —— 爬虫需要遵守的规则 —— 文章目录Python爬虫（二十）—— 爬虫需要遵守的规则 ——网络...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 10月7日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月28日

悬赏问题

¥15 微信小程序协议怎么写
¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？
¥20 怎么用dlib库的算法识别小麦病虫害
¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
¥15 java写代码遇到问题，求帮助
¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看

python爬虫疑问

问题遇到的现象和发生背景

用代码块功能插入代码，请勿粘贴截图

运行结果及报错内容

我想要达到的结果

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新