py爬虫下截图片链接保存到本地的时候报403

爬虫爬图片 403，header 头要传哪些参数，怎么绕防盗，今天试了好久，没有试出来

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-06-11 06:07
关注
这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/7677409
你也可以参考下这篇文章：【python】自动生成一定数量的随机请求头header，对爬虫进行伪装
除此之外, 这篇博客: 【Python爬虫】爬取商品图片并下载中的 2. 请求数据（headers 的作用是将请求伪装成浏览器的请求，可以跳过简单的爬虫拦截） 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
# 更换一个可以下载图片的网址 url = "https://search.jd.com/Search?keyword=笔记本电脑&wq=笔记本电脑&page=%d&s=%d&click=0"%(page,size) headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36"} resp = requests.get(url=url,headers=headers) content = etree.HTML(resp.text)

您还可以看一下阿尔法老师的Python爬虫开发入门课程中的第五讲：发送带headers的请求小节, 巩固相关知识点
以下回答由chatgpt基于相关博客总结生成:
针对问题：如何在使用Python爬虫下载图片时避免403错误？

如果在使用Python爬虫下载图片时遇到了403错误，可以考虑向请求头部添加用户代理信息和Referer信息来规避这个问题。

其中，用户代理是指发送请求的客户端的应用程序类型、操作系统、软件开发商等，而Referer则是指请求来源，表明用户是从哪个URL链接过来的。

具体来说，可以向请求头中添加如下信息：

headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0;Win64,x64) AppleWebKit/537.36(KHTML,like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299', 'Referer':'https://www.example.com/' }

其中，User-Agent可以是任意一个主流浏览器的字符串，具体可以通过浏览器的开发者工具获取；而Referer则应该设置成目标网站的URL。

这样设置请求头后，再发起图片下载请求，应该就能够避免403错误了。

另外，还有一些反爬虫机制可能会检测请求头中的其他信息，比如Cookie、Accept等，需要具体问题具体分析，如果存在这类情况需要做相应的设置来规避反爬虫机制。

参考资料：

Python3网络爬虫：设置Headers避免403错误和IP封锁问题

python 爬虫遇到403怎么办？

Python爬取网页403错误解决方法
解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 怎么把爬到的图片保存到本地？ python 开发语言爬虫
2021-11-29 21:04

回答 1 已采纳图片存储使用urllib模块，后面的代码修改为： import urllib for src in img_scrs: filename = src.split('/')[-1].split(
为什么写py爬虫时候vscode运行终端打印数据不全？ python vscode
2022-12-10 13:59

回答 1 已采纳 1 点击设置，2 搜索 Integrated: Scrollback3 将 Integrated: Scrollback 这个值增大即可 https://blog.csdn.net/Adam_capt
怎么把图片保存到文件夹里(语言-python) python
2022-09-26 18:23

回答 2 已采纳光在这里发问题，问题解决了不给采纳，谁还会帮你回答呢
Python使用Scrapy爬虫框架全站爬取图片并保存本地的实现代码
2020-09-20 18:09

通过上述配置和编码，可以开发出一个功能强大的爬虫程序，用于从网站上抓取图片，然后保存到本地的指定路径中。值得一提的是，虽然爬虫技术非常强大，但开发者需要遵守相关法律法规和网站的使用协议，在合法合规的...
py爬虫入门，这是编码问题吗？爬虫
2022-07-15 14:54

回答 1 已采纳页面的编码格式可能不是utf8，你指定保存为utf8格式导致乱码
Python爬虫批量保存图片是都保存的是一样的？ pycharm python 其他
2021-07-19 22:39

回答 1 已采纳这里循环240下。。。它能不相同嘛。 for n in range(240): with open(path+str(n)+'.jpeg','wb') as fp:
[colab] 将训练好的图片保存到google drive的同文件下 python 人工智能
2021-07-28 10:48

回答 1 已采纳自己问，自己答吧。代码如下，前两行代码输入后会出现一个链接，点进去以后会让你重新登录drive账号，然后给你一串很长的code，复制下来，输入到程序结果给的提示框里，然后3-4行代码就是定为你driv
pachong_爬虫_百度图片_
2021-10-01 02:49

下载的图片会被保存到指定的文件夹。在`pachong.py`中，可能会定义一个函数来处理文件保存，包括创建目录（如果不存在）、命名图片文件以及防止重复下载。 **异常处理** 为了确保程序的健壮性，爬虫应该包含异常...
py爬虫,遇见这种代码怎么通过xpath提取中间的文字啊 python 有问必答爬虫
2021-12-06 21:08

回答 1 已采纳什么代码？把你的代码用代码段</>的文本形式发一下，
python with open路径保存只能保存到根目录保存不到指定文件夹怎么回事？ python 开发语言爬虫
2021-11-22 20:33

回答 1 已采纳写绝对路径试试，默认是当前路径吧
python3.10爬虫爬图片，显示访问超时 python 爬虫
2021-12-26 23:32

回答 1 已采纳 1.请求头里面换user-agent2.使用动态ip这个是我都爬虫专栏，我会不定期更新https://blog.csdn.net/qq_62932195/category_11495999.html?
mzitu_win_爬虫python_爬虫_python爬取图片_mzitu图片_python爬虫_
2021-10-04 07:26

3. **python爬取图片**：在Python中，爬取图片通常涉及到`requests`库的`get`方法获取网页资源，然后通过`Content-Type`判断是否为图片，再利用`save`方法保存到本地。有时还需要处理URL编码问题，以及可能出现的...
自学成才py爬虫的，咋敲代码 python 问答团队
2022-03-30 20:13

回答 3 已采纳 Python爬虫入门很简单的。学会Python基础，了解request库，http请求的头部参数。进阶ip代理有点难。花点时间也能搞定。复杂的是获取指定数据，对数据进行处理。
python-baidu.zip_python百度图片_爬虫
2022-09-20 11:49

标题中的“python-baidu.zip”表明这是一个与Python编程语言相关的压缩文件，特别是涉及到与百度搜索引擎交互的部分。描述中提到的“利用关键词在百度中爬取图片”是指使用Python编写网络爬虫程序，从百度图片搜索...
bing图片爬虫_爬虫_
2021-09-30 02:15

3. **下载图片**：解析出图片URL后，使用编程语言（如Python的`requests`库）下载图片，并保存到本地文件系统。 4. **处理异常**：在爬取过程中，可能会遇到各种网络问题，如超时、重定向、验证码等，因此需要编写...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月11日

悬赏问题

¥15 求一个C# sm4 加密解密的代码
¥15 想做个网络加速器，怎么实现
¥20 centos7下载mysql提示DNS解析异常
¥20 vx转账功能对方不能领取
¥15 vue2+codemirror 运行后页面光标太大了
¥15 pdfjs库如何在前端实现打印、旋转等功能
¥15 combobox数据绑定问题
¥15 maven打包时，为什么有的依赖打不进去包
¥15 求复现机器学习文章一篇
¥15 爬虫抓取数据|解析视频文本内容（相关搜索：自动化）

py爬虫下截图片链接保存到本地的时候报403

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新