python爬虫抓取图片的疑问和原理

我想问一下最简单的抓取图片保存下来的原理
如下面这段代码
response=urllib.request.urlopen("http://ww3.sinaimg.cn/mw600/006h1GB2jw1f1hbjv1eiwj30zk0qo44l.jpg")
html=response.read()
with open("ddd.JPG","wb") as f
f.write(html)
这里html应该就是网页的HTML的代码段。到底如何识别它就是图片并且保存后可以显示。。。我的意思是html里面应该是包含了 HTML head div body这些标签的二进制字符串。这些东西也存入文件。。文件是自动根据图片格式把这些东西去掉了吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-05-03 08:49
关注
http的response包的header有指定返回的数据类型。告诉你是图片，就直接二进制写成图片了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫抓取图片的疑问和原理
2016-05-03 08:21

回答 1 已采纳 http的response包的header有指定返回的数据类型。告诉你是图片，就直接二进制写成图片了
python爬虫图片代码疑问，无报错 python 爬虫
2022-01-03 14:51

回答 2 已采纳 response.encoding = 'utf-8'这是定义字符编码为utf-8，这样爬取出来的数据不会是乱码。不要也可以，但有时候你需要把爬取的数据写入表格中，如果没有定义字符编码的数据，写入表格
python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 21:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
[Python爬虫] 一、爬虫原理之HTTP和HTTPS的请求与响应
2019-06-27 01:32

邓大帅的博客本文主要介绍了爬虫原理之HTTP和HTTPS的请求与响应。
python爬虫的图片爬取 python 爬虫
2021-08-30 12:26

回答 2 已采纳按照下图这样就可以了
Python爬虫下载图片 python
2021-04-01 22:12

回答 2 已采纳
python爬虫爬图片 python 爬虫
2022-10-12 14:43

回答 4 已采纳
Python爬虫的基本原理和requests的基本使用——爬虫入门
2021-08-18 14:57

花落指尖❀的博客网络爬虫，简称爬虫，是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。爬虫做的事情和蜘蛛类似，所以网络爬虫也被成为网络蜘蛛(spider)。 2、爬虫的工作原理爬虫像浏览器一样向服务器发送请求，拿...
Python爬虫学习疑问 python 爬虫
2022-06-17 19:05

回答 4 已采纳 import requests url = 'https://movie.douban.com/top250' headers = { 'User-Agent':'Mozilla/5.0 (Win
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 20:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫面试题集锦及答案
2022-09-18 19:16

AudiA6LV6的博客 mysql可以远程访问，而sqlite不可以，这意味着你可以将数据存储到远程服务器主机上，当数据量非常大时，自然要选择mysql而不是sqlite，但不论是mysql还是sqlite，存储数据前都要先建表，根据要抓取的数据结构和内容...
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
[Python爬虫] 二、爬虫原理之定义、分类、流程与编码格式
2020-02-12 10:33

邓大帅的博客文章主要介绍了爬虫原理之定义、分类、流程与编码格式。
六万字带你一次性速通python爬虫基础
2022-03-04 21:56

跳探戈的小龙虾的博客网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。...
没有解决我的问题, 去提问

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能