python爬虫爬取斗图啦上的图片，打开爬取的图片显示图片错误

图片说明



import requests,re,os
from bs4 import BeautifulSoup


def get_url(url):
    headers={
        'User_Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
        'Referrer':url
    }
    res = requests.get(url,headers=headers)
    text = res.text
    soup = BeautifulSoup(text,'lxml')
    divs = soup.find('div',class_='page-content text-center')
    a_s = divs.find_all('a',attrs={'class': 'col-xs-6 col-sm-3'})
    for a in a_s:
        #print(a)
        herf = a['href']
        img = a.find('img')
        print(img)
        #获取最内层标签方法如下
        if a.img['class']==['gif']:
            pass

        else:
            alt = a.img['alt']
            alt = re.sub(r'[，@?？!！:。]','',alt)
            #print(alt)
            data = a.img['data-original']
            print(data)
            datastr = '.'+data.split('.')[-1]

            filename = alt + datastr
            #print(filename)
            #print(os.getcwd())

            if os.path.exists(os.getcwd() + "\斗图啦\\"+filename):
                print('文件已经存在')
            else:

                filename = os.getcwd() + "\斗图啦\\"+filename

                print(filename)
                with open(filename,'w') as fp:
                   fp.write(data)



def main():
    if os.path.exists(os.getcwd()+'\斗图啦\\'):
        print('文件夹已存在')
    else:
        os.mkdir(os.getcwd() + "\斗图啦\\")

    #for x in range(1,101):
     #   url = 'http://www.doutula.com/photo/list/?page=%d' %x
      #  get_url(url)

    url = 'http://www.doutula.com/photo/list/?page=1'
    get_url(url)

if __name__ == '__main__':
            main()

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
竹里清风，竹外尘 2019-08-03 05:28
关注
已经解决，data-origina属性是一个网址，所以在这里要再requests.get(data).content这样才是图片内容。图片应该以二进制方式储存，所以应该以wb模式写入

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

python爬虫爬取图片，图片打不开 python 爬虫
2022-10-18 13:52

回答 1 已采纳图片是从cdn上过来的，做了防盗链。在headers中添加Refer，指向该网站就行了。 import re import requests import os if not os.path.ex
通过python爬虫，爬取到的图片无法打开，请问要怎么办？ pycharm python
2021-08-11 15:59

回答 2 已采纳你是真的秀，没有请求图片地址获得数据肯定打不开啊，你写入的是列表的的文本的二进制，并不是图片的。应该在图片链接后面再请求一次图片网址，然后写入获得的响应数据的二进制内容，望采纳哈
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 14:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
python爬取斗图
2020-12-21 22:07

Python爬虫技术是用于自动化获取网页内容的一种编程方式，它在数据分析、信息提取等领域有着广泛的应用。本例中，我们看到的是使用Python进行斗图（一种网络表情包）的爬取，具体涉及到的关键技术和知识点包括： 1....
python 爬虫爬取图片问题 python 有问必答爬虫
2022-06-06 12:12

回答 4 已采纳你题目的解答代码如下： #coding=gbk import requests from io import BytesIO from PIL import Image from selenium
python爬虫爬取图片下载本地 python 爬虫
2021-10-29 14:05

回答 2 已采纳文件路径不能有斜杠
python爬虫的图片爬取 python 爬虫
2021-08-30 04:26

回答 2 已采纳按照下图这样就可以了
利用python爬取斗图网站
2019-11-29 06:45

在这个场景下，我们将探讨如何利用Python编程语言来爬取斗图网站的图片，并将其保存到本地文件夹，实现“一文件夹在手，天下你有”的斗图资源库。首先，我们需要了解Python中的几个关键库，它们在爬虫项目中起着...
Python爬虫爬取图片返回none python
2021-11-25 05:50

回答 1 已采纳好巧，，我也爬过这个网站；估计是你的参数没设置对，你再看看
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 03:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 13:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python3 爬取斗图啦网站的表情包图片
2019-05-04 08:09

李~妞思的博客爬取斗图啦网的表情包前一阵子在网易云课堂学习了一些关于爬虫的教程，现在来实践一下，当做练习。本人小白，初学编程，如有错误，望不吝告之，多谢。本人使用的是python3.6版本，引用里的注释是为了记忆相关爬虫...
使用python爬取斗图啦全部表情
2020-04-11 15:02

使用python爬取斗图啦全部表情，自从学会python，斗图就再也没怕过谁了，不服那表情砸死你，上千张表情做成表情包，砸砸砸！！！
斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！
2021-01-19 18:18

于是来试试多线程爬虫，正好复习一下mooc上自学的嵩天男神的爬虫知识。想法很美好，过程却很心酸，从早上开始写，每次出现各种奇怪问题，到现在晚上了终于是搞好啦。害得我连晚上的课都没有听，不过最后看着文件夹中...
python多线程爬虫爬取斗图啦网站表情包图片
2020-06-06 03:39

现在给爷爬，爬虫的博客如题：这次来个真正的多线程版本。估计也没人看，如果有感兴趣的或者不懂的可以留言。...path = 'D:/壁纸/python/斗图啦-多线程版本/' # 设置图片的存储路径 class Producer(threading.Thread): headers
没有解决我的问题, 去提问

悬赏问题

¥15 mes系统扫码追溯功能
¥40 selenium访问信用中国
¥15 电视大赛投票系统的c语言代码怎么做
¥20 在搭建fabric网络过程中遇到“无法使用新的生命周期”的报错
¥15 Python中关于代码运行报错的问题
¥500 python 的API，有酬谢
¥15 软件冲突问题，软件残留问题
¥30 有没有人会写hLDA，有偿求写，我有一个文档，想通过hLDA得出这个文档的层次主题，有偿有偿！
¥50 有没有人会写hLDA，有偿求写，我有一个文档，想通过hLDA得出这个文档的层次主题，有偿有偿！
¥15 alpha101因子里哪些适合crypto？

python爬虫爬取斗图啦上的图片，打开爬取的图片显示图片错误

3条回答 默认 最新

悬赏问题

3条回答默认最新