爬虫只得到空列表怎么解决#print(img_src_list)

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

import requests
import re
import os

if __name__ == '__main__':
    url = 'https://www.pexels.com/zh-cn/'
    if not os.path.exists('风景'):
        os.mkdir('风景')

    headers={
        'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69'
    }
    page_text = requests.get(url=url,headers=headers).text
    ex = '<div class="hide-featured-badge hide-favorite-badge">.*?<img srcset="(.*?)" sizes.*?</div>'
    #ex = '<img srcset="(.*?)"'
    img_src_list = re.findall(ex,page_text,re.S)
    #print(img_src_list)
    for srcset in img_src_list:
        image_data = requests.get(url=srcset,headers=headers).content
        image_name = srcset.split('?')[0]
        imagePth = '风景' + image_name
        with open(imagePth,'wb') as f:
            f.write(image_data)
            print(image_name,'下载成功！！')
            f.close()

此代码在print处只能得到空列表是为什么？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
陈年椰子 2022-01-25 09:28
关注
我测试了一下
page_text 没有包含 “hide-featured-badge hide-favorite-badge” ， “img srcset=” 相关的内容，导致 img_src_list 是空的。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫入门：批量爬取网站图片并保存_python 爬虫图片
2024-09-22 15:51

2401_87373387的博客刷新后随机点一个名称从标头往下翻，一般可以在请求标头上找到User-Agent...还是这张图片，找到要下载的图片地址在a标签下的img src中，再次进行匹配。通过requests库对网页的地址进行访问申请此时我们可以通过对page
2024年python爬虫入门：批量爬取网站图片并保存_python爬虫图片
2024-05-01 14:20

2401_84562425的博客 Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。Python所有方向的技术点做的整理，形成各个领域...
python爬虫实战——小红书_python爬起小红书
2024-04-27 16:24

苹果Android开发组的博客 resource(video_src, f'{path}/{date}.mp4') except Exception as err: print(f'deal_video 捕获到其他错误：{err}') else: download_resource(video_src, f'{path}/{date}.mp4') finally: return 1 except ...
b站作者主页w_rid，dm_cover_img_str，dm_img_list
2023-06-09 14:21

吃瓜的瓜农的博客 23 11新增：dm_cover_img_str，dm_img_list 代码已更新可借鉴一下，仅供学习交流。发现就是 w_rid wts加密,u(b+s) 具体参数都在下面列出来了，也可以看出md5。{“code”:-403,“message”:“访问权限不足”,“ttl”...
python爬虫实战——小红书_python小红书爬虫
2024-04-21 13:49

2401_84010224的博客每一个线程遍历自己分配到的作品列表，进行逐项处理 def thread_task(ul): for item in ul: href = item[0] is_pictures = (True if item[1] == 0 else False) res = work_task(href, is_pictures) if res == 0: # ...
python爬虫实战——小红书_python爬起小红书(2)
2024-04-27 16:23

苹果Android开发组的博客可以先获取到 style 的内容，然后根据圆括号进行分隔，最后得到图片的地址。频繁的访问和下载资源会被重定向到如下的页面，可以通过获取到该页面的特殊标签来判断是否被重定向连接，如果是，则及时中断访问，稍后再...
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创Python一对一辅导的博客但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要替换链接、文件，就可以轻松完成。并且这些几个实用技巧，简直是 ...
Python爬虫学习笔记_DAY_21_Python爬虫之xpath实战_批量下载高清美女图片【Python爬虫】
2022-02-08 23:04

跳探戈的小龙虾的博客 p.s....站长素材是国内最优质的几个素材网站，而且本次爬虫的目标图片完全免费开放，因此不涉及任何版权问题(求生欲！) 下图是部分的图片展示： II.查找接口并做xpath解析根据以往的经验，第一步
Python爬虫入门教程！手把手教会你爬取网页数据_python爬取网页数据
2024-04-27 16:14

rr8f2haQf的博客同时还可以知道，这个 start ...可以清晰的看到，每张图片都是保存在 li 标签中的，图片的地址保存在 li 标签中的 img 中。通过观察可知，这里的参数，只有 start 是变化的，即为变量，其余参数都可以按照常理来处理。
python爬虫详解
2021-07-11 21:56

穆瑾轩的博客 python爬虫简介 1、基本概念 1.1、什么是爬虫网络爬虫，是一种按照一定规则，自动抓取互联网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。随着网络的迅速发展，万维网...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月24日

爬虫只得到空列表怎么解决#print(img_src_list)

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

1条回答 默认 最新

问题事件

1条回答默认最新