python爬虫正则表达式re.findall只能获取众多链接中的一个

想要抓取所发表情里面的所有热门表情的名字和图片链接，但是只能抓取到第一个，如果删掉<div.+?indexbiaoqing.+? 则会返回其他模块表情包（能返回很多链接，但不是我想要的，仔细对照改了改还是不对），希望大佬指点

上代码

from urllib import request
import requests
import re
import time
import os
def main():
    page_url = 'https://www.fabiaoqing.com/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
        'Cookie': 'PHPSESSID=595p4sic6t2omtl4fod2crj6kt; BAIDU_SSP_lcr=https://www.baidu.com/link?url=oDQDHox9F2MtoMApyh8BoSFQVz_d798fE1MSPPIeCiBbk0_0UksqN0_zvFvDfXoV&wd=&eqid=f372be560001f38e000000025f7315a9; __gads=ID=9b8c836a8fe9b3a1:T=1601385527:S=ALNI_Mavb6ihzHHKTZjw8P1TNcjakvzHrA; UM_distinctid=174da03f66d3fd-000604be2b9b57-333376b-100200-174da03f66e2e3; CNZZDATA1260546685=1101262114-1601380731-https%253A%252F%252Fwww.baidu.com%252F%7C1601380731'}
    resp = requests.get(page_url, headers=headers)
    text = resp.text
    image_urls = re.findall(r' <div.+?indexbiaoqing.+?<div.+?bqppdiv.+?<a.+?data-original="(.+?)".+?>', text, re.VERBOSE | re.DOTALL)[0]  # re.DOTALL表示小圆点也可以表示换行
    print(image_urls)
    names = re.findall(r'<div.+?indexbiaoqing.+?<div.+?bqppdiv.+?<a.+?title="(.+?)">', text, re.VERBOSE | re.DOTALL)  # re.DOTALL表示小圆点也可以表示换行
    print(names)

上关键出错代码
图片说明

上结果
图片说明
上页面代码

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
7*24 工作者 2020-09-30 09:44
关注
试一下下面这种

regex = re.compile('<img class="ui image lazy" data-original="(http://w.*?)".*?alt="(.*?)" style.*?/>') for i in re.findall(regex,text): print(i)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

php 正则 findall,python爬虫正则表达式re.findall只能获取众多链接中的一个
2021-04-30 02:54

weixin_39717026的博客想要抓取所发表情里面的所有热门表情的名字和图片链接，但是只能抓取到第一个，如果删掉上代码from urllib import requestimport requestsimport reimport timeimport osdef main():page_url = '...
学习笔记：Python爬虫正则表达式.doc
2024-07-20 21:32

### 正则表达式在Python爬虫中的应用 #### 一、引言在Python编程中，正则表达式（Regular Expression，简称regex或regexp）是一种强大的文本处理工具，广泛应用于字符串搜索、替换等场景。对于从事网络爬虫开发的...
Python爬虫——用的最多的正则表达式以及re.findall()函数的用法
2021-01-20 03:51

如果说网络爬虫爬取的网页信息是数据大海，正则表达式就是我们进行“大海捞针”的工具。 1.正则表达式的重要符号符号描述 \w 匹配字母、数字、下划线 \W 匹配不是字母、数字、下划线的字符 \s 匹配空白...
Python正则表达式说明.zip
2024-11-17 17:25

Python中的正则表达式是一种用来处理字符串的强大工具，它通过`re`模块提供支持，使开发者能够执行多种文本处理任务，如搜索、匹配、替换和分割字符串等。正则表达式，通常简称为regex或 regexp，是一种特殊的文本...
python爬虫正则表达式使用说明
2024-10-15 10:30

yuwinter的博客 Python 爬虫和正则表达式是自动化网络数据提取中常用的两种技术。本文将详细介绍如何使用 Python 编写爬虫，结合正则表达式提取网页中的数据。
[Python]网络爬虫(七)：Python中的正则表达式教程.pdf
2021-09-30 19:03

- `re.findall(pattern, string)`：返回一个列表，包含所有匹配的子串。 - `re.sub(pattern, repl, string)`：将所有匹配的子串替换为新字符串。 3. 正则表达式中的标志位 - `re.I` (IGNORECASE)：忽略大小写。 ...
python爬虫 正则表达式解析
2020-12-26 07:27

这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 – re.I # 忽略大小写 – re.M # 多行匹配，将正则作用到源数据...
Python爬虫常用正则re.findall的使用
2022-05-01 00:15

三颗草丶的博客 re.findall正则符说明：单字符表达 . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字 \w ：数字、字母、下划线、中文 \W : 非\w \s ：所有的空白字符包,括空格、...
python 爬虫4 - re模块（正则表达式）
2024-11-13 17:30

Shin zhong的博客 正则表达式（Regular Expression，简称 Regex）是一种用于匹配字符串的模式。它可以用来搜索、替换、验证文本中的特定模式。Python 中的 re 模块提供了对正则表达式的支持。
Python 正则表达式简要介绍.pdf
2024-11-18 15:10

在Python中使用正则表达式之前，通常需要使用re模块的compile函数将一个正则表达式的模式字符串编译成一个正则表达式对象。这个对象提供了一系列方法来进行匹配和替换操作。如果不想使用编译后的正则表达式对象，也...
没有解决我的问题, 去提问

python爬虫正则表达式re.findall只能获取众多链接中的一个

2条回答 默认 最新

2条回答默认最新