python爬虫正则表达式re.findall只能获取众多链接中的一个

想要抓取所发表情里面的所有热门表情的名字和图片链接，但是只能抓取到第一个，如果删掉<div.+?indexbiaoqing.+? 则会返回其他模块表情包（能返回很多链接，但不是我想要的，仔细对照改了改还是不对），希望大佬指点

上代码

from urllib import request
import requests
import re
import time
import os
def main():
    page_url = 'https://www.fabiaoqing.com/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36',
        'Cookie': 'PHPSESSID=595p4sic6t2omtl4fod2crj6kt; BAIDU_SSP_lcr=https://www.baidu.com/link?url=oDQDHox9F2MtoMApyh8BoSFQVz_d798fE1MSPPIeCiBbk0_0UksqN0_zvFvDfXoV&wd=&eqid=f372be560001f38e000000025f7315a9; __gads=ID=9b8c836a8fe9b3a1:T=1601385527:S=ALNI_Mavb6ihzHHKTZjw8P1TNcjakvzHrA; UM_distinctid=174da03f66d3fd-000604be2b9b57-333376b-100200-174da03f66e2e3; CNZZDATA1260546685=1101262114-1601380731-https%253A%252F%252Fwww.baidu.com%252F%7C1601380731'}
    resp = requests.get(page_url, headers=headers)
    text = resp.text
    image_urls = re.findall(r' <div.+?indexbiaoqing.+?<div.+?bqppdiv.+?<a.+?data-original="(.+?)".+?>', text, re.VERBOSE | re.DOTALL)[0]  # re.DOTALL表示小圆点也可以表示换行
    print(image_urls)
    names = re.findall(r'<div.+?indexbiaoqing.+?<div.+?bqppdiv.+?<a.+?title="(.+?)">', text, re.VERBOSE | re.DOTALL)  # re.DOTALL表示小圆点也可以表示换行
    print(names)

上关键出错代码
图片说明

上结果
图片说明
上页面代码

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
7*24 工作者 2020-09-30 09:44
关注
试一下下面这种

regex = re.compile('<img class="ui image lazy" data-original="(http://w.*?)".*?alt="(.*?)" style.*?/>') for i in re.findall(regex,text): print(i)
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

python爬虫正则表达式re.findall只能获取众多链接中的一个 python
2020-09-29 22:54

回答 2 已采纳试一下下面这种 ``` regex = re.compile('') for i in re.findall(regex,text): print(i) ``` ![图片说明](h
python 爬虫 正则表达式 打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
Python爬虫——用的最多的正则表达式以及re.findall()函数的用法
2021-01-20 03:51

如果说网络爬虫爬取的网页信息是数据大海，正则表达式就是我们进行“大海捞针”的工具。 1.正则表达式的重要符号符号描述 \w 匹配字母、数字、下划线 \W 匹配不是字母、数字、下划线的字符 \s 匹配空白...
刚接触到爬虫，使用 re.findall()的时候老是抛出这个错误，是正则表达式的错误么？ python
2018-10-06 13:44

回答 3 已采纳则 re.findall 的简单用法（返回string中所有与pattern相匹配的全部字串，返回形式为数组）语法： 1 findall(pattern,
python爬虫，当正则表达式无法匹配，怎么输出空字符 python 有问必答正则表达式爬虫
2021-09-01 16:19

回答 3 已采纳使用try except环绕即可
在pycharm中，使用python进行爬虫，使用到了re.findall()，要求写出正则表达式，单引号对应的正则表达式怎么写 pycharm python 爬虫
2022-12-27 20:04

回答 2 已采纳使用反斜线进行转义 re.findall('<img src=\'(.*?)\'')
python爬虫 正则表达式解析
2020-12-26 07:27

这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 – re.I # 忽略大小写 – re.M # 多行匹配，将正则作用到源数据...
Python正则表达式匹配电话 python 正则表达式爬虫
2021-09-13 15:23

回答 1 已采纳 import pyperclip text = str(pyperclip.paste()) # 将最近一次复制的内容转换为字符串 import re regex = re.compile('(
python re正则表达式，怎么匹配一段字符中间的部分，已知头尾 python 正则表达式
2019-03-27 17:29

回答 1 已采纳 ``` re.compile(r'.*.*').findall("12123") ```
关于#python网络爬虫, 正则表达式 , html规则#的问题： python 正则表达式爬虫
2022-01-04 18:47

回答 2 已采纳 #导入包 import requests import re #请求网址 url = "https://www.vmgirls.com/18236.html" headers = {'User-A
Python爬虫常用正则re.findall的使用
2022-05-01 00:15

三颗草丶的博客 re.findall正则符说明：单字符表达 . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字 \w ：数字、字母、下划线、中文 \W : 非\w \s ：所有的空白字符包,括空格、...
Python正则表达式 python
2021-04-09 17:45

回答 1 已采纳 pattern = re.compile(r'<img\s.*src="(.*.jpg)"')
Python爬虫正则表达式常用符号和方法
2020-12-13 04:56

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，...
正则表达式re.findall快速入门
2021-10-20 15:37

向阳-Y.的博客在网页源代码中提取出标签内的内容： title = re.findall('<span class=title>(.*?)</span>',html_data)[0] html_data为网页源代码数据相关文章 正则表达式 re.findall 用法
没有解决我的问题, 去提问

悬赏问题

¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分

python爬虫正则表达式re.findall只能获取众多链接中的一个

2条回答 默认 最新

悬赏问题

2条回答默认最新