用爬虫通过正则提取到图片的链接地址

问题遇到的现象和发生背景

无法用正则提取到图片链接地址
用

 ex='<div class="media_bigpic_wrap"><img class="j_retract" id="(.*?)" src="(.*?)" onerror.*?</div>'
提取#<div class="media_bigpic_wrap"><img class="j_retract" id="big_img_1668586480803" src="https://tiebapic.baidu.com/forum/pic/item/0cd7912397dda14415392970f7b7d0a20df486c4.jpg?tbpicau=2022-11-18-05_6b253562deaa086f40d12262ff9c2b7d" onerror="this.src='//tb2.bdstatic.com/tb/static-frs/img/v2/picerr.gif';this.width=82;this.height=75;" style="visibility: visible;"></div>
中的#图片链接地址：https://tiebapic.baidu.com/forum/pic/item/0cd7912397dda14415392970f7b7d0a20df486c4.jpg?tbpicau=2022-11-18-05_6b253562deaa086f40d12262ff9c2b7d

用代码块功能插入代码，请勿粘贴截图

import requests
import re
import os
if __name__ == '__main__':
    if not os.path.exists('./nbaLibs'):
        os.mkdir('./nbaLibs')
    url='https://tieba.baidu.com/f?kw=nba'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.42'
    }
    page_text=requests.get(url=url,headers=headers).text
    ex='<div class="media_bigpic_wrap"><img class="j_retract" id="(.*?)" src="(.*?)" onerror.*?</div>'
    #ex ='(?:https?:\/\/)?[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(?:\.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+.+\.(gif|png|jpg|jpeg|webp|svg|psd|bmp|tif)'
    img_src_list = re.findall(ex, page_text, re.S)
    print(img_src_list)
#<div class="media_bigpic_wrap"><img class="j_retract" id="big_img_1668586480803" src="https://tiebapic.baidu.com/forum/pic/item/0cd7912397dda14415392970f7b7d0a20df486c4.jpg?tbpicau=2022-11-18-05_6b253562deaa086f40d12262ff9c2b7d" onerror="this.src='//tb2.bdstatic.com/tb/static-frs/img/v2/picerr.gif';this.width=82;this.height=75;" style="visibility: visible;"></div>
#图片链接地址：https://tiebapic.baidu.com/forum/pic/item/0cd7912397dda14415392970f7b7d0a20df486c4.jpg?tbpicau=2022-11-18-05_6b253562deaa086f40d12262ff9c2b7d
    for src in img_src_list:
        img_data=requests.get(url=src,headers=headers).content
        image_name=src.split('/')[-1]
        imaPath='./nbaLibs'/+ image_name
        with open(imaPath,'wb') as fp:
            fp.write(img_data)
            print(image_name,'下载成功！！！！')

运行结果及报错内容

为空列表，并未提取到我想要的图片地址

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-showbo 2022-11-22 18:26

关注

import requests
import re
import os
if __name__ == '__main__':
    if not os.path.exists('./nbaLibs'):
        os.mkdir('./nbaLibs')
    url='https://tieba.baidu.com/f?kw=nba'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36 Edg/107.0.1418.42'
    }
    page_text=requests.get(url=url,headers=headers).text
    ex='bpic="(.*?)"'##实际大图存储img对象的bpic中，直接获取这个属性值即可
    img_src_list = re.findall(ex, page_text, re.S)
    print(img_src_list)
    for src in img_src_list:
        img_data=requests.get(url=src,headers=headers).content
        image_name=src.split('/')[-1].split('?')[0]##注意带有参数?xxx，需要再次split
        imaPath='./nbaLibs/'+ image_name###这里也有问题，斜杠放引号里面
        with open(imaPath,'wb') as fp:
            fp.write(img_data)
            print(image_name,'下载成功！！！！')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

用爬虫通过正则提取到图片的链接地址 python 有问必答正则表达式
2022-11-22 18:05

回答 2 已采纳 import requests import re import os if __name__ == '__main__': if not os.path.exists('./nbaLibs'
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
python 爬虫正则表达式打印遇到问题 python 正则表达式爬虫
2021-12-30 23:54

回答 2 已采纳 ulrs = re.findall('<img src="(.*?)" alt=".*?">', html) 改成这样就行了，有帮助的话采纳一下哦！谢谢！
初学python爬虫，记录一下学习过程，正则表达式提取图片网址
2020-12-23 01:14

初学python爬虫，今天用正则表达式提取网页内的图片地址 ''' 正则表达式模块提取网页图片地址面向过程式编程 ''' #导入第三方库 import re import requests #请求头 headers = {'User-Agent':'Mozilla/5.0 (Windows...
python爬虫，当正则表达式无法匹配，怎么输出空字符 python 有问必答正则表达式爬虫
2021-09-01 16:19

回答 3 已采纳使用try except环绕即可
使用正则表达式提取文本数据，正则表达式如何写 python 有问必答正则表达式爬虫
2021-10-25 18:26

回答 2 已采纳 regex = r"('gender':\s*{[^}]+})|('glasses':\s*{[^}]+})|('emotion':.+.jpg')" 不清楚是否你每个文件都是类似的，如果不行，再
关于#python网络爬虫, 正则表达式 , html规则#的问题： python 正则表达式爬虫
2022-01-04 18:47

回答 2 已采纳 #导入包 import requests import re #请求网址 url = "https://www.vmgirls.com/18236.html" headers = {'User-A
初学python爬虫，记录一下学习过程，正则表达式综合练习，提取电影名称和图片网址
2020-12-23 01:03

获取电影图片地址单页爬取面向过程式编程 ''' #导入第三方库 import re import requests import time #请求头 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \ 'AppleWebKit/537.36 ...
Python爬虫正则表达式 python
2022-07-22 09:38

回答 3 已采纳
使用正则表达式提取数据，存在一些问题 python 正则表达式爬虫
2021-10-25 21:44

回答 2 已采纳参考一下这个写文章-CSDN博客 https://editor.csd
python爬虫正则表达式 python 有问必答爬虫
2022-06-04 14:28

回答 3 已采纳可以这样写，示例： import pandas as pd df=pd.DataFrame({'number':[1,2,3,4],'value':['123人','456万人','789万','']
初学python爬虫，记录一下学习过程，正则表达式提取文本
2021-01-20 03:51

紧接上一次正则表达式提取图片，这次提取文本获取的是图书的书名，没有获取详细的内容 ''' 正则表达式模块提取网页文本面向过程式编程 ''' #导入第三方库 import re import requests #请求头 headers = {'User-...
python正则表达式怎么提取下面所示的内容？ python 正则表达式爬虫
2021-12-07 08:48

回答 1 已采纳原网页完全可以使用xlml之类的把字符串的源码转换为Element对象，然后用xpath之类的去解析，大概的代码应该是： _ = etree.HTML(text) data_list = _.xpat
玩转python爬虫之正则表达式
2020-12-24 01:18

正则表达式是用来匹配字符串非常强大的工具，在其他编程语言中同样有正则表达式的概念，Python同样不例外，利用了正则表达式，我们想要从返回的页面内容提取出我们想要的内容就易如反掌了。正则表达式的大致匹配...
python正则表达式实战——获取图片
2022-11-18 17:48

爱吃饼干的小白鼠的博客我最近自学了一段时间爬虫，感觉挺有意思的，逛网页的时候，无意间发现了wallhaven的一个壁纸网站，我就萌生了一个想法，看能不能爬下来，说干就干。下面就按照爬虫的思路，一步一步的进行。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月22日

悬赏问题

¥15 对于知识的学以致用的解释
¥50 三种调度算法报错有实例
¥15 关于#python#的问题，请各位专家解答！
¥200 询问：python实现大地主题正反算的程序设计，有偿
¥15 smptlib使用465端口发送邮件失败
¥200 总是报错，能帮助用python实现程序实现高斯正反算吗？有偿
¥15 对于squad数据集的基于bert模型的微调
¥15 为什么我运行这个网络会出现以下报错？CRNN神经网络
¥20 steam下载游戏占用内存
¥15 CST保存项目时失败

用爬虫通过正则提取到图片的链接地址

问题遇到的现象和发生背景

用代码块功能插入代码，请勿粘贴截图

运行结果及报错内容

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新