利用python的正则表达式从超链接取数

在爬图片网站的图片，要把"src="后面的链接取出来，但是一直取出来是空的，不知道正则表达式哪里有错！

要爬取的链接：

想要得到的结果：
//img.ivsky.com/img/tupian/li/202107/15/xingkong-005.jpg

目前的正则写法：

ex = '

.*?<img src="(.*?)" alt.*?

'
img_src_list = re.findall(ex,page_text,re.S)

完整的代码：

import requests
import re
import os
if __name__ == "__main__":
    if not os.path.exists('./otherLibs'):
        os.mkdir('./otherLibs')
    url = 'https://www.ivsky.com/tupian/ziranfengguang/'
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:96.0) Gecko/20100101 Firefox/96.0'
    }
    page_text = requests.get(url=url,headers=headers).text
    ex = '<div class="il_img">.*?<img src="(.*?)" alt.*?</div>'
    img_src_list = re.findall(ex,page_text,re.S)
    for src in img_src_list:
        src = 'https:'+src
        iamge_data = requests.get(url=url,headers=headers).content
        img_name = src.split('/')[-1]
        img_Path= './otherLibs'+img_name
        with open(img_Path,'wb') as fp:
            fp.write(iamge_data)
            print(img_name,'下载成功')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

一枚回归少年 2022-01-19 12:00

关注

望被采纳

import os
import re
import requests
if __name__ == "__main__":
    if not os.path.exists('./otherLibs'):
        os.mkdir('./otherLibs')
    url = 'https://www.ivsky.com/tupian/ziranfengguang/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36',
        'cookie': 't = 15dc3f49950b911ad395e4d2b5f21bd0;r = 9777;Hm_lvt_a0c29956538209f8d51a5eede55c74f9 = 1642561701;'
                  'Hm_lpvt_c13cf8e9faf62071ac13fd4eafaf1acf = 1642561835;Hm_lpvt_a0c29956538209f8d51a5eede55c74f9 = 1642561836'
    }
    # 必须要加cookie  ，可以在浏览器登录后获取，或这接口请求再提取cookie
    page_text = requests.get(url=url, headers=headers).text
    ex = '<img src="(.*?)" alt="(.*?)">'  
    img_src_list = re.findall(ex,page_text)  #找出src 和alt  返回元组

    for src in img_src_list:
        url = 'https:' + src[0]   #拼接图片地址
        alt=src[1]                #获取alt 标题
        if not os.path.exists('./otherLibs/{}'.format(alt)):
            os.mkdir('./otherLibs/{}'.format(alt))    #创建以标题为名的文件夹
        with open("./otherLibs/{}/{}.txt".format(alt,alt), 'w+') as fp:     #打开或创建以标题为名的 文件
            fp.write(alt+"-->"+url)     #向文件中写入src
            print(alt, '下载成功')

生成的文件和下载地址

望被采纳

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(2条)

报告相同问题？

关注问题

利用python的正则表达式从超链接取数 python 正则表达式
2022-01-19 00:07

回答 3 已采纳望被采纳 import os import re import requests if __name__ == "__main__": if not os.path.exists('./oth
请问Python正则表达式如何匹配连续的四位数字 python 有问必答
2022-04-29 12:38

回答 5 已采纳题中年份后面表示日月最多6个字符，试试如下代码： import re s=['新书/20200412/价格22.6元','旧书1/2010.3/价格10.5元','旧书2/2008-3-5/价格8.8
python正则表达式中‘|’是什么意思？ python
2022-03-29 09:36

回答 2 已采纳 '|'是“或”的意思，当“|”两边的表达式有一个或两个为“真”或者“非0”，则表达式结果为1；当“|”两边的表达式两个都为“假”或者“0”，则表达式结果为0。如：2 | 0，结果=11 | 1，结果=
python用正则表达式提取超链接_正则表达式用Python从HTML中的href属性中提取URL
2020-12-03 11:55

weixin_39683144的博客不可否认，如果您从简单的非结构化文本开始，其中包含一堆URL，那么您可能需要一万个字符长的正则表达式。但如果您的输入是结构化的，请使用该结构。您声明的目标是“在锚标记的href中提取网址”。当...
关于python爬虫利用正则表达式爬取不到内容的问题 python 数据挖掘机器学习正则表达式
2019-10-18 08:20

回答 3 已采纳爬虫内容解析比较方便的不是正则而是 xpath ，语法也很容易，建议试试这种： ``` from lxml import etree # 解析页面的模块 html = etree.HTML
Python正则表达式匹配图片 python
2021-03-28 22:00

回答 6 已采纳 1、 url='您想爬的网址' head={ 'user_agent':'需要你使用的浏览器的请求头' } page_data=requests.get(url=url,headers=h
python 正则表达式 python
2022-05-04 15:18

回答 1 已采纳假设a是字符串，b是查找结果 b = re.findall(r'\b[^,]*文[^,]*\b',a)b = re.findall(r'\ba\w*',a)b = re.findall(r'\b138
Python正则表达式（网址正则/超链接正则）
2021-06-07 18:07

没有梦想的咸鱼~的博客 正则表达式格式的详细说明见文章结束表，模式的构建通过PATTERN = re.compile(REGEX_STRING)构建，下面是python正则常用的函数。 Python函数函数用法说明 PATTERN = re.compile(REGEX_STRING) 正则模式...
python正则表达式问题 python
2021-08-26 12:52

回答 1 已采纳 ^:匹配串开头$:匹配结尾+?*指的都是左边的单元[\d]+:匹配数字-?[\d]+:匹配数字,前面可以带有负号-?[\d]+(.[\d]+)?:匹配数字,后面可以带小数^$:匹配空串
Python正则表达式 python
2021-06-25 10:41

回答 2 已采纳 import re pattern = re.compile(ur'^[a-zA-Z0-9_]{10,15}$') str = u'' print(pattern.search(str))
python 正则表达式一次性替换多个字符串且替换的值不同 python 正则表达式
2021-07-20 20:10

回答 1 已采纳我有一篇代码一变三的文章，你可以看一下，里面有个替换代码的描述，可能会对你有帮助
python用正则表达式提取超链接_如何用正则表达式匹配网页中的超链接？
2020-12-08 21:34

weixin_39637386的博客 C:\Python34\python.exe E:/python/tmp.py['http://www.researchmfg.com/2010/07/thermo-plastics/', 'http://www.researchmfg.com/2010/07/plastic-rheological-property/', '...
关于Python正则表达式的问题 python 正则表达式
2018-02-02 11:25

回答 3 已采纳 ^[abc].* 看看方括号的用法
python正则表达式分组匹配_Python 正则表达式（分组）
2020-12-03 14:05

weixin_39767983的博客从正则表达式的左边开始看，看到的第一个左括号“(”表示第一个分组，第二个表示第二个分组，依次类推，需要注意的是，有一个隐含的全局分组(就是0)，就是整个正则表达式。分完组以后，要想获得某个分组的内容，直接...
python用正则表达式提取超链接,使用正则表达式重新字符串匹配提取URL链接-Python...
2020-12-03 11:55

喜帖街i的博客 I've been trying to extract URLs from a text file using re api. any link that starts with http:// , https:// and www.the file contains texts as well as html source code, ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月19日

悬赏问题

¥15 c语言怎么用printf（“\b \b”）与getch（）实现黑框里写入与删除？
¥20 怎么用dlib库的算法识别小麦病虫害
¥15 华为ensp模拟器中S5700交换机在配置过程中老是反复重启
¥15 java写代码遇到问题，求帮助
¥15 uniapp uview http 如何实现统一的请求异常信息提示？
¥15 有了解d3和topogram.js库的吗？有偿请教
¥100 任意维数的K均值聚类
¥15 stamps做sbas-insar，时序沉降图怎么画
¥15 买了个传感器，根据商家发的代码和步骤使用但是代码报错了不会改，有没有人可以看看
¥15 关于#Java#的问题，如何解决？

利用python的正则表达式从超链接取数

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新