Luna_Lovegood_001 2021-01-08 08:45 采纳率: 40%
浏览 4
已采纳

正则表达式的相关事情

我在学习爬虫的时候遇到需要从一段话中提取出图片网址的需求。

待提取文字:

t1 = """
<div class="thumb"><a href="/article/123954862" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12395/123954862/medium/L62DIHT1AV2DKIUV.jpg" alt="糗事#123954862" class="illustration" width="100%" height="auto">
</a>
</div>
"""

正则:

ex = '<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>'

 然后在一些正则网站中无法识别

但是在Python的re模块中使用语句就可以识别:

t1 = """
<div class="thumb"><a href="/article/123954862" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12395/123954862/medium/L62DIHT1AV2DKIUV.jpg" alt="糗事#123954862" class="illustration" width="100%" height="auto">
</a>
</div>
"""
ex = '<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>'
img_src_list = re.findall(ex,t1,re.S)

就可以提取到呢?是不是因为换行符号的原因

  • 写回答

5条回答 默认 最新

  • Dawn_www 2021-01-09 00:25
    关注

    "."匹配除换行符 \n 之外的任何单字符,所以你在正则表达式的网址上无法提取。你在python里提取的到是因为re.S使 . 匹配包括换行在内的所有字符

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

悬赏问题

  • ¥15 plotBAPC画图出错
  • ¥30 关于#opencv#的问题:使用大疆无人机拍摄水稻田间图像,拼接成tif图片,用什么方法可以识别并框选出水稻作物行
  • ¥15 Python卡尔曼滤波融合
  • ¥20 iOS绕地区网络检测
  • ¥15 python验证码滑块图像识别
  • ¥15 根据背景及设计要求撰写设计报告
  • ¥20 能提供一下思路或者代码吗
  • ¥15 用twincat控制!
  • ¥15 请问一下这个运行结果是怎么来的
  • ¥15 单通道放大电路的工作原理