Luna_Lovegood_001 2021-01-08 08:45 采纳率: 40%
浏览 4
已采纳

正则表达式的相关事情

我在学习爬虫的时候遇到需要从一段话中提取出图片网址的需求。

待提取文字:

t1 = """
<div class="thumb"><a href="/article/123954862" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12395/123954862/medium/L62DIHT1AV2DKIUV.jpg" alt="糗事#123954862" class="illustration" width="100%" height="auto">
</a>
</div>
"""

正则:

ex = '<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>'

 然后在一些正则网站中无法识别

但是在Python的re模块中使用语句就可以识别:

t1 = """
<div class="thumb"><a href="/article/123954862" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12395/123954862/medium/L62DIHT1AV2DKIUV.jpg" alt="糗事#123954862" class="illustration" width="100%" height="auto">
</a>
</div>
"""
ex = '<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>'
img_src_list = re.findall(ex,t1,re.S)

就可以提取到呢?是不是因为换行符号的原因

  • 写回答

5条回答 默认 最新

  • Dawn_www 2021-01-09 00:25
    关注

    "."匹配除换行符 \n 之外的任何单字符,所以你在正则表达式的网址上无法提取。你在python里提取的到是因为re.S使 . 匹配包括换行在内的所有字符

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(4条)

报告相同问题?

悬赏问题

  • ¥15 关于#stm32#的问题:CANOpen的PDO同步传输问题
  • ¥20 yolov5自定义Prune报错,如何解决?
  • ¥15 电磁场的matlab仿真
  • ¥15 mars2d在vue3中的引入问题
  • ¥50 h5唤醒支付宝并跳转至向小荷包转账界面
  • ¥15 算法题:数的划分,用记忆化DFS做WA求调
  • ¥15 chatglm-6b应用到django项目中,模型加载失败
  • ¥15 CreateBitmapFromWicBitmap内存释放问题。
  • ¥30 win c++ socket
  • ¥15 C# datagridview 栏位进度