Aiden_Yue 2020-12-11 11:47 采纳率: 100%
浏览 127
已采纳

python正则匹配,如何匹配出(.*)都匹配不出来的文本?

import re
text = 'Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI Article 95广告·www.gotdya.net/为什么会显示该广告?'
print(re.match('.*',text))

text的文本来自谷歌搜索的html代码,运行结果是

<re.Match object; span=(0, 88), match='Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI>

后面的部分没有显示出来。如果正则没有显示出来的字符,比如“广告”,就会返回none

有个大佬说用

print(re.match('.*',text).group())

运行结果是

Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI Article 95广告·www.gotdya.net/为什么会显示该广告?

的确显示出了文本的后半部分

不过我的目标是把“Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI”和“www.gotdya.net”这两段文本放到两个新的列表里面,

如果使用

print(re.match('www.gotdya.net',text))

返回的是none

如果使用

print(re.match('www.gotdya.net',text).group())

会报错

AttributeError: 'NoneType' object has no attribute 'group'

这是什么疑难杂症

为什么不能运行呢.jpg

  • 写回答

3条回答 默认 最新

  • 「已注销」 2020-12-11 12:48
    关注

    re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

    print(re.search('www.gotdya.net',text).group())

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥100 关于使用MATLAB中copularnd函数的问题
  • ¥20 在虚拟机的pycharm上
  • ¥15 jupyterthemes 设置完毕后没有效果
  • ¥15 matlab图像高斯低通滤波
  • ¥15 针对曲面部件的制孔路径规划,大家有什么思路吗
  • ¥15 钢筋实图交点识别,机器视觉代码
  • ¥15 如何在Linux系统中,但是在window系统上idea里面可以正常运行?(相关搜索:jar包)
  • ¥50 400g qsfp 光模块iphy方案
  • ¥15 两块ADC0804用proteus仿真时,出现异常
  • ¥15 关于风控系统,如何去选择