Aiden_Yue
2020-12-11 11:47
采纳率: 100%
浏览 68

python正则匹配,如何匹配出(.*)都匹配不出来的文本?

import re
text = 'Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI Article 95广告·www.gotdya.net/为什么会显示该广告?'
print(re.match('.*',text))

text的文本来自谷歌搜索的html代码,运行结果是

<re.Match object; span=(0, 88), match='Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI>

后面的部分没有显示出来。如果正则没有显示出来的字符,比如“广告”,就会返回none

有个大佬说用

print(re.match('.*',text).group())

运行结果是

Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI Article 95广告·www.gotdya.net/为什么会显示该广告?

的确显示出了文本的后半部分

不过我的目标是把“Hand Sanitizer Supplier-GOTDYA - with FDA CE BSCI”和“www.gotdya.net”这两段文本放到两个新的列表里面,

如果使用

print(re.match('www.gotdya.net',text))

返回的是none

如果使用

print(re.match('www.gotdya.net',text).group())

会报错

AttributeError: 'NoneType' object has no attribute 'group'

这是什么疑难杂症

为什么不能运行呢.jpg

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 邀请回答

3条回答 默认 最新

  • Angel OvO 2020-12-11 12:48
    已采纳

    re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

    print(re.search('www.gotdya.net',text).group())

    点赞 评论
  • LC1356 2020-12-11 12:45

    个人建议使用 re.findall ,返回一个列表,不匹配返回空列表,贪婪模式 

    match 匹配好像是头部匹配,成功后就返回结果,否则返回None

    点赞 评论
  • Aiden_Yue 2020-12-11 14:49

    谢谢兄弟!已经起飞了

     

    点赞 评论

相关推荐 更多相似问题