Python re.findall怎么模糊多个词语然后匹配后获取到句子中的内容

需提取内容：

文章内容 = '''
            <td class="abcde:0:WW_11" style=";"><center>占位这是关键词A占位</center><td class="yyyyy:7:hh_45" style="white;"><center></center><td class="qwert:7:no_22" style=";"><nametext>需要提取的内容1</nametext>
          '''

          '''
            <td class="abcde:5:WW_11" style=";"><center>占位这是关键词A占位</center><td class="yyyyy:56:hh_87" style="white;"><center></center><td class="qwert:76:no_22" style=";"><nametext>需要提取的内容2</nametext>
          '''


          '''
            <td class="abcde:2:WW_11" style=";"><center></center><td class="yyyyy:6:hh_76" style="white;"><center></center><td class="qwert:7:no_22" style=";"><nametext>不需要内容1</nametext>
          '''
          '''
            <td class="abcde:3:WW_11" style=";"><center></center><center><span>其他内容关键词A其他内容</span></center><td class="yyyyy:6:hh_85" style="white;"><center></center><td class="qwert:9:no_22" style=";"><nametext>不需要内容2</nametext>
          '''


尝试多个 .*? 匹配出一堆不需要的   换成.* 匹配出来的又不对
''' :WW_11 .*? <center> .*? 关键词A .*? no_22 .*? <nametext> (.*?) </nametext> '''

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

天际的海浪 2021-03-23 02:53

关注

import re

text = '''
            <td class="abcde:0:WW_11" style=";"><center>占位这是关键词A占位</center><td class="yyyyy:7:hh_45" style="white;"><center></center><td class="qwert:7:no_22" style=";"><nametext>需要提取的内容1</nametext>

            <td class="abcde:5:WW_11" style=";"><center>占位这是关键词A占位</center><td class="yyyyy:56:hh_87" style="white;"><center></center><td class="qwert:76:no_22" style=";"><nametext>需要提取的内容2</nametext>

            <td class="abcde:2:WW_11" style=";"><center></center><td class="yyyyy:6:hh_76" style="white;"><center></center><td class="qwert:7:no_22" style=";"><nametext>不需要内容1</nametext>

            <td class="abcde:3:WW_11" style=";"><center></center><center><span>其他内容关键词A其他内容</span></center><td class="yyyyy:6:hh_85" style="white;"><center></center><td class="qwert:9:no_22" style=";"><nametext>不需要内容2</nametext>
          '''

res = re.findall(r''':WW_11[^<>]*><center>(?:(?!</center>).)*?关键词A.*?no_22.*?<nametext>(.*?)</nametext>''',text)

print(res)

输出：['需要提取的内容1', '需要提取的内容2']

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(3条)

报告相同问题？

关注问题

python 正则匹配条件太多怎么办_python正则中re.findall匹配多个条件
2020-11-21 03:38

weixin_39622901的博客原博文2020-05-11 11:49 −匹配多个条件：re.findall(r'sellerId=\d{5,20}|tpId\":\"\d{5,20}|tp_id=\d{5,20}', response)匹配单个条件：re.findall(r'shop_id\":\"(\d*)', response)这里需要注意两点：1、匹配单个...
python正则表达式re.findall()
2018-12-03 23:23

Ordinary programmer的博客 re.findall的简单用法findall(pattern, string, flags=0) findall查找全部r标识代表后面是正则的语句，以列表的形式返回能匹配的字符串数组 import re a="&lt;p&gt;do you like dancing...
python正则表达式模块的findall方法若想忽略换行符_python小课堂23 - 正则表达式(一)...
2020-12-19 19:01

weixin_39623082的博客正则表达式是一个特殊的字符序列，一个字符串是否与我们给定的这个字符序列相匹配。正则最重要的功能就是处理字符串，例如检索你在某一段字符串中的特定单词，或者将原来某个位置的特定字符换成你想要的字符。而对于...
Python 文本匹配关键词，多个关键词从文本中匹配，疾病关键词匹配，.findall () .match() .search()的区别和应用实例，医学文本关键词检索
2022-04-21 15:39

医学小达人的博客 Python 文本匹配关键词，多个关键词从文本中匹配，疾病关键词匹配，.findall () .match() .search()的区别和应用实例，医学文本关键词检索
Python正则匹配之findall( ) 用法
2017-10-14 21:42

数据分析师之家的博客而正则匹配也并没有想想中的那样难，不要被吓到。本质就是许多通配符，记不得没关系，会查表使用就OK了。 split( )函数：用于根据特定的字符、字符串分隔原字符串举个例子，有字符串des['description...
Python re正则的使用
2024-09-23 17:25

hzw0510的博客模块是处理字符串匹配和替换的强大工具，理解其基本用法将帮助你在数据处理中更加高效。你可以根据需求调整正则表达式的模式来匹配特定的字符串。模块用于处理正则表达式，提供了多种方法来搜索、匹配和替换字符串。
3. Python爬虫进阶基础——正则表达式详解
2021-06-11 20:58

简时刻的博客实例1：单个文本提取在实际应用中，我们一般不把匹配规则直接写到findall后面的括号里，而是拆成两行来写，先写匹配规则，然后写findall语句。因为有的时候匹配规则会比较长，分开写会比较清晰。 import re res = ...
网络爬虫-如何去除文本信息中的干扰数据-Python实例源码.zip
2022-12-13 19:26

2. **正则表达式（RegEx）**：Python的`re`模块提供正则表达式操作，可以用来匹配、查找、替换特定模式的字符串。在清理文本时，常用于删除特定格式的干扰数据，如邮箱地址、电话号码、URL等。 3. **字符串方法**：...
python re正则笔记
2021-03-27 10:54

mohana48833985的博客包含多个关键词且不包含某个关键词 re.sub(r'[\*"/:?\\|<>]','', str1) 选取第一个匹配到的字符 re.search('"(.*?)"', str1).group() # 输出结果包括"" re.search('"(.*?)"', str1).group()[1:-1] # 输出结果...
python 如何匹配列表中某个单词_从列表中的一个字符串中搜索任意单词或单词组合（python）...
2020-11-30 01:09

weixin_39680609的博客目的你说的是组合，但是组合在语义上是无序的，你的意思是，你想要找到所有有序排列的交集，这些排列由空格连接到一个目标列表。在首先，我们需要导入要使用的库。在import reimport itertools拆分字符串不要分割...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 8月6日

Python re.findall怎么模糊多个词语然后匹配后获取到句子中的内容

4条回答 默认 最新

问题事件

4条回答默认最新