黄色部分数字是我想要匹配到的结果（即靠近文字的部分），红色部分是干扰项若我只想匹配到黄色部分该如何去写正则表达式

黄色部分数字是我想要匹配到的结果（即靠近文字的部分），红色部分是干扰项
若我只想匹配到黄色部分该如何去写正则表达式？
代码第17行是我写的正则，请帮我指出并改正


import docx
from docx.oxml import parse_xml
from docx.oxml.xmlchemy import serialize_for_reading
from docx.oxml.ns import nsmap,qn
import re

path = "2023年10月份人格养成（最初版）.docx"
doc = docx.Document(path)
#print(doc.paragraphs[2].text)

paragraphs = doc.paragraphs
print('段落0字体：',paragraphs[0].style.font.name)
print('段落3字体：',paragraphs[3].style.font.name)
#print(paragraphs[1]._p.xml)
#find = re.findall(".*<w:t>(.*?)</w:t>",paragraphs[1]._p.xml)
#find = re.findall('w:szCs w:val=\'([1-9]｛2})\'(?=.*外国语学院十月份学风建设)',paragraphs[1]._p.xml)
find = re.findall('<w:p>.*?<w:szCs\s+w:val="52"(?=.*外国语学院十月份学风建设).*?<\/w:p>',paragraphs[1]._p.xml)
print(find)

#print(paragraphs[1]._p.xml)




"""with open("1.txt","w",encoding="utf-8") as a:
    a.write(paragraphs[1]._p.xml)
print("\n"*2)


with open("2.txt","w",encoding="utf-8") as a:
    a.write(paragraphs[2]._p.xml)


print(paragraphs[3]._p.xml)
with open("3.txt","w",encoding="utf-8") as a:
    a.write(paragraphs[3]._p.xml)

"""

下面是xml


```xml

<w:p xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main" xmlns:wp="http://schemas.openxmlformats.org/drawingml/2006/wordprocessingDrawing" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:wp14="http://schemas.microsoft.com/office/word/2010/wordprocessingDrawing" xmlns:w14="http://schemas.microsoft.com/office/word/2010/wordml" xmlns:mc="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:m="http://schemas.openxmlformats.org/officeDocument/2006/math" xmlns:wps="http://schemas.microsoft.com/office/word/2010/wordprocessingShape" xmlns:wpg="http://schemas.microsoft.com/office/word/2010/wordprocessingGroup" xmlns:wpi="http://schemas.microsoft.com/office/word/2010/wordprocessingInk" xmlns:wpc="http://schemas.microsoft.com/office/word/2010/wordprocessingCanvas" xmlns:wpsCustomData="http://www.wps.cn/officeDocument/2013/wpsCustomData">
  <w:pPr>
    <w:pStyle w:val="style0"/>
    <w:jc w:val="center"/>
    <w:rPr>
      <w:rFonts w:ascii="宋体" w:cs="宋体" w:eastAsia="宋体" w:hAnsi="宋体"/>
      <w:b/>
      <w:bCs/>
      <w:sz w:val="52"/>
      <w:szCs w:val="52"/>
    </w:rPr>
  </w:pPr>
  <w:r>
    <w:rPr>
      <w:rFonts w:ascii="宋体" w:cs="宋体" w:eastAsia="宋体" w:hAnsi="'体" w:hint="eastAsia"/>
      <w:b/>
      <w:bCs/>
      <w:sz w:val="52"/>
      <w:szCs w:val="52"/>
    </w:rPr>
    <w:t>外国语学院十月份学风建设</w:t>
  </w:r>
</w:p>

```

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-11-02 04:12
关注
【以下回答由 GPT 生成】

问题解决方案: 问题标题: 如何通过正则表达式匹配到黄色部分数字，而忽略红色部分干扰项？

问题内容:

首先，通过观察给出的代码和文本数据，可以看出需要匹配的黄色部分数字位于<w:p>和</w:p>标签之间，同时需要满足<w:szCs w:val="52">(.*外国语学院十月份学风建设)的条件。

基于这些条件，可以使用正则表达式来实现匹配，具体步骤如下：

使用re.findall()函数来进行匹配，该函数可以返回所有满足条件的匹配项。

python find = re.findall(r'<w:p>.*?<w:szCs\s+w:val="52"(?=.*外国语学院十月份学风建设).*?</w:p>', paragraphs[1]._p.xml)

这里使用了非贪婪匹配，通过.*?来匹配最短的内容。

将匹配结果打印出来，以查看是否成功匹配到黄色部分的数字。

python print(find)

以上代码将打印出所有满足条件的匹配项。

注意事项： - 当前代码仅针对给出的具体问题进行解答，如果文本数据的结构发生变化，可能需要进行相应的修改。 - 正则表达式中使用了特殊字符和转义字符，因此在使用时请注意使用原始字符串（前面添加r前缀）或者进行适当的转义。 - 部分关键代码被注释掉，根据实际需要可以进行取消注释并使用。 - 由于没有提供完整的文本数据，无法确认匹配是否准确，需要根据实际情况进行调试和验证。

【相关推荐】

帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7605173
你也可以参考下这篇文章：毕业生信息采集：质量判定头顶部距离顶部距离未通过解决办法
您还可以看一下刘城龙老师的教你快速查找电脑中的文件课程中的快速按文件内容查找文件的方法小节, 巩固相关知识点
除此之外, 这篇博客: 正则表达式获得指定的文件路径中的 正则表达式提取文件需要的文件 部分也许能够解决你的问题。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【ATS】Accessory Test System-苹果传输数据ATS认证究竟是什么？
2023-02-28 14:08

Lotay_天天的博客 ATS是的意思，即苹果公司附件测试系统的配置和使用情况。一套用于诊断和调试附件的硬件层和iAP协议性能的实时工具。一套自动验证工具，用于确保新配件更完全符合MFi规范。各种连接MFi的各种硬件配件。
02虚幻编辑器各部分功能详解
2021-12-29 23:59

坏脾气猫的博客如，需要从四个面观察一个建筑，则可以在建筑的前、后、左、右分别按下Ctrl+1，+2，+3，+4，在之后对建筑的调整过程中，当需要观察时，只需按下1，2，3，4即可跳转到想要到达的面直接进行观察注意！这里的数字键是...
【计算机网络】 0、各网络命令 + tcpdump + Wireshark、抓包实战、TCP 握手挥手、防火墙、保活、MTU
2022-11-26 17:26

呆呆的猫的博客查看规则 too many open files ping 案例三、抓包抓包文件格式 tcpdump 用法如何抓取报文如何过滤报文 Wireshark 用法确认是在哪端抓的包定位应用层的请求和响应只截到一部分报文乱序有问题吗四、TCP 握手 ...
工作中使用到的单词（软件开发）_2023_0316备份
2023-03-16 10:55

sun0322的博客日本人一般说 MD five （也许英文和数字组合时，数字部分他们喜欢使用英语）查看文件信息摘要_sun0322-CSDN博客_怎么看文件摘要 7．错：インテレーション (正确写法：イテレーション) 错 Interation 正确写法 ...
“很多人奉劝我控住分秒恰反来我偏莽撞闯入年年岁岁”
2020-05-29 11:38

.Z少的博客《我在等你过整个夏天》第1章雪对这座城市的大多数人而言类似一场盛大的幻想敷衍出苍白一片冬季是有形状的它甚至怕冷人们会为它系上围巾偶尔会稍稍转暖它化为水滴也带走了幻想平安夜是和精灵的...
【爬虫】网页抓包工具--Fiddler--Request和Response
2019-05-07 14:18

AiDBA宝典的博客主要分为请求（即客户端发出的数据）和响应（服务器返回的数据）两部分。 4）HTTP Request Header：以百度为例，查看请求百度主页这条数据包的请求数据，从上面的Headers中可以看到如下内容： ...
工作中使用到的单词（软件开发）
2020-03-15 01:02

sun0322的博客　开发的系统新功能上线发布，有时会使用到这个词，比如 STプロモート还有使用リリース这个词的。比如STリリース。个人认为两者含义相同。４．見逃し　み.......................................................
基于深度学习的人脸识别综述
2018-10-18 21:05

夏洛的网的博客本文转载自 ...（作者：Caleb Ge (葛政)），如有侵权...（下文中的“我”均为原文作者）另附有查找的其他参考链接：论文介绍方面链接： 1、https://blog.csdn.net/fengbingchun/article/details/80904688 2、https://...
51c大模型~合集170
2025-08-18 20:13

whaosoft-143的博客观察到，当模型的潜在空间从低维（如 4 通道）扩展到更高维（如 16 通道）时，尽管后者能表达更丰富的细节，但也偶发性地出现了一些生成「翻车」的情况（如图 3 所示）。通过建模移动流量在时间、空间、城市环境...
小智音箱灯光颜色语音调节RGB驱动
2025-11-09 02:49

不吃香菜的鱼的博客小智音箱灯光颜色语音调节RGB驱动技术解析你有没有过这样的体验：晚上窝在沙发里，懒得起身，只想让房间的氛围灯变成柔和的暖黄色？如果这时候只需轻声一句“把灯调成暖黄”，音箱上的光带就缓缓过渡到理想色调——...
从零实现Intel主板USB3.0接口引脚连接指南
2026-01-01 04:41

微尘-黄含驰的博客尤其是在使用机箱前置面板、定制延长线或工业扩展板时，一个引脚接反、屏蔽没接好，甚至走线不匹配，就可能导致高速信号失效，只能降级到USB2.0运行，性能损失高达90%以上。本文将带你从零开始，手把手完成Intel...
香港科大推出BiCo:让AI像艺术家自由组合图片和视频中的任意元素
2025-12-12 17:23

至顶头条的博客一、突破传统局限：从简单拼接到智能理解在BiCo出现之前，想要组合不同视频中的元素就像用剪刀和胶水做手工一样原始。传统的视频编辑方法只能进行表面的拼接，无法真正理解画面中的内容含义。这就好比你想把一只猫...
排查 no stlink detected 的五个关键步骤（适用于STM32项目）
2025-12-28 01:23

泠川的博客悬空时最好加上拉电阻 ⚠️ 特别提醒：有些自定义 PCB 在布局时将 SWD 走线绕得太长，或靠近 DC-DC 电源模块，容易引入噪声干扰，导致信号完整性下降。高速信号对布线敏感，等长走线、远离高频源是基本要求。我曾...
告别通宵校对！Python 10 秒钟对比 200 份 Word 文档差异
2025-11-29 22:01

BUG猿的博客本文介绍了一个用Python快速比对Word...文章包含完整代码实现，并针对实际应用中的格式丢失、空格干扰、大文件性能等问题给出了优化建议。该方案能在10秒内完成200份合同的比对工作，大幅提升法务等岗位的工作效率。
基于32单片机的RS485综合土壤传感器检测土壤PH、氮磷钾的使用（超详细）
2024-12-12 21:35

点灯之王的博客那假如我四合一传感器只想读取其中一个数据呢，比如我只想读取磷的数据，那我的问询帧前面的格式则为，地址码：0x01 功能码：0x03，起始地址：0x00 0x05 ，数据长度：0x00 0x01，效验码低字节0x94，效验码高字节：...
elasticsearch-head与Kibana对比：开发调试场景下的优劣分析
2025-12-22 16:50

王超逸q的博客我们先问自己几个朴素的问题：我只想看看这个索引有没有被创建出来，要等多久？数据写进去了吗？能直接看到 _source 吗？集群为什么是黄色的？哪个分片没分配？能不能让我随手敲一条 match_all 查一下结果？ ...
KAIST团队突破性创新：让AI视频生成像调色师一样精确控制每一帧画面
2025-06-16 15:56

至顶AI实验室的博客研究团队在多个不同的AI模型上测试了这项技术，包括基于扩散模型的CogVideoX、基于流匹配的Wan、经典的Stable Video Diffusion，甚至是最新的LTX-2B模型。这种方法的问题是，每当你想要新的控制方式，或者想要适配新...
51c大模型~合集135
2025-06-05 11:44

whaosoft-143的博客此外，对于任何偶数线程 _，的最后一位与 _0 中的倒数第二位匹配，的倒数第二位与 _0 中的倒数第三位匹配。此外，在 Triton 的编程模型中，张量的维度以及与每个张量相关的布局子部分（例如每个线程的寄存器和...
零基础入门游戏UI设计实战教程
2025-11-15 08:47

牛新哲的博客我们接下来要聊的，就是这一整套方法论——从用户是谁、他们怎么想，到颜色怎么选、按钮放哪儿，再到多端适配、动效反馈，最后如何通过原型测试闭环优化。全程干货，带你看清顶级产品背后的真正逻辑。先聊聊最基础...
display driver uninstaller 结合 DDU 模式进行安全卸载示例
2026-01-10 02:10

EdTechIH的博客它代表了一种系统级维护思维：当软件出现问题时，不要只想着打补丁、换版本，更要思考—— 环境是否干净？基础是否牢固？就像装修房子，如果墙面裂缝没处理就刷漆，再多的涂料也只是掩盖问题。只有铲掉旧墙皮，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月2日

黄色部分数字是我想要匹配到的结果（即靠近文字的部分），红色部分是干扰项若我只想匹配到黄色部分该如何去写正则表达式

2条回答 默认 最新

问题事件

2条回答默认最新