他与星辰皆失 2021-10-29 14:53 采纳率: 80%
浏览 47
已结题

正则表达式删除td下面的p和strong

在使用html2text库的时候,如果表格中有p标签,输出的表格格式不对,虽然有人在gitud中提出过此类问题,但我没有找到作者的解决方法,现在有什么办法?
我现在想到的就是利用正则,删除p还有strong。
类似html如下

<td style="width:6.92%;border:solid black 1.0pt;padding:0cm 5.4pt 0cm 5.4pt;height:30px;">
    <p align="center" style="text-align:center;line-height:150%;layout-grid-mode:char;"><strong>序号</p>
</td>

变成


<td style="width:6.92%;border:solid black 1.0pt;padding:0cm 5.4pt 0cm 5.4pt;height:30px;">
    序号
</td>

我写的是

content = re.sub(r'(<p>)(<strong>)', r'', html)
    content = re.sub(r'(</strong>)(</p>)', r'', content)
    content = re.sub(r'(<td.*?>)(<p>)', r'', content)
    content = re.sub(r'(</p>)(</td>)', r'', content)

但是删除不了,是因为换行符之类的原因吗,应该怎么办呢

  • 写回答

2条回答 默认 最新

  • chuifengde 2021-10-29 15:04
    关注
    content = re.sub(r"(<p.*?)(?=序号)", r'', content, re.DOTALL)
    content = re.sub(r"(?<=序号)(.*?</p>)", r'', content, re.DOTALL)
    
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 11月17日
  • 已采纳回答 11月9日
  • 创建了问题 10月29日

悬赏问题

  • ¥15 spss统计中二分类变量和有序变量的相关性分析可以用kendall相关分析吗?
  • ¥15 拟通过pc下指令到安卓系统,如果追求响应速度,尽可能无延迟,是不是用安卓模拟器会优于实体的安卓手机?如果是,可以快多少毫秒?
  • ¥20 神经网络Sequential name=sequential, built=False
  • ¥16 Qphython 用xlrd读取excel报错
  • ¥15 单片机学习顺序问题!!
  • ¥15 ikuai客户端多拨vpn,重启总是有个别重拨不上
  • ¥20 关于#anlogic#sdram#的问题,如何解决?(关键词-performance)
  • ¥15 相敏解调 matlab
  • ¥15 求lingo代码和思路
  • ¥15 公交车和无人机协同运输