weixin_42282277
weixin_42282277
采纳率100%
2020-04-08 14:54

如何抽取TXT中的特定格式文本内容?

5

图片说明
我手上有一篇语料,我想抽取语料中<目录>和<篇名>后面的内容,语料内容如上图所示。最后希望得到的结果格式是类似于:<目录>卷之一治诸风<篇名>透冰丹。该如何实现?我是编程小白,希望大牛们辛苦给下代码注释。

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享
  • 邀请回答

2条回答

  • weixin_42678268 bj_0163_bj 1年前
    str1='<目录>卷之一治诸风<篇名>透冰丹内容:治一切风毒……<目录>卷之一治诸风<篇名>龙脑天麻煎内容:治……'
    import re
    txt1=re.findall('<目录>(.*?)<篇名>(.*?)内容',str1)
    for txt in txt1:
        print(txt)
    
    

    下面是输出,第一个是目录,第二个是篇名:
    ('卷之一治诸风', '透冰丹')
    ('卷之一治诸风', '龙脑天麻煎')

    点赞 评论 复制链接分享
  • caozhy 回答这么多问题就耍赖把我的积分一笔勾销了 1年前
    没看到图
    
    用正则表达式,特殊符号转义
    
    (?<=前置文本).*?(?=后置文本)
    
    点赞 评论 复制链接分享