如何抽取TXT中的特定格式文本内容？

图片说明
我手上有一篇语料，我想抽取语料中<目录>和<篇名>后面的内容，语料内容如上图所示。最后希望得到的结果格式是类似于：<目录>卷之一治诸风<篇名>透冰丹。该如何实现？我是编程小白，希望大牛们辛苦给下代码注释。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
bj_0163_bj 2020-04-09 09:26
关注
str1='<目录>卷之一治诸风<篇名>透冰丹内容：治一切风毒……<目录>卷之一治诸风<篇名>龙脑天麻煎内容：治……' import re txt1=re.findall('<目录>(.*?)<篇名>(.*?)内容',str1) for txt in txt1: print(txt)

下面是输出，第一个是目录，第二个是篇名：
('卷之一治诸风', '透冰丹')
('卷之一治诸风', '龙脑天麻煎')
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

如何抽取TXT中的特定格式文本内容？ python 数据挖掘正则表达式自然语言处理
2020-04-08 14:54

回答 2 已采纳 ``` str1='卷之一治诸风透冰丹内容：治一切风毒……卷之一治诸风龙脑天麻煎内容：治……' import re txt1=re.findall('(.*?)(.*?)内容',str1)
如何将word中的内容读取成特定格式的数组？ java javascript 有问必答
2021-07-04 16:21

回答 2 已采纳模板替换这代码太多了，像docx4j，poi都可以做到
想使用正则表达式匹配，提取文本中特定的内容。 python 正则表达式
2022-01-19 16:23

回答 2 已采纳这应该就是你想要的功能： import os, re def GetMiddleStr(content,startStr,endStr): '''提取字符串content当中，startStr
文本信息事件信息抽取的方法
2022-07-29 16:44

合合技术团队的博客事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式，是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件，通常可以描述为状态的变化。事件提取任务旨在将此类事件...
csv文本按照特定格式转换成txt文本 bash 有问必答
2022-01-27 17:21

回答 3 已采纳 $ cat test-id.csv | awk -F ',' '{ print $1 " (" $2 " txid:" $3 "; run:" $4 ")" }' A (B txid:C; run:D
如何提取出一段文本中的特定内容。 python 数据挖掘机器学习正则表达式
2019-07-15 10:03

回答 2 已采纳 ``` # -*- coding: utf-8 -*- """ * for csdn issue * https://ask.csdn.net/questions/769177 ""
有什么文本中关键信息抽取的算法吗？ python 有问必答
2023-01-03 10:41

回答 9 已采纳可以看下这个文本关键信息抽取整体综述，各种算法和代码都有https://blog.csdn.net/qq_25618315/article/details/108516749
从文本中进行关系抽取的几种不同的方法
2020-03-24 07:30

ronghuaiyang的博客点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”作者：Andreas Herman编译：ronghuaiyang导读信息抽取是NLP中非常重要...
如何通过python提取csv文件中的特定列的特定内容？ python 爬虫
2022-06-30 20:19

回答 1 已采纳循环进行读取，转化为字典再通过键进行索引 df = pd.read_csv('pd.csv', usecols=['stat']) print(df) for d in df['stat']:
如何读取并计算文件中特定行中特定列的数据？ python
2022-01-02 16:28

回答 2 已采纳 import pandas as pd from matplotlib import pyplot as plt def Obesity_judge(series): if series['
shell脚本处理文本特定行内容加倍 bash 有问必答正则表达式
2022-01-15 22:11

回答 4 已采纳 shell的也不是不可能，来作为挑战，我这次不用Python #!/bin/bash function read_dir(){ for file in `ls $1` do
中文文本纠错算法走到多远了？
2019-02-01 11:30

悟乙己的博客纠错是从互联网起始时就在一直解决的问题，但是一直作为一些重要技术的辅助、附属功能而默默无闻，譬如搜索引擎、譬如火热的智能写作等。中文文本纠错任务，常见错误类型包括：谐音字词，如配副眼睛-配副眼镜 ...
使用BAT怎么实现把txt的文件内容更新到另一个文件的特定字段中？ c# 有问必答
2022-04-10 17:27

回答 2 已采纳你这两个文件是都只有一行记录？还是说文件1只有一行,但文件2有多行？ info.inc文件 PLUGIN_b = "202203012102" PLUGIN_SET = "202203012102"
信息抽取（Information Extraction）涵盖了哪些内容？
2019-08-09 21:12

blueorris的博客本文参考了Mayank Kejriwal的新著... 信息抽取（Information Extraction，简称IE），这篇文章主要介绍了IE的任务范围，以及每种任务的介绍。信息抽取的任务范围 IE是一个非常广泛的任务，主要分为了以下四...
把Word文本中含有特定关键词的句子批量导入excel表格
2021-12-03 10:45

爱维思康AiWisCom的博客把Word文本中含有特定关键词的句子批量导入excel表格
没有解决我的问题, 去提问

悬赏问题

¥15 delta降尺度计算的一些细节，有偿
¥15 Arduino红外遥控代码有问题
¥15 数值计算离散正交多项式
¥30 数值计算均差系数编程
¥15 redis-full-check比较两个集群的数据出错
¥15 Matlab编程问题
¥15 训练的多模态特征融合模型准确度很低怎么办
¥15 kylin启动报错log4j类冲突
¥15 超声波模块测距控制点灯，灯的闪烁很不稳定，经过调试发现测的距离偏大
¥15 import arcpy出现importing _arcgisscripting 找不到相关程序

如何抽取TXT中的特定格式文本内容？

2条回答 默认 最新

悬赏问题

2条回答默认最新