2 dec sea dec_sea 于 2017.09.17 16:48 提问

Python,从文本中提取某个词语,并返回词语所在的句子

图片说明
求助大神们。如何提取出文本中的学科,特征是“【学科分类】”,并将参考文献中的图书引文按学科分类提取出来,图书引文的特征是以“xxx出版社”或是“xxxPress”结尾。文本数量很多。

2个回答

qq_36540242
qq_36540242   2017.09.17 18:57

re库 用正则表达式不可以么

dec_sea
dec_sea 我知道可以,能具体一点吗。。
10 个月之前 回复
sinat_38772048
sinat_38772048   2017.09.19 09:29

文本处理提取,可以考虑用正则表达式

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
【实例】python re 选择含特定词的句子 导出txt?
>>> name = '是'and'的'>>> text = open('E:/西方哲学史.txt','r').read()>>> results = re.findall(r'[^。]*?{}[^。]*?。'.format(name), text)>>> for i, r in enumerate(results, 1):....
【实例】用python选择 含有 特定词 的句子
参考:百度知道:https://zhidao.baidu.com/question/942099150621602452.htmlPython 3.6.3 (v3.6.3:2c5fed8, Oct 3 2017, 18:11:49) [MSC v.1900 64 bit (AMD64)] on win32 Type "help", "copyright", "credits" or "licen...
python-在英文句子中查找单词并突出显示
import nltk #自然语言处理 import re #正则 from colorama import Fore,Back,Style #改变终端输出字体和颜色 ex_sent = "I have a pen and a pencil. But Idon't want the pen, I just want a pencil." sp_sent = nltk.word_tokeni
分析一个文本文件中各个词出现的频率
题目:写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来。文本文件大约是30KB~300KB大小。
python实现PMI(求词语关联性)
关于PMIPMI, 是互信息(NMI)中的一种特例, 而互信息,是源于信息论中的一个概念,主要用于衡量2个信号的关联程度.至于PMI,是在文本处理中,用于计算两个词语之间的关联程度.比起传统的相似度计算, pmi的好处在于,从统计的角度发现词语共现的情况来分析出词语间是否存在语义相关 , 或者主题相关的情况.场景实例说起接触PMI的原因,是我在一个主题词挖掘研究的时候, 想到能否融入pmi,以增强主
python 正则匹配文本并返回字典列表
今天有遇到要匹配网页的table元素里面的内容,
NLP︱句子级、词语级以及句子-词语之间相似性(相关名称:文档特征、词特征、词权重)
关于相似性以及文档特征、词特征有太多种说法。弄得好乱,而且没有一个清晰逻辑与归类,包括一些经典书籍里面也分得概念模糊,所以擅自分一分。 —————————————————————————————————————————————— 一、单词的表示方式 1、词向量       词向量是现行较为多的方式,另外一篇博客已经写了四种词向量的表达
重复行(或重复词语)删除程序 (Python 代码)
可以删除文档中重复的内容,只要是一行一行的,包括词表中重复的词、术语、词组或短语等,以及文章中重复的词、词组、短语、句子、段落等。在 .txt 中操作。
python读取文件里的单词,统计词频,输出到文件
程序用python3运行时,可将当前路径下的aa.txt文件读取后,按空格分割成一系列的单词,然后统计这些单词出现的次数,按频率从大到小排序后,写入ar.txt文件中。涉及的语法有:1、中英文混合对齐;2、list高级排序,一组升,一组降;3、获取当前路径、文件读写、路径与文件名组合、随机数生成。。。...
输出词频最高的n个词--python
#!/usr/bin/python #-*- coding: utf8 -*- def word_count(f_name, topN):     """         Print the topN word and its count         @author: ken         Assuming words are separated by doted charact