nltk词性还原不充分，有的单词没被还原

我对一段纯英文文本用nltk分别进行了分词，去符号，标注，词性还原的操作，但是最终得到的单词还是和想象出入很大，是因为我用了分词使其失去了语境，从而无法如意标注词性导致还原的错误吗？

以下是我的标注和分词部分的代码，
#词性还原及去重
words_3=pos_tag(words_2) #词性标注

def get_wordnet_pos(tag):#获得词性的函数
if tag.startswith('J'):
return wordnet.ADJ
elif tag.startswith('V'):
return wordnet.VERB
elif tag.startswith('N'):
return wordnet.NOUN
elif tag.startswith('R'):
return wordnet.ADV

wnl=WordNetLemmatizer()

for tag in words_3:
wordnet_pos = get_wordnet_pos(tag[1]) or wordnet.NOUN # tag[1]指单词词性
book_words.append(wnl.lemmatize(tag[0], pos=wordnet_pos)) # tag[0]指单词本身

book_words=set(book_words)#去重

with open('book_words.txt','w')as fs:
fs.write(str(book_words))

画圈只是很小一部分，还有很多我不期待的词性还原不如意项

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
hyh123a 全栈领域新星创作者 2022-05-07 07:47
关注
解决办法

1、POS 标记在句子上下文之外并不能很好地工作。
2、输入一个完整的句子pos_tag而不是一个单词，然后再试一次。
3、如果它不起作用，请使用nltk.download()获取更好的 POS 标记模型并运行它。
4、如果您需要单个单词的所有 POS 标签，请尝试 WordNet：

In [9]: nltk.corpus.wordnet.synsets('cat') Out[9]: [Synset('cat.n.01'), Synset('guy.n.01'), Synset('cat.n.03'), Synset('kat.n.01'), Synset("cat-o'-nine-tails.n.01"), Synset('caterpillar.n.02'), Synset('big_cat.n.01'), Synset('computerized_tomography.n.01'), Synset('cat.v.01'), Synset('vomit.v.01')]

参考链接：
In python nltk I am trying to get parts of speech of a word by using pos_tag. but I am getting inaccurate output? Tell me the better tagger? - Stack Overflow https://stackoverflow.com/questions/17966554/in-python-nltk-i-am-trying-to-get-parts-of-speech-of-a-word-by-using-pos-tag-bu
解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

nltk库分词后有多余的符号分到单词里 nlp python 自然语言处理
2022-05-06 01:36

回答 1 已采纳如果只是点无法识别的话，可以先用replace()把点替换成空格，再去分词。
词形还原时“ate"为啥还是“ate” 人工智能机器学习深度学习神经网络自然语言处理
2019-07-23 17:45

回答 1 已采纳 https://blog.csdn.net/jclian91/article/details/83661714
用anaconda3下的nltk怎么在pycharm里使用 python 自然语言处理
2022-03-22 15:12

回答 1 已采纳如果nltk 在 anaconda3 工作正常。试试把pycharm 的python interpreter 指向 anaconda3 的python.exe 。打开项目后菜单路径【文件-设
【火炉炼AI】机器学习036-NLP词形还原
2018-10-09 18:12

科技老丁哥的博客【火炉炼AI】机器学习036-NLP词...词形还原也是将单词转换为原来的相貌，和上一篇文章中介绍的词干提取不一样，词形还原要难的多，它是一个更加结构化的方法，在上一篇中的词干提取例子中，可以看到将wolves提取为wo...
JupyterNotebook导入nltk.book报错lookup error 自然语言处理
2019-03-29 11:35

回答 2 已采纳【已解决】需要将下载的nltk数据包放置在anaconda安装目录下。在jupyter notebook中才能成功import。 ![图片说明](https://img-ask.csdn.net/u
nltk有关时间序列的本地数据的导入 python
2023-04-11 14:47

回答 1 已采纳以下内容部分参考ChatGPT模型：你可以使用nltk中的time_series模块来导入时间序列数据。具体步骤如下：导入time_series模块 from nltk.corpus impor
使用nltk删除文件夹内所有txt文档的stopwords python 自然语言处理
2022-03-06 21:38

回答 1 已采纳这个语句，没有产生正确的文件路径吧？ file = open(loop_dir + txt) 改成这样试试 file = open(loop_dir +"/"+ txt) for txt in o
python实现自然语言处理之词干提取和词性还原
2021-06-22 16:12

Hello AI！的博客 import nltk.stem.porter as pt import nltk.stem.lancaster as lc import nltk.stem.snowball as sb # 波特词干提取器 (偏宽松) stemmer = pt.PorterStemmer() # 朗卡斯特词干提取器 (偏严格) stemmer = lc....
如何用jieba和nltk统计红楼梦 python 人工智能其他自然语言处理
2021-12-05 00:22

回答 1 已采纳 gbk改成utf-8，你这是字符编码的问题
用nltk去停用词如何分行？(语言-python) nlp python 数据分析有问必答
2022-02-18 14:27

回答 2 已采纳可以用for循环写成嵌套列表进行处理，示例如下，获取按行去除停用词的分词结果，并可以直接写入csv或者excel中： from nltk.corpus import stopwords from nl
Python 英文组合词提取或者是英文单词查错 python 有问必答
2021-06-25 10:50

回答 1 已采纳用nltk分词是没问题的，但是要分词之后组合成词语，这个要用模型实现了，你可以试试word2dev试试如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
【自然语言处理】P3 spaCy 与 NLTK（分词、词形还原与词干提取）以及 Porter 和 Snowball
2024-02-02 16:27

脚踏实地的大梦想家的博客 Python实现从句子分词的基本操作，两个库：spaCy 与 NLTK，以及进行词形还原和词干提取
python中下载安装好nltk后，为什么引入类时，WordPunktTokenizer可以，PunktWordTokenizer却不行？ python 有问必答自然语言处理
2022-01-12 10:17

回答 1 已采纳新版本将PunktWordTokenizer导入路径改了，下面是PunktWordTokenizer导入方式 from nltk.tokenize.punkt import PunktSentence
【NLP】第 4 章：文本预处理、词干提取和词形还原
2022-09-28 19:12

Sonhhxg_柒的博客最终，与计算中的许多问题一样，这是一个权衡速度与细节的问题...为了返回任何给定句子的正确词形还原，我们必须首先执行 POS 标记以获取句子中单词的上下文，然后将其传递给 lemmatizer 以获得句子中每个单词的词元。
机器学习自然语言处理之英文NLTK（代码+原理）
2022-05-20 21:12

王小王-123的博客常用的自然语言处理技术NLTK简介NLTK的功能分词过滤掉停用词词汇规范化（Lexicon Normalization）1）词形还原（lemmatization）2) 词干提取（stem）词性标注获取近义词其他案例每文一语什么是自然语言处理？自然...
NLTK简介及使用示例
2021-12-03 21:26

风情客家__的博客参考文章：自然语言处理库——NLTK_满腹的小不甘-CSDN博客 NLP 自然语言处理的开发环境搭建_村雨遥-CSDN博客_nlp开发 nlp---Nltk 常用方法_飘过的春风-CSDN博客 NLTK 基础知识总结_村雨遥-CSDN博客_nltk NLTK ::...
用通俗易懂的方式讲解：总结NLTK使用方法
2022-12-17 18:20

深度学习算法与自然语言处理的博客搜索引擎在索引页面的时候使用这种技术，所以很多人通过同一个单词的不同形式进行搜索，返回的都是相同的，有关这个词干的页面。有时，如果你试图还原一个词，比如 playing,还原的结果还是 playing。（3）实际上，这...
【小沐学NLP】Python使用NLTK库的入门教程
2023-09-03 02:03

爱看书的小沐的博客 NLTK - 自然语言工具包 - 是一套开源Python。支持自然研究和开发的模块、数据集和教程语言处理。NLTK 需要 Python 版本 3.7、3.8、3.9、3.10 或 3.11。NLTK是一个高效的Python构建的平台，用来处理人类自然语言数据...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月7日

悬赏问题

¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场部分对应不上
¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？

nltk词性还原不充分，有的单词没被还原

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新