nltk统计在超过5000条记录中出现的词

dataframe中某一列为文本

现在想统计出在超过5000条记录中出现的词，有什么函数可以用吗？
图片说明

处于没有思路的状态...

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ly_2333 2019-04-06 14:16
关注
先去除标点符号，调用字符串函数split()切分成单词列表，调用nltk.FreqDist()进行统计

import nltk def my_split(s): # 去除文章中的标点符号 # 可以自己定义标点符号 temp = [",",".","?","!",":",";","-","#","$","%","^","&","*","(",")","_","=","+","{","}","[","]","\\","|","'","<",">","~","`"] for e in temp: s = s.replace(e," ") return s test_str = my_split("I have a dream. A nice dream") freq_words = dict( nltk.FreqDist(test_str.split() ) ) print(freq_words)

输出结果：
{'I': 1, 'have': 1, 'a': 1, 'dream': 2, 'A': 1, 'nice': 1}

更细节的操作还有大小写、去除词根，不想要停用词的话可以去除停用词，nltk库都有相应的类可以调用
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何用jieba和nltk统计红楼梦 python 人工智能其他自然语言处理
2021-12-05 00:22

回答 1 已采纳 gbk改成utf-8，你这是字符编码的问题
用anaconda3下的nltk怎么在pycharm里使用 python 自然语言处理
2022-03-22 15:12

回答 1 已采纳如果nltk 在 anaconda3 工作正常。试试把pycharm 的python interpreter 指向 anaconda3 的python.exe 。打开项目后菜单路径【文件-设
用nltk去停用词如何分行？(语言-python) nlp python 数据分析有问必答
2022-02-18 14:27

回答 2 已采纳可以用for循环写成嵌套列表进行处理，示例如下，获取按行去除停用词的分词结果，并可以直接写入csv或者excel中： from nltk.corpus import stopwords from nl
Nltk——语料库
2022-11-10 21:22

big_matster的博客 NLTK 中的FreqDist( ) 类主要记录了每个词出现的次数，根据统计数据生成表格或绘图。其结构简单，用一个有序词典进行实现。词频统计功能实现： import nltk tokens=[ 'my','dog','has','flea','problems','help','...
JupyterNotebook导入nltk.book报错lookup error 自然语言处理
2019-03-29 11:35

回答 2 已采纳【已解决】需要将下载的nltk数据包放置在anaconda安装目录下。在jupyter notebook中才能成功import。 ![图片说明](https://img-ask.csdn.net/u
python中下载安装好nltk后，为什么引入类时，WordPunktTokenizer可以，PunktWordTokenizer却不行？ python 有问必答自然语言处理
2022-01-12 10:17

回答 1 已采纳新版本将PunktWordTokenizer导入路径改了，下面是PunktWordTokenizer导入方式 from nltk.tokenize.punkt import PunktSentence
nltk库分词后有多余的符号分到单词里 nlp python 自然语言处理
2022-05-06 01:36

回答 1 已采纳如果只是点无法识别的话，可以先用replace()把点替换成空格，再去分词。
人工智能入门实战：AI在HR招聘中的应用
2023-11-20 18:50

禅与计算机程序设计艺术的博客 1.背景介绍在HR（人力资源）部门中，识别及分类候选人的能力、综合素质、兴趣爱好、性格特点等特征对于面试者的筛选非常重要。如何提升候选人自我介绍的...那么如何用人工智能技术解决这一难题呢？本文将通过以下几个
nltk有关时间序列的本地数据的导入 python
2023-04-11 14:47

回答 1 已采纳以下内容部分参考ChatGPT模型：你可以使用nltk中的time_series模块来导入时间序列数据。具体步骤如下：导入time_series模块 from nltk.corpus impor
使用nltk删除文件夹内所有txt文档的stopwords python 自然语言处理
2022-03-06 21:38

回答 1 已采纳这个语句，没有产生正确的文件路径吧？ file = open(loop_dir + txt) 改成这样试试 file = open(loop_dir +"/"+ txt) for txt in o
词形还原时“ate"为啥还是“ate” 人工智能机器学习深度学习神经网络自然语言处理
2019-07-23 17:45

回答 1 已采纳 https://blog.csdn.net/jclian91/article/details/83661714
疑问搞懂，python中文词频统计，让你真能学会
2023-02-08 11:27

梦想橡皮擦的博客 * Python中文词频统计知识点 ... + 遍历：遍历分词后的结果，统计每个词出现的次数。 + 排序：对字典按照词频排序，以得到词频最高的词。 + 输出：最后，可以输出词频最高的词，也可以输出完整的词频字典。
Python 英文组合词提取或者是英文单词查错 python 有问必答
2021-06-25 10:50

回答 1 已采纳用nltk分词是没问题的，但是要分词之后组合成词语，这个要用模型实现了，你可以试试word2dev试试如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
用通俗易懂的方式讲解：总结NLTK使用方法
2022-12-17 18:20

深度学习算法与自然语言处理的博客搜索引擎在索引页面的时候使用这种技术，所以很多人通过同一个单词的不同形式进行搜索，返回的都是相同的，有关这个词干的页面。有时，如果你试图还原一个词，比如 playing,还原的结果还是 playing。（3）实际上，这...
NLTK2：词性标注
2022-05-04 10:48

大地之灯的博客自然语言是人类在沟通中形成的一套规则体系。规则有强有弱，比如非正式场合使用口语，正式场合下的书面语。要处理自然语言，也要遵循这些形成的规则，否则就会得出令人无法理解的结论。下面介绍一些术
Python 自然语言处理（基于jieba分词和NLTK）
2018-05-11 11:39

Xy-Huang的博客自然语言处理是人工智能的类别之一。自然语言处理主要有那些功能？我们以百度AI为例从上述的例子可以看到，自然语言处理最基本的功能是词法分析，词法分析的功能主要有：分词分句词语标注词法时态（适用...
基于人工智能的语音识别和自然语言处理：如何使用Python和NLTK实现语音识别和自然语言处理
2023-07-22 00:49

禅与计算机程序设计艺术的博客作者：禅与计算机程序设计艺术随着互联网、移动互联网和物联网等新技术...由于人类在大脑中进行认知活动所需的时间较短，因此人工智能系统的效率可以显著提升。例如，在语音识别方面，通过对人的声音进行分析，机器可
数据可视化的未来：人工智能和深度学习在数据可视化中的应用
2023-07-19 00:37

禅与计算机程序设计艺术的博客作者：禅与计算机程序设计艺术 ...目前，数据可视化已经成为社会经济领域中最重要的工具之一，其应用广泛且迅速扩散，涉及面非常宽。随着大数据的产生、多种数据源的汇总和处理，数据可视化所呈现的
没有解决我的问题, 去提问

悬赏问题

¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！
¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像，如何解决？

nltk统计在超过5000条记录中出现的词

1条回答 默认 最新

悬赏问题

1条回答默认最新