nltk统计在超过5000条记录中出现的词

dataframe中某一列为文本

现在想统计出在超过5000条记录中出现的词，有什么函数可以用吗？
图片说明

处于没有思路的状态...

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ly_2333 2019-04-06 14:16
关注
先去除标点符号，调用字符串函数split()切分成单词列表，调用nltk.FreqDist()进行统计

import nltk def my_split(s): # 去除文章中的标点符号 # 可以自己定义标点符号 temp = [",",".","?","!",":",";","-","#","$","%","^","&","*","(",")","_","=","+","{","}","[","]","\\","|","'","<",">","~","`"] for e in temp: s = s.replace(e," ") return s test_str = my_split("I have a dream. A nice dream") freq_words = dict( nltk.FreqDist(test_str.split() ) ) print(freq_words)

输出结果：
{'I': 1, 'have': 1, 'a': 1, 'dream': 2, 'A': 1, 'nice': 1}

更细节的操作还有大小写、去除词根，不想要停用词的话可以去除停用词，nltk库都有相应的类可以调用
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

如何用jieba和nltk统计红楼梦 python 人工智能其他自然语言处理
2021-12-05 00:22

回答 1 已采纳 gbk改成utf-8，你这是字符编码的问题
用anaconda3下的nltk怎么在pycharm里使用 python 自然语言处理
2022-03-22 15:12

回答 1 已采纳如果nltk 在 anaconda3 工作正常。试试把pycharm 的python interpreter 指向 anaconda3 的python.exe 。打开项目后菜单路径【文件-设
用nltk去停用词如何分行？(语言-python) nlp python 数据分析有问必答
2022-02-18 14:27

回答 2 已采纳可以用for循环写成嵌套列表进行处理，示例如下，获取按行去除停用词的分词结果，并可以直接写入csv或者excel中： from nltk.corpus import stopwords from nl
Nltk——语料库
2022-11-10 21:22

big_matster的博客 NLTK 中的FreqDist( ) 类主要记录了每个词出现的次数，根据统计数据生成表格或绘图。其结构简单，用一个有序词典进行实现。词频统计功能实现： import nltk tokens=[ 'my','dog','has','flea','problems','help','...
JupyterNotebook导入nltk.book报错lookup error 自然语言处理
2019-03-29 11:35

回答 2 已采纳【已解决】需要将下载的nltk数据包放置在anaconda安装目录下。在jupyter notebook中才能成功import。 ![图片说明](https://img-ask.csdn.net/u
python中下载安装好nltk后，为什么引入类时，WordPunktTokenizer可以，PunktWordTokenizer却不行？ python 有问必答自然语言处理
2022-01-12 10:17

回答 1 已采纳新版本将PunktWordTokenizer导入路径改了，下面是PunktWordTokenizer导入方式 from nltk.tokenize.punkt import PunktSentence
nltk库分词后有多余的符号分到单词里 nlp python 自然语言处理
2022-05-06 01:36

回答 1 已采纳如果只是点无法识别的话，可以先用replace()把点替换成空格，再去分词。
人工智能入门实战：AI在HR招聘中的应用
2023-11-20 18:50

禅与计算机程序设计艺术的博客 1.背景介绍在HR（人力资源）部门中，识别及分类候选人的能力、综合素质、兴趣爱好、性格特点等特征对于面试者的筛选非常重要。如何提升候选人自我介绍的...那么如何用人工智能技术解决这一难题呢？本文将通过以下几个
nltk有关时间序列的本地数据的导入 python
2023-04-11 14:47

回答 1 已采纳以下内容部分参考ChatGPT模型：你可以使用nltk中的time_series模块来导入时间序列数据。具体步骤如下：导入time_series模块 from nltk.corpus impor
使用nltk删除文件夹内所有txt文档的stopwords python 自然语言处理
2022-03-06 21:38

回答 1 已采纳这个语句，没有产生正确的文件路径吧？ file = open(loop_dir + txt) 改成这样试试 file = open(loop_dir +"/"+ txt) for txt in o
词形还原时“ate"为啥还是“ate” 人工智能机器学习深度学习神经网络自然语言处理
2019-07-23 17:45

回答 1 已采纳 https://blog.csdn.net/jclian91/article/details/83661714
疑问搞懂，python中文词频统计，让你真能学会
2023-02-08 11:27

梦想橡皮擦的博客 * Python中文词频统计知识点 ... + 遍历：遍历分词后的结果，统计每个词出现的次数。 + 排序：对字典按照词频排序，以得到词频最高的词。 + 输出：最后，可以输出词频最高的词，也可以输出完整的词频字典。
Python 英文组合词提取或者是英文单词查错 python 有问必答
2021-06-25 10:50

回答 1 已采纳用nltk分词是没问题的，但是要分词之后组合成词语，这个要用模型实现了，你可以试试word2dev试试如果对你有帮助，可以点击我这个回答右上方的【采纳】按钮，给我个采纳吗，谢谢
用通俗易懂的方式讲解：总结NLTK使用方法
2022-12-17 18:20

深度学习算法与自然语言处理的博客搜索引擎在索引页面的时候使用这种技术，所以很多人通过同一个单词的不同形式进行搜索，返回的都是相同的，有关这个词干的页面。有时，如果你试图还原一个词，比如 playing,还原的结果还是 playing。（3）实际上，这...
NLTK2：词性标注
2022-05-04 10:48

大地之灯的博客自然语言是人类在沟通中形成的一套规则体系。规则有强有弱，比如非正式场合使用口语，正式场合下的书面语。要处理自然语言，也要遵循这些形成的规则，否则就会得出令人无法理解的结论。下面介绍一些术
使用自然语言处理在商品AI导购专业知识图谱中增强内容
2024-04-25 14:36

AI架构设计之禅的博客 1. 背景介绍随着电子商务的蓬勃发展，消费者在面对海量商品时，如何快速找到最符合需求的产品成为一大挑战。...商品AI导购专业知识图谱是一种基于知识图谱技术的智能导购系统，它能够理解用户的自
Python 自然语言处理（基于jieba分词和NLTK）
2018-05-11 11:39

Xy-Huang的博客自然语言处理是人工智能的类别之一。自然语言处理主要有那些功能？我们以百度AI为例从上述的例子可以看到，自然语言处理最基本的功能是词法分析，词法分析的功能主要有：分词分句词语标注词法时态（适用...
【统计建模选题】大数据和人工智能背景下新能源汽车某方面的统计研究
2024-04-12 11:18

迎风斯黄的博客确保你的研究问题、数据来源和分析方法能够紧密围绕“大数据与人工智能”的主题展开，同时选取的研究指标应当能够体现...针对新能源汽车行业，在大数据和人工智能背景下的统计研究是一个前沿且具有实际意义的研究方向。
中文自然语言处理学习笔记（二）——语料库的安装与使用
2024-04-02 10:56

l~l~long的博客这章笔记一步步介绍语料库概念与使用，安装NLTK，实现对线上语料库内容的获取与分析，最后实现构建一个斗罗大陆小说的本地语料库。
基于人工智能的语音识别和自然语言处理：如何使用Python和NLTK实现语音识别和自然语言处理
2023-07-22 00:49

禅与计算机程序设计艺术的博客作者：禅与计算机程序设计艺术随着互联网、移动互联网和物联网等新技术...由于人类在大脑中进行认知活动所需的时间较短，因此人工智能系统的效率可以显著提升。例如，在语音识别方面，通过对人的声音进行分析，机器可
没有解决我的问题, 去提问

悬赏问题

¥15 Excel发现不可读取的内容
¥15 UE5#if WITH_EDITOR导致打包的功能不可用
¥15 关于#stm32#的问题：CANOpen的PDO同步传输问题
¥20 yolov5自定义Prune报错，如何解决？
¥15 电磁场的matlab仿真
¥15 mars2d在vue3中的引入问题
¥50 h5唤醒支付宝并跳转至向小荷包转账界面
¥15 算法题：数的划分，用记忆化DFS做WA求调
¥15 chatglm-6b应用到django项目中，模型加载失败
¥15 CreateBitmapFromWicBitmap内存释放问题。

nltk统计在超过5000条记录中出现的词

1条回答 默认 最新

悬赏问题

1条回答默认最新