Janehiwang 2019-04-04 23:06 采纳率: 0%
浏览 555

nltk统计在超过5000条记录中出现的词

dataframe中某一列为文本

现在想统计出在超过5000条记录中出现的词,有什么函数可以用吗?
图片说明

处于没有思路的状态...

  • 写回答

1条回答 默认 最新

  • ly_2333 2019-04-06 14:16
    关注

    先去除标点符号,调用字符串函数split()切分成单词列表,调用nltk.FreqDist()进行统计

    import nltk
    
    def my_split(s):
        # 去除文章中的标点符号
        # 可以自己定义标点符号
        temp = [",",".","?","!",":",";","-","#","$","%","^","&","*","(",")","_","=","+","{","}","[","]","\\","|","'","<",">","~","`"]
        for e in temp:
            s = s.replace(e," ")
        return s
    
    test_str = my_split("I have a dream. A nice dream")
    freq_words = dict( nltk.FreqDist(test_str.split() ) )
    
    print(freq_words)
    

    输出结果:
    {'I': 1, 'have': 1, 'a': 1, 'dream': 2, 'A': 1, 'nice': 1}

    更细节的操作还有大小写、去除词根,不想要停用词的话可以去除停用词,nltk库都有相应的类可以调用

    评论

报告相同问题?

悬赏问题

  • ¥60 版本过低apk如何修改可以兼容新的安卓系统
  • ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
  • ¥50 有数据,怎么建立模型求影响全要素生产率的因素
  • ¥50 有数据,怎么用matlab求全要素生产率
  • ¥15 TI的insta-spin例程
  • ¥15 完成下列问题完成下列问题
  • ¥15 C#算法问题, 不知道怎么处理这个数据的转换
  • ¥15 YoloV5 第三方库的版本对照问题
  • ¥15 请完成下列相关问题!
  • ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?