weixin_51073485 2021-01-03 11:48 采纳率: 0%
浏览 80

如何用Python读取中文文档并且统计字汉字频

1.一元汉字二元汉字三元汉字

2.呈现要分析一下(汉字的多少,常见的有哪些,罕见的有哪些呈现方式等等)

3.所有文本内容都要统计(除空格回车无意义字符)

  • 写回答

1条回答 默认 最新

  • 海晨威 领域专家: 数据科学与机器学习技术领域 2021-01-03 15:33
    关注

    一元汉字二元汉字三元汉字,实际上就是NLP中的 N-Gram,推荐使用 NLTK 库中的 ngrams 来进行统计

    评论

报告相同问题?