有关中文文本分类中用n-gram提高精度的问题

技术小白一个，但是接到一个很具有挑战性的任务是对上万条中文留言进行分类。我首先用网上比较常见的朴素贝叶斯分类器来进行分类，但发现对于短文本精确度并不高。因此想在TF-IDF之后加上n-gram来提高精度。但是python总是读取文件不成功，读出来全是乱码。求大神帮忙解答一下我应该改哪里，问题到底出在哪里？谢谢大家了
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import re
import string
import operator

def cleanText(input):
input = re.sub('\n+', " ", input).lower()
input = re.sub('[[0-9]*]', "", input)
input = re.sub(' +', " ", input)
input = bytes(input)#.encode('utf-8')
#input = input.decode("ascii", "ignore")
return input

def cleanInput(input):
input = cleanText(input)
cleanInput = []
input = input.split(' ')

for item in input:
    item = item.strip(string.punctuation) 

    if len(item) > 1 or (item.lower() == "的" or item.lower() == "啊"): 
return cleanInput

def getNgrams(input, n):
input = cleanInput(input)

output = {} 
for i in range(len(input)-n+1):
    ngramTemp = " ".join(input[i:i+n])#.encode('utf-8')
    if ngramTemp not in output: 
        output[ngramTemp] = 0 
    output[ngramTemp] += 1
return output

content = _readfile("‘·/train2/train_word_bag/tfdifspace.dat")#这个路径是训练集转成词向量空间后的文件路径，我也不大确定是不是要用这个路径
ngrams = getNgrams(content, 2)
sortedNGrams = sorted(ngrams.items(), key = operator.itemgetter(1), reverse=True) #=True
print(sortedNGrams)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
weixin_40087970 2017-11-23 15:29
关注
运行出来是这样的

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

编程实现:1-gram sequence、uni-gram set和uni-gram vector c++ java python
2022-10-24 11:01

回答 1 已采纳 30位常用符号和数字，不知道怎么对应位置顺序，目前只处理了全是英文字母的情况 if __name__ == '__main__': # 读取keyword.txt处理 uni_gram
SQLSyntaxErrorException: ORA-00900: 无效 SQL 语句 java
2021-06-04 10:22

回答 1 已采纳 PreparedStatement pst = con.prepareStatement(String.valueOf(listsql.size())); 改成 PreparedStatemen
if-else语句不运行 php
2014-02-18 19:57

回答 1 已采纳 I just pasted that code to my IDE it told me that there is a missing closing brace: if (!is_numer
python语料库的n元模型构建_【转】统计模型-n元文法
2020-12-21 15:05

weixin_39581995的博客定义N-Gram是大词汇连续语音识别中常用的一种语言模型，对中文而言，我们称之为汉语语言模型(CLM，ChineseLanguageModel)。汉语语言模型利用上下文中相邻词之间的搭配信息，在需要把连续无空格的拼音、比划，或...
jupyter notebook运行代码找不到语料库文件 python 有问必答
2021-06-26 12:06

回答 5 已采纳没有那样的文件。。检查运行环境中是否存在那样的文件
在一个py文件中导入一个算法库，然后运行np.array()就出现如下警告，怎么解决求解？（如果不导入算法库，只导入numpy就不会有警告） python sklearn 有问必答算法
2021-08-26 23:48

回答 2 已采纳升级sklearn和numpy 到新版本，经测试版本分别为0.24.2 和1.21.2运行正常，没有弃用提示信息。
求教下，这个问题的C语言的解法是什么呢？？？ c语言
2018-12-04 17:51

回答 2 已采纳 https://www.nowcoder.com/questionTerminal/d73f282f99b3416d84fb7eb2a82afff1
【自然语言处理与文本分析】中文分词的基本原理，如何进行词性标注使用HMM算法提高准确率
2022-07-16 18:20

晴天qt01的博客中文分词是文本处理必不可少的一部分，词性标注对后续的关键词截取和词云图绘制是非常有帮助的
可靠有效的自定义搜索和替换功能 - preg或str替换 php
2012-03-24 15:37

回答 2 已采纳 I think it's better to use DOMDocument functionality than regexps. Here is a working prototype: /
bash学习过程中的疑问2:使用参数扩展来获取字符串的第i个字符为什么不对？ linux
2022-04-26 10:38

回答 2 已采纳看下提示，是使用cut完成 cut -d ' ' -f 1|cut -c 3
Chemical Weighing
2017-02-13 09:47

回答 1 已采纳 http://www.acmerblog.com/POJ-3677-Chemical-Weighing-blog-1129.html
授人以渔：分享我的文本分类经验总结
2022-02-15 15:11

程序员对白的博客在本地进行文本分类开发我们需要关注的两个主要的问题：数据处理和模型选择，这两者是相互依赖的。图1 文本分类的步骤文本分类可以根据文本的大小可以分为如下几种：文本级别: 对整篇文章进行分类段落级别:&...
移植OLED程序字库文件重定义 stm32
2022-08-22 13:20

回答 2 已采纳你是不是在头文件里定义变量，然后在两个C文件里都包含了这个头文件？
【NLP】授人以渔：分享我的文本分类经验总结
2022-01-30 12:05

风度78的博客在我们做一个项目或业务之前，需要了解为什么要做它，比如为什么要做文本分类？项目开发需要，还是文本类数据值得挖掘。1、介绍目前讨论文本分类几乎都是基于深度学习的方法，本质上还是一个建模的过程...
语言模型与词向量
2020-10-02 16:32

某林LLL的博客在实践中用的最多的就是 bigrambigrambigram和 trigramtrigramtrigram了，高于四元的用的非常少，因为训练它须要更庞大的语料，并且数据稀疏严重，时间复杂度高，精度却提高的不多。另外这里由于是统计N-gram，...
暑假学习总结机器学习（其二）————基于机器学习的自然语言处理（NLP文本分类）
2019-08-29 03:14

月遠的博客另外还有一种相对来说更有效的方法——N-Gram，原理是是一种考虑了词汇顺序的模型，其会将每个样本转移成了概率矩阵，可以增加信息的权重。 2.1.6 标注事实上，有一些看似分类的问题在实际中却难以归于分类。比如...
达观数据王江：fastText原理及实践
2018-12-03 11:28

AI界小学生的博客但是它的优点也非常明显，在文本分类任务中，fastText（浅层网络）往往能取得和深度网络相媲美的精度，却在训练时间上比深度网络快许多数量级。在标准的多核CPU上，能够训练10亿词级别语料库的词向量在10分钟之内，...
一文详解NGram语言模型以及困惑度perplexity
2018-10-19 13:59

LoveMIss-Y的博客欢迎关注“勇敢AI”公众号，更多python学习、数据分析、机器学习、深度学习原创文章与大家分享，还有更多电子资源、教程、数据集下载。勇敢AI，一个专注于人工智能AI的公众号。 ==================================...
Keras文本分类实战（下）
2018-11-05 11:13

weixin_34261739的博客 2019独角兽企业重金招聘Python工程师标准>>> ...
没有解决我的问题, 去提问

悬赏问题

¥15 LiBeAs的带隙等于0.997eV,计算阴离子的N和P
¥15 关于#windows#的问题：怎么用WIN 11系统的电脑克隆WIN NT3.51-4.0系统的硬盘
¥15 来真人，不要ai！matlab有关常微分方程的问题求解决，
¥15 perl MISA分析p3_in脚本出错
¥15 k8s部署jupyterlab，jupyterlab保存不了文件
¥15 ubuntu虚拟机打包apk错误
¥199 rust编程架构设计的方案有偿
¥15 回答4f系统的像差计算
¥15 java如何提取出pdf里的文字？
¥100 求三轴之间相互配合画圆以及直线的算法

有关中文文本分类中用n-gram提高精度的问题

1条回答 默认 最新

悬赏问题

1条回答默认最新