机器学习菜鸟求问短文本分类问题 10C

我有一个短文本集,基本上每段都是不超过100字的文本,是关于某个学科的描述。
然后我现在也有相关学科的列表,并且知道每个学科的核心关键词。
现在的任务是需要自动地对这些短文本进行分类,打上相应学科的标签,一般一段文本对应一个学科。

求教大神应该怎么做,越详细越好,包括是否需要人工做标注,用什么算法,怎么训练参数。本人拥有一定的Python编程基础,在数据挖掘和机器学习方面都是刚刚入门的菜鸟知道一定的概念但是懂得不多不深入,切词什么的还是会的。主要就是不知道切完词之后,词序列如何和 学科对应的关键词进行匹配,每个关键词的参数如何训练

我知道关于文本分类、短文本分类都有很多现成的研究,网上也有很多文章,主要是现在时间比较紧急,没有时间一点点地阅读学习,所以希望得到快速的指导,谢谢!

7个回答

chuxuezhe7954
chuxuezhe7954 你好,这篇博客只介绍了关于特征提取的部分,这个数据预处理我还是会的,我想要指导详细的分类方法以及如何进行优化
接近 2 年之前 回复

支持向量机SVM或朴素贝叶斯分类

可以用libsvm试试 smo算法可以优化

分类算法有很多种, 贝叶斯 svm 神经网络等等。 这是分类的步骤。其中 svm 效果较好,神经网络 效果非常好。
我有一个 实现好的 新闻分类,用的是 textcnn 神经网络 来实现的 http://www.easilyview.com/api/1/details.html 你可以试一下

文本分类一般都用朴素贝叶斯,你试试这个怎么样

推荐你本书《机器学习实战》Perter Harrington写的那本。我最近也在看,上面会教你怎么准备数据,怎么分析数据、训练算法等。
你这个问题,可以参考这本书的第四章。

pdf下载地址:http://download.csdn.net/download/u012491566/6474803

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!