我有一个短文本集,基本上每段都是不超过100字的文本,是关于某个学科的描述。
然后我现在也有相关学科的列表,并且知道每个学科的核心关键词。
现在的任务是需要自动地对这些短文本进行分类,打上相应学科的标签,一般一段文本对应一个学科。
求教大神应该怎么做,越详细越好,包括是否需要人工做标注,用什么算法,怎么训练参数。本人拥有一定的Python编程基础,在数据挖掘和机器学习方面都是刚刚入门的菜鸟知道一定的概念但是懂得不多不深入,切词什么的还是会的。主要就是不知道切完词之后,词序列如何和 学科对应的关键词进行匹配,每个关键词的参数如何训练
我知道关于文本分类、短文本分类都有很多现成的研究,网上也有很多文章,主要是现在时间比较紧急,没有时间一点点地阅读学习,所以希望得到快速的指导,谢谢!