chuxuezhe7954
chuxuezhe7954
采纳率33.3%
2017-11-15 13:51 阅读 2.7k

机器学习菜鸟求问短文本分类问题

10

我有一个短文本集,基本上每段都是不超过100字的文本,是关于某个学科的描述。
然后我现在也有相关学科的列表,并且知道每个学科的核心关键词。
现在的任务是需要自动地对这些短文本进行分类,打上相应学科的标签,一般一段文本对应一个学科。

求教大神应该怎么做,越详细越好,包括是否需要人工做标注,用什么算法,怎么训练参数。本人拥有一定的Python编程基础,在数据挖掘和机器学习方面都是刚刚入门的菜鸟知道一定的概念但是懂得不多不深入,切词什么的还是会的。主要就是不知道切完词之后,词序列如何和 学科对应的关键词进行匹配,每个关键词的参数如何训练

我知道关于文本分类、短文本分类都有很多现成的研究,网上也有很多文章,主要是现在时间比较紧急,没有时间一点点地阅读学习,所以希望得到快速的指导,谢谢!

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

7条回答 默认 最新

  • abc1987303 gejingpei 2017-11-16 07:11

    推荐你本书《机器学习实战》Perter Harrington写的那本。我最近也在看,上面会教你怎么准备数据,怎么分析数据、训练算法等。
    你这个问题,可以参考这本书的第四章。

    pdf下载地址:http://download.csdn.net/download/u012491566/6474803

    点赞 1 评论 复制链接分享
  • caozhy 从今以后生命中的每一秒都属于我爱的人 2017-11-15 15:48
  • u011514451 hpu刘 2017-11-16 01:11

    支持向量机SVM或朴素贝叶斯分类

    点赞 评论 复制链接分享
  • illbehere fuck_prometheus 2017-11-16 02:35
    点赞 评论 复制链接分享
  • qq_34476774 菜的掉渣 2017-11-16 03:12

    可以用libsvm试试 smo算法可以优化

    点赞 评论 复制链接分享
  • Drizzly_ Drizzly_ 2017-11-16 06:22

    分类算法有很多种, 贝叶斯 svm 神经网络等等。 这是分类的步骤。其中 svm 效果较好,神经网络 效果非常好。
    我有一个 实现好的 新闻分类,用的是 textcnn 神经网络 来实现的 http://www.easilyview.com/api/1/details.html 你可以试一下

    点赞 评论 复制链接分享
  • m0_37804518 积跬步___至千里 2017-11-16 07:05

    文本分类一般都用朴素贝叶斯,你试试这个怎么样

    点赞 评论 复制链接分享

相关推荐