机器学习菜鸟求问短文本分类问题 10C

我有一个短文本集,基本上每段都是不超过100字的文本,是关于某个学科的描述。
然后我现在也有相关学科的列表,并且知道每个学科的核心关键词。
现在的任务是需要自动地对这些短文本进行分类,打上相应学科的标签,一般一段文本对应一个学科。

求教大神应该怎么做,越详细越好,包括是否需要人工做标注,用什么算法,怎么训练参数。本人拥有一定的Python编程基础,在数据挖掘和机器学习方面都是刚刚入门的菜鸟知道一定的概念但是懂得不多不深入,切词什么的还是会的。主要就是不知道切完词之后,词序列如何和 学科对应的关键词进行匹配,每个关键词的参数如何训练

我知道关于文本分类、短文本分类都有很多现成的研究,网上也有很多文章,主要是现在时间比较紧急,没有时间一点点地阅读学习,所以希望得到快速的指导,谢谢!

7个回答

chuxuezhe7954
chuxuezhe7954 你好,这篇博客只介绍了关于特征提取的部分,这个数据预处理我还是会的,我想要指导详细的分类方法以及如何进行优化
接近 2 年之前 回复

支持向量机SVM或朴素贝叶斯分类

可以用libsvm试试 smo算法可以优化

分类算法有很多种, 贝叶斯 svm 神经网络等等。 这是分类的步骤。其中 svm 效果较好,神经网络 效果非常好。
我有一个 实现好的 新闻分类,用的是 textcnn 神经网络 来实现的 http://www.easilyview.com/api/1/details.html 你可以试一下

文本分类一般都用朴素贝叶斯,你试试这个怎么样

推荐你本书《机器学习实战》Perter Harrington写的那本。我最近也在看,上面会教你怎么准备数据,怎么分析数据、训练算法等。
你这个问题,可以参考这本书的第四章。

pdf下载地址:http://download.csdn.net/download/u012491566/6474803

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
短文本相似度计算
短文本相似度计算 引用CSDN**经典的一句话:调试的错误就是编程给你最好的东西,因为在每个错误上面都标志着前进的一步。 文本相似度计算步骤如下: 分词; def tokenization(self, line): result = [] words = jieba.lcut(line) for word in words: ...
短文本分类器
面向语义的文本分类是指在给定的分类体系下,根据文本的内容自动识别文本类别的过程。是一种基于朴素贝叶斯算法的分类技术应用与中文短文本分类。
机器学习----分类问题
1.简介 分类问题有许多应用,比如:判断一封邮件是否为垃圾邮件,肿瘤是否为良性?分类问题包括:两类分类和多类分类,其中多类分类用到的是两类分类的思想。在我们看来,类别这个概念是可数的,所以分类问题属于离散问题,与上一讲的回归问题不同,它属于连续问题。但与回归问题类似的是,用机器学校处理分类问题时也是找一条回归曲线,通过设置阈值把数据分为离散的类,所以这一节我们重点关注如何找这条曲线。 2.
菜鸟求问~~菜鸟求问~~~~~~~~++++菜鸟求问~~菜鸟求问~~~~~~~~++++菜鸟求问~~菜鸟求问~~~~~~~~++++
在做jackrabbit与oracle时候,运行出异常,网上也没有相关的解决资料,求大大们帮忙看看..讨论者有分!!!!rnrnrespository.xmlrn[code=XML]rnrnrn rn rn rnrn rn rn rnrn rn rn rnrn rn rn rn rn rnrn rn rn rn rn rn rn rnrn rn rn rn rnrn rn rn rn rnrn rn rn rn rn rn rn rn rnrn rn rn rnrnrnrnrn[/code]rnrn表已经成功映射进去oracle了,但是就是出现异常、。。。。rnrnrnrnjavax.jcr.RepositoryException: failed to write node state: deadbeef-face-babe-cafe-babecafebabe: failed to write node state: deadbeef-face-babe-cafe-babecafebabern at org.apache.jackrabbit.core.version.VersionManagerImpl.(VersionManagerImpl.java:173)rn at org.apache.jackrabbit.core.RepositoryImpl.createVersionManager(RepositoryImpl.java:463)rn at org.apache.jackrabbit.core.RepositoryImpl.(RepositoryImpl.java:313)rn at org.apache.jackrabbit.core.RepositoryImpl.create(RepositoryImpl.java:621)rn at org.apache.jackrabbit.core.TransientRepository$2.getRepository(TransientRepository.java:235)rn at org.apache.jackrabbit.core.TransientRepository.startRepository(TransientRepository.java:255)rn at org.apache.jackrabbit.core.TransientRepository.login(TransientRepository.java:323)rn at org.apache.jackrabbit.core.TransientRepository.login(TransientRepository.java:353)rn at com.jr.dao.SimpleSession.getSession(SimpleSession.java:25)rn at Test.main(Test.java:26)rnCaused by: org.apache.jackrabbit.core.state.ItemStateException: failed to write node state: deadbeef-face-babe-cafe-babecafebabern at org.apache.jackrabbit.core.persistence.db.OraclePersistenceManager.store(OraclePersistenceManager.java:194)rn at org.apache.jackrabbit.core.persistence.AbstractPersistenceManager.store(AbstractPersistenceManager.java:73)rn at org.apache.jackrabbit.core.persistence.db.DatabasePersistenceManager.store(DatabasePersistenceManager.java:283)rn at org.apache.jackrabbit.core.version.VersionManagerImpl.(VersionManagerImpl.java:158)rn ... 9 morernCaused by: java.io.IOException: ORA-22993: 指定的输入总数大于实际的来源总数rnrn at oracle.jdbc.dbaccess.DBError.SQLToIOException(DBError.java:716)rn at oracle.jdbc.driver.OracleBlobOutputStream.flushBuffer(OracleBlobOutputStream.java:279)rn at oracle.jdbc.driver.OracleBlobOutputStream.close(OracleBlobOutputStream.java:238)rn at org.apache.jackrabbit.core.persistence.db.OraclePersistenceManager.createTemporaryBlob(OraclePersistenceManager.java:387)rn at org.apache.jackrabbit.core.persistence.db.OraclePersistenceManager.store(OraclePersistenceManager.java:186)rn ... 12 morernorg.apache.jackrabbit.core.state.ItemStateException: failed to write node state: deadbeef-face-babe-cafe-babecafebabern at org.apache.jackrabbit.core.persistence.db.OraclePersistenceManager.store(OraclePersistenceManager.java:194)rn at org.apache.jackrabbit.core.persistence.AbstractPersistenceManager.store(AbstractPersistenceManager.java:73)rn at org.apache.jackrabbit.core.persistence.db.DatabasePersistenceManager.store(DatabasePersistenceManager.java:283)rn at org.apache.jackrabbit.core.version.VersionManagerImpl.(VersionManagerImpl.java:158)rn at org.apache.jackrabbit.core.RepositoryImpl.createVersionManager(RepositoryImpl.java:463)rn at org.apache.jackrabbit.core.RepositoryImpl.(RepositoryImpl.java:313)rn at org.apache.jackrabbit.core.RepositoryImpl.create(RepositoryImpl.java:621)rn at org.apache.jackrabbit.core.TransientRepository$2.getRepository(TransientRepository.java:235)rn at org.apache.jackrabbit.core.TransientRepository.startRepository(TransientRepository.java:255)rn at org.apache.jackrabbit.core.TransientRepository.login(TransientRepository.java:323)rn at org.apache.jackrabbit.core.TransientRepository.login(TransientRepository.java:353)rn at com.jr.dao.SimpleSession.getSession(SimpleSession.java:25)rn at Test.main(Test.java:26)rnCaused by: java.io.IOException: ORA-22993: 指定的输入总数大于实际的来源总数rn
机器学习中的非均衡分类问题
非均衡分类问题是指在分类器训练时,正例数目和反例数目不相等(相差很大),或者错分正反例导致的代价不同(可从代价矩阵观测)时存在的问题。
机器学习-分类问题评估方法
本文目的 机器学习模型中,最常见的一种问题是分类问题。对于分类问题实现之后,如果对算法的性能和正确性做一番评估,这里我们有必要总结下。 常用的衡量指标 对于分类问题的结果评估,主要评估手段见下面表格 指标 描述 Scikit-learn函数 Precision 精准度 from sklearn.metrics import precision_sco...
[机器学习]关于分类问题的梯度下降
在分类问题中 假设有所变化,1+e的-z次方.这个z就相当于k*x+b*1所以对于线性回归的问题,梯度下降得做出改变(改变并不大)X数据值1,2,3,4,5,6,7,8,9,10,100Y数据值0,0,0,0,1,1,1,1,1,1代码如下package ojama; import java.io.BufferedReader; import java.io.File; import java....
机器学习(2) ---- 分类问题
机器学习(2) —- 分类问题 个人博客,欢迎参观:http://www.ioqian.top/ 1.决策树(Decision Tree)参考博客: https://www.cnblogs.com/leoo2sk/archive/2010/09/19/decision-tree.html   根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题
逻辑回归--分类问题【机器学习】
逻辑回归定义 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,垃圾邮件的分类等等,以及某广告被用户点击的可能性等。但这里的可能性与数学上的概率不一样。 问题引入 对于肿瘤是恶性还是良性的分类,我们得出一下模型 从上图可以看到,在现在的情况下,当hθ(x)&...
机器学习之分类问题的性能度量
机器学习之分类问题的性能度量 # -*- coding: utf-8 -*- """ Created on Mon Dec 10 10:54:09 2018 @author: muli """ from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score\ ,fbeta_score,...
机器学习常用算法之分类问题
一、简单分类器(线性分类) 原理示意: 输入 输出 3 1 0 2 5 1 1 8 1 6 4 0 5 2 0 3 5 1 4 7 1 4 -1 0 7 5 ?->0 import numpy as np import matplotlib.pyplot a...
机器学习之——多类分类问题
在之前的博客中,我们讨论了逻辑回归模型(Logistic Regression)解决分类问题。但是我们发现,逻辑回归模型解决的是二分问题,即:模型的结果只有两个值,y=0 or y=1 。但是在现实情境下,我们的训练集往往包含多个类(>2),我们就无法用一个二元变量(y=0|y=1)来做判断依据了。举个例子,我们预测天气,天气的情况就分为:晴天、...
机器学习实战(六)—分类问题
import pandas as pd import numpy as np from sklearn.preprocessing import Imputer from sklearn.cross_validation import train_test_split from sklearn.metrics import classification_report from s...
机器学习中的分类问题
华为7天入门机器学习,主要内容:分类的定义,决策树算法,随机森林算法
机器学习 - 非平衡分类问题
问题被研究的原因:在实际问题中,大多数分类问题,样本错分会带来不同的代价。 1. 分类性能度量指标 1.1 混淆矩阵 混淆矩阵四个元素: 真正例(true positive),真反例(true negative),伪正例,伪反例。混淆矩阵主对角线所占比例越高越好。 1.2 精确率(precision) & 召回率(reccall)& 准确率(accuracy) 由
《机器学习》——logistic regression分类问题
最近在学习《机器学习》课程(cs229)的logistic regression,在做其中一道变成作业时遇到了几个问题,现在弄懂了在此总结及回顾一下这些知识点: 逻辑斯谛回归模型的假设函数为: 其中g为sigmoid函数: sigmoid函数可以表示为下图的形式:                                           图1:
[机器学习]机器学习在短文本分类项目中的应用
前言:之前答应一个朋友介绍一下机器学习项目的基本流程,就以一个短文本分类项目为示例,介绍一下在面对机器学习项目时的基本解决思路,因为不是专业的算法工程师,所以有疏漏之处请大家多多见谅。同时由于这是一个内部比赛项目,所以数据无法公开,但是代码会分享在git上,代码写的也很一般,请大家多多理解。题目:为了减少公司售后服务的人力投入,平台部门做了售后智能机器人,主要通过用户的问题得到他的意图所属类别,但...
机器学习中的非平衡分类问题
数据非平衡问题(in-balance) 很多应用中,正负样本是非均衡的,大多数对模型对正负样本比例是敏感的。对训练数据要尽可能的调整至平衡,对分类性能评估也要注意采用特定的方法。 改造分类器的训练数据 —— 过抽样或者欠抽样 具体来说,正负样本失衡的处理方法如下: 负样本 >> 正样本,且量都挺大: 对负样本 欠采样undersampling 负样本 >> 正...
本菜鸟.求java源码demo
本人是个java菜鸟,想研究java深层次的事件控制。rnrn求一个,监听系统各种事件的源码样例rnrn如,我点开 【开始菜单】,在运行框中,输入 notepad 按回车,这一串事件,rnrn我想把 1. (鼠标坐标X,Y值),单击鼠标左键,被点击的对象,rn 2. 开始菜单展开,rn 3. 鼠标移动到运行框上(X,Y值), rn 4. 单击鼠标左键,被点击的对象,rn 5. 运行框focus事件rn 6. notepad Key输入事件rn 7. 弹出的对象rnrn以上一系列, 事件,我想以文本方式输出到 System.out.println();中,
本菜鸟 求一个效果
下了一效果 感觉很棒 就是不懂怎么作rnrn就是作一个导航条(在网页的左边)rnrn导航条效果如下:rnrn第一部分rn 安装Active Serverrn Page的准备工作 rnrn第二部分rn 标记及脚本语言 rnrn第三部分rn 操作数据: SQL rnrn第四部分rn 创建Active Serverrn Pages rnrnrn当我点击 第一部分时 导航条效果变成下rn rn 将 第一部 分中的内容展开rnrn第一部分rn 安装Active Serverrn Page的准备工作 rn .第一章 安装和使用rn WINDOWS NT Serverrn ............rn .第二章 安装和使用rn IISrn ............rn .第三章 安装和使用rn SQL Serverrn ............rn .第四章 Exchagern Active Server, rn Index Server和rn NetShow rnrn第二部分rn 标记及脚本语言 rnrn第三部分rn 操作数据: SQL rnrn第四部分rn 创建Active Serverrn Pages rnrnrnrn当再次点击 第一部分 第一部分双会收回去 rnrn效果如下rnrn第一部分rn 安装Active Serverrn Page的准备工作 rnrn第二部分rn 标记及脚本语言 rnrn第三部分rn 操作数据: SQL rnrn第四部分rn 创建Active Serverrnrnrnrn哪位大虾能教下我吗 这个好像用 dreamewear 实现的?rnrn要怎么作到?
机器学习中的分类问题和回归问题(转)
https://blog.csdn.net/wspba/article/details/61927105
【机器学习】神经网络(一)——多类分类问题
神经网络模型介绍神经网络模型是一个非常强大的模型,起源于尝试让机器模仿大脑的算法,在80年代和90年代早期非常流行。同时它又是一个十分复杂的模型,导致其计算量非常巨大,所以在90年代后期逐渐衰落。近年来得益于计算
机器学习系列(七)——分类问题(classification)
这一篇博客将介绍机器学习中另一个重要的任务——分类(classification),即找一个函数判断输入数据所属的类别,可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别)。与回归问题(regression)相比,分类问题的输出不再是连续值,而是离散值,用来指定其属于哪个类别。分类问题在现实中应用非常广泛,比如垃圾邮件识别,手写数字识别,人脸识别,语音识别...
机器学习之模型评价与选择(分类问题)
一、伪阳性和伪阴性1. 伪阳性----I型错误,伪阴性---II型错误。2. II型错误要比I型错误严重的多二、混淆矩阵In [ ]:### y 预测 0 1 In [ ]:### y实际 0 35 5 In [ ]:### 1 10 50 5位I型错误(伪阳),10为II型错误(伪阴)准确率: (35+50)/100 = 8...
第一个机器学习项目(鸢尾花分类问题)
鸢尾花分类 1、下载和安装在Python中机器学习的各个方面的类库 2、 导入数据,通过描述性分析、可视化等数据进行分析 3、 创建六个模型,并从中选择准确度最高的模型 鸢尾花数据集特点: 1、所有的特征数据都是数字 2、这是一个分类问题,可以方便地通过有监督学习算法来解决问题 3、所有的特征采用相同的单位,不需要进行尺度的转换 按照下面的步骤实现这个项目: (1) 导入数据 ...
短文本分类器与电商品类数据挖掘
短文本分类器与电商品类数据挖掘短
机器学习做二元分类问题(二)
接着上一节我们举得例子,我们说机器学习的流程是什么呢?首先我们要有一个学习的演算法,我们叫做A,这个演算法会看资料,然后会看我们的假设函数集合,从集合中选择一个假设函数做为我们的银行学到技能。这其实就是一个使用机器学习做是非题的问题。  那么假设函数集合是什么样子呢?     我们把每一个使用者当做一个向量X(年龄,工作年限,年薪),每一维都当做一个特征,我们把然后我们根据这个向量计算出来一个
使用pyspark进行机器学习(分类问题)
LogisticRegressionclass pyspark.ml.classification.LogisticRegression(self, featuresCol="features", labelCol="label", predictionCol="prediction", maxIter=100, regParam=0.0, elasticNetParam=0.0, tol=1e-6
英语短文阅读菁华 高级本
张宜 马鸿 主编 大连理工大学出版社 本套丛书精心筛选编排了内容丰富、各具特色的文章。其高级本语言地道,内容亦庄亦谐,合具有英语中级水平以上的读者。每篇文章均由词汇菜单、正文、旁注和相关知识等部分组成。既方便读者更好地阅读更解,也能在阅读中轻松掌握知识。 欢迎来到免费考研网www.freekaoyan.com
菜鸟求问
编写一个方法来获取网站URL对应key的值(如:当前页地址为http://127.0.0.1/?id=111&name=a,输入"id"即获得"111",输入"name"获得"a")rn怎么用Java写rn
菜鸟求问。
rnrn红色的代码是什么意思? 那个0是啥。
菜鸟求问基础知识
vb.net中新建的时候可以选择类/模块/代码文件,请问这三个文件怎么用的?rnrn对于类,必须使用new来创建,那么对于数据库操作类,如果能保证一直用一个连接?有没有设计模式?rn毕竟每次建立连接都是很耗资源的。
C++菜鸟求问
#include rnusing namespace std;rnint main()rnrn int a,b;rn cout<<"请输入a,b:";rn cin>>a>>b;rn cout<<"max="<<((a>=b)?a:b)<rnusing namespace std;rnint main()rnrn int a,b;rn cout<<"请输入a,b:";rn cin>>a>>b;rn cout<<"max="<<(a>=b)?a:b<
菜鸟求问~~~~~~
[code=C#]rnList results = new List();rn IList list = hudongManager.HudongSelectAll();rn foreach (Hudong hudongs in list)rn rn int keid = hudongs.Oppid;rn IList MemberList = memberManager.MemberSelectByList(keid);rn results.Add(MemberList);rn rn ISeeWhoDataList.DataSource = results;rn ISeeWhoDataList.DataBind();rn[/code]rnrn这样写不行吗?应该怎么写?我想把memberManager.MemberSelectByList查询出来放到MemberList,然后全部放到results里面再赋给ISeeWhoDataList.DataSource = results;
菜鸟新手求问
我们老师让编一个在二维坐标下寻最近路径的问题.rn假设五个点从A从开始E结束,点坐标已知。求最短距离点,然后输出。rn我简单编了一个。运行0 error(s), 0 warning(s)。rn可是运行以后,输入点坐标。再回车/rn显示程序遇到问题需要关机。rn小弟才疏学浅。找不出问题。希望各位高手帮帮忙。。。
菜鸟求问。。
性能和负载测试是干嘛用的,能给我解释下嘛,最好给个例子说明下。
菜鸟求问?
我刚接触C不久,今天在TC3.0下,按照《C程序设计》(第2版)实践一个简单的程序:rnmain()rnrnprintf("outlook.\n");rnrn按f9后提示错误:rnError NONAMe00.cpp3.Funcation 'printf'should have a prototypernwarning NONAMe00.cpp4:Funcation should return a valuern为什么会出现这样的错误呢?rn我可是按照书上编的。rn
菜鸟,求问
在java中如何实现将文件压缩成wmv格式
JAVA菜鸟求问
小弟是Java新学者一直用记事本写代码,想用方便一点的workbenche,好懂一点,类似VS,大佬们有推荐吗?
菜鸟求问。。。。。
怎么取得一个字符串类型。。。。比切做个判断看他是否等与Sring类型的。rnrn怎么用代码设置C1TrueDBDrid指定的行中指定列的背景颜色。。。
相关热词 c# 线程结束时执行 c# kb mb 图片 c# 替换第几位字符 c#项目决定成败 c# 与matlab c# xml缩进 c#传感器基础 c#操作wps c# md5使用方法 c# 引用父窗口的组件