python+机器学习情感分析:为什么取高信息量特征之后,算法的准确率反而比没取之前的低? 5C

代码参考http://f.dataguru.cn/thread-713072-1-1.html

使用卡方统计对单个词、双词、单双词配合特征计算信息量后,选取高信息量的特征进行训练,但是训练出来的准确率比没统计之前的还要低,这是为啥??

1个回答

一个是特征选的不够好。还有就是训练数据和测试数据差别很大。模型不够准确

lulunyaya
lulunyaya 数据集分成训练集和测试集前有进行随机化,而且都是从京东爬下来的同一件商品的评论数据,应该不存在差别很大的问题呀
一年多之前 回复
lulunyaya
lulunyaya 特征的话,n-gram特征方法别人用也没见出现我这种问题;
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
CFile::Read之后,GetPosition返回值反而比Read之前的小。
如题,在Read之前调用一次GetPosition(),记录值。Read之后再调用一次GetPosition返回值居然比记录的值小。rnrn代码片段如下:rnrnCLogFile 继承自CFilernrnCLogFile::ReadNextMessage()rnrn DWORD dwPos1 = GetPosition(); // dwPos1==32120rn BYTE val;rn Read(&val, sizeof(val)) ; // 读取一个字节rn DWORD dwPos2 = GetPosition(); // dwPos2==32115rn}rnrn随机出现 dwPos2 比dwPos1 小或者相等的情况。rn随机出现读一个16字节的数据(SYSTEMTIME)后,Position只增加了12.rn非常的诡异!rnrn哪位高手能帮忙解答?多谢!
【python机器学习】中文情感分析
3月31日,3月最后的一天接到了腾讯HR终面,看着招聘官网变成已完成还有点小自豪呢 然后百度搜了搜显示“已完成”是不是稳了,原来不是,好多最后被通知没被录取。。。。 随缘吧~代码还要继续码,博客还要继续更,论文还要继续写。。。。。 数据源 公众号文章:Python有趣|中文文本情感分析 罗罗攀在里面有发数据,大家以后可以跟着他的公众号进行学习,非常适合我这种小白哈哈哈哈哈哈 这是大众点评上...
机器学习——情感分析
《python machine learning》 chapter 8 Applying Machine Learning to Sentiment Analysis git源码:https://github.com/xuman-Amy/sentimental-analysis 项目说明:根据Internet Movie Database (IMDb)上获取的50000个影评,预测影评是积极的...
机器学习中的信息量与熵
  我们在学习机器学习算法的时候经常听到自信息、互信息、条件熵、交叉熵等概念。下面为我在学习过程中总结的信息量和熵的相关概念。 信息量:度量的是一个具体事件发生所带来的信息 熵:在结果出来之前对可能产生的信息量的期望——考虑该随机变量的所有可能取值,即所有可能发生事件所带来的信息量的期望 目录 目录 信息量的相关概念有:自信息、互信息 自信息:I(X) 互信息:I(X;Y) 熵:...
讨论:为什么64位程序反而比32位慢呢?
操作系统为xp64版本,利用vs.net2005分别生成x86版本和x64版本,但是x64程序竟然比x86的程序速度慢,哪位高人给在下指教一二!
python 机器学习 sklearn 文本 特征
上一篇文章中提到了,文本分类中有三个步骤: 预处理(包括分词,去除停用词等) 特征提取 特征的表示 机器学习的模型选择 第一个函数单词的频率作为特征: class sklearn.feature_extraction.text.CountVectorizer(input=’content’, encoding=’utf-8’, decode_error=’strict’, strip_...
机器学习Python数据特征选定
from pandas import read_csv from numpy import set_printoptions from sklearn.feature_selection import SelectKBest from sklearn.feature_selection import chi2 from sklearn.feature_selection import RFE fr
高准确率的模板
我自己一直有的模板,准确率快到了70%,很不错的
高准确率车牌识别代码
本车牌识别代码基于Matlab开发,识别准确率高,能够准确识别出不同远近,不同模糊程度的车牌。
高准确率盈利系统
系统,作者本人只使用EURUSD 货币对,其系统可使用所有货币对,作者本人只用于EURUSD4小时图。其准确 率也在70%以上。 使用方法:1 两条均线向下形成死叉, 2 MACD从上向下, 3 随机指标双线从水平65以上向下形成死叉 4 三线KDJ在水平 80附近向下形成死叉, 只要这4点都同时形成,向下死叉是空的信号, 若从下向上4个指标都形成金叉。则是做多信号! 此系统作者本人使用感觉不错! 若使用本系统造成损失与作者无关,所以 使用本系统的朋友请多验证,感觉可以再实盘,本系统作者不承担任何后果! 汇市有风险,投资需谨慎!! 2012年2月17日
机器学习 准确率函数实现
首先,你需要获得两个数组。 一个是预测函数预测的数组pre,一个是标签数组y_test。 例如mnist数据集,测试集的预测数组pre大小为(10000,10),标签数组大小相同。 def score(x,y): num=0 for i in range(len(x)): for j in range(len(x[0])): if x...
python机器学习----利用sklearn进行情感分析
import jieba from collections import defaultdict import os from sklearn.feature_extraction.text import TfidfTransformer from sklearn.feature_extraction.text import CountVectorizer def readfile(filename
opencv在C++中运行反而比Python慢多了,不得其解??
测试了简单的三个opencv函数:rnPython代码:rn gray = cv2.cvtColor(image,cv2.COLOR_RGB2GRAY)rn blur_gray = cv2.GaussianBlur(gray,(kernel_size, kernel_size), 0)rn edges_img = cv2.Canny(np.uint8(blur_gray), low_threshold, high_threshold)rnC++代码:rn cvtColor(frame,gray,CV_RGB2BGRA);rn GaussianBlur(gray,blur_gray,Size(kernel_size,kernel_size),0);rn Canny(blur_gray,canny,low_threshold,high_threshold);rn采用clock函数测试运行时间:rnPython(毫秒):rn gray 1.33647133081rn Gaussian 2.16619327293rn canny 14.5805911135rnC++(毫秒):rn gray 2.0000rn Gaussian 10.0000rn canny 69.000000rn rn rn rn我用的opencv版本都是2.4.9 为什么会这样呢??不得其解?求教!
为什么再次JPG压缩反而比原图大了
有一个需求就是jpg文件上限为300k。rn拿到一个400k的jpg原图2448*2048,晚上的背景较黑的图片。rn1、用cximage来压缩,不改变分辨率情况下,设置质量到75,保存结果别原图大很多,有559k。采用的4:1:1.rn2、使用acdsee,来压缩,采用优化霍夫曼编码,水平2:1颜色采样,质量75,保存后389k,缩小了一点。rnrn问题rn1、为什么用cximage,质量是75不高,反而压缩后体积增大,那么如何设置压缩参数,不调整分辨率的情况下,能获取较小的体积。rn减小分辨率,确实能使体积减少不小。不改变分辨率是想看看cximage还有什么参数或者什么函数能获得较小体积。rn2、是否有更好的压缩库,能获得较好的压缩率,能替代cximage。
Python 情感分析
今天修改了情感分析的程序发现之前有一些不足。这个最简单的实现一个string情感分析的小函数,加载了积极词典,消极词典,程度词典,以及一些反转词等的词典。这里我没有做符号的分析和判断,因为的东西暂时用不到,需要的童鞋可以自己添加。。。 由于这里不能放文件所以...我放到网盘啦,,哇哇哇 链接: http://pan.baidu.com/s/1mhDqfWG  密码: vm38 import j
python 情感分析
转:https://blog.csdn.net/u011001084/article/details/78980299 使用库:用Python 进行机器学习及情感分析,需要用到两个主要的程序包:nltk 和 scikit-learn nltk 主要负责处理特征提取(双词或多词搭配需要使用nltk 来做)和特征选择(需要nltk 提供的统计方法)。 scikit-learn 主要负责分类算...
Python情感分析
1. 英文文本情感分析 借助TextBlob包:GitHub链接 Features Noun phrase extraction Part-of-speech tagging Sentiment analysis Classification (Naive Bayes, Decision Tree) Language translation and detection powered by...
取小数点之前和小数点之后的值
在VB里,rn123.45rn要分别取出小点之前的123,和小数之后的45,要怎么做?
机器学习基于语义特征的情感分析
基于语义特征的情感分析先人已有研究,可以通过情感词典匹配来做,但是应用机器学习在这方面会使精确度更高些。 以本人参与的一个项目为主,总结下相关技术点。
用机器学习实现情感分析
更多文章欢迎来我的小博客教程链接:https://www.bilibili.com/video/av19178430/?spm_id_from=333.23.home_video_list.1知识情感分析两种方法:基于词典的方法:先对句子进行分词,然后统计个个词汇的个数,最后在情感字典中查找这些单词对应的情感值,然后可以计算出总体的情感。机器学习的方法:输入大量句子以及这些句子的情感标签,就可以训...
python算法有哪些特征
算法是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。算法是Python开发中重要知识技能,不可避免的要使用到该技能,那么,Python算法有什么特点呢?一个Python算法应该具有以下七个重要的特征:1. 有...
Python机器学习基础教程(高清版)
基于python的机器学习算法,内涵kNN,朴素贝叶斯,tf-idf等常用算法,很适合入门级别人学习。
堆栈段为什么要由高到低存储?
堆栈段为什么要由高到低存储?
机器学习之特征组合、特征交叉
机器学习之特征组合、特征交叉 为什么需要特征组合、特征交叉? 特征交叉是数据特征的一种处理方式,通过特征组合的方式增加特征的维度,以求得更好的训练效果。 在实际场景中,我们常常遇到这要的情况,线性分类起无法在如下样本中(无法画一条直线将下列黄点和蓝点分开),所以特征组合是一种让线性模型学习到非线性特征的方式: 例如在广告模型中用到了大量的特征组合,因为LR是广告推广中最常用的模型,但...
python KNN算法 机器学习
这个是基于KNN的python代码,机器学习方向
机器学习python kNN算法
from numpy import * import operator def createDataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group,labels def classify0(inX,dataSet,labels
机器学习python评估算法
from pandas import read_csv from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.model_selection import KFold from sklearn.model_selec
python 机器学习之kNN算法
1、KNN分类算法 KNN分类算法(K-Nearest-Neighbors Classification),又叫K近邻算法,是一个概念极其简单,而分类效果又很优秀的分类算法。 他的核心思想就是,要确定测试样本属于哪一类,就寻找所有训练样本中与该测试样本“距离”最近的前K个样本,然后看这K个样本大部分属于哪一类,那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K个样本来投票决定
Python 机器学习之KNN算法
KNN算法概述 KNN(k-nearest neighbor)算法属于机器学习中的有监督分类算法,主要用于分类,是最简单的机器学习算法之一顾名思义,其算法主体思想就是根据距离相近的邻居类别,来判定自己的所属类别。 KNN算法思路 1、计算测试对象与训练集中所有对象的距离,一般采用欧式距离。 2、找出与计算对象距离最近的K个对象,作为测试对象的邻居; 3、找出这K个对象中出现频率最高的类别,该类别即...
loss 在2左右波动,准确率低
用的全连接神经网络,识别图片。训练集上loss一直在2.0左右波动。准确率0-0.5跳动。 训练集上准确率10%左右。训练集有图片320张,测试集70张。是我的模型出问题了还是数据集太小? 实在是不知道哪出错了,一般什么样的错误会出现这种情况??? ...
【机器学习】GBDT+LR算法进行特征扩增
参考文献: https://blog.csdn.net/lilyth_lilyth/article/details/48032119 https://blog.csdn.net/asdfghjkl1993/article/details/78606268 0.简介 \qquadCTR估计也就是广告点击率预估,计算广告训练与平滑思想说明了是用LR算法对于预测的有效性。LR(Logistic ...
codeup25560 阶乘(高×低)
codeup25560 阶乘 时空限制 1000ms/128M 题目描述 用高精度方法,求N!的精确值(N以一般整数输入,N<=1000)。 输入 一个正整数n,n<=1000。 输出 n的阶乘。 样例输入 10 样例输出 3628800 代码 法一:数组模拟 #include<iostream> #inc...
特征选择删除低方差的特征
<p>rn <span style="color:#666666;font-size:14px;background-color:#FFFFFF;">在人工智能大行其道的时代,许多开发者对Python这门编程语言都比较熟悉。但是如何用它实现一个企业级别的项目,可能许多同学还存在一些困难。本职业规划路线是专门针对想要从事Python&nbsp;web开发的同学而准备的,并且是严格按照企业需求的标准定制的学习路线。路线中包含Python基础和进阶、前端、MySQL数据库、Flask和Django框架以及多个企业真实项目。在学习完本路径中所有的课程后,从前端页面的实现,到后台代码的编写,再到数据库的管理,一人可以搞定一个公司网站的所有事情,真正实现全栈开发,让你升职加薪不是梦!</span> rn</p>rn<p>rn <span style="color:#666666;font-size:14px;background-color:#FFFFFF;"><img src="https://img-bss.csdn.net/201907291530076827.jpg" alt="" /><img src="https://img-bss.csdn.net/201907291530374628.png" alt="" /><br />rn</span> rn</p>rn<p style="text-align:center;">rn <span style="color:#666666;font-size:14px;background-color:#FFFFFF;"><br />rn</span> rn</p>
高配置,低性能!!!!!!!!!!!!!
我的配置是p42.6内存512,不过老是打开一个程序需要很多内存,多了就不行rn比以前的216内存还不行,不知道是怎么回事,是不是因为克隆系统的原因吧?
准确率和召回率评价算法
查自知乎 准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全 https://www.zhihu.com/question/19645541 http://charleshm.github.io/20...
如何提高机器学习模型准确率?
在公司日常的开发机器学习模型工作流程中,我经常发现大家在拿到数据后就迫不及待要开始调用接口,用TensorFlow或pyTorch写代码,洋洋洒洒写了几百行代码执行后才发现正确率还没达到预期一半的目标。 这种事情真的非常常见,研发工程师就经常会有这种问题,觉得自己模型实现只要写好代码逻辑就行,管什么数据逻辑,怼上去就完事。 往往有时候居然还怼对了,这无疑给他们自信,有时我还真说不过他们,反正下次...
机器学习:性能度量_分类_准确率
一、介绍 准确率是指在分类问题中,预测准确占总样本的比例。 公式:accuracy(y,y^)=1nsamples∑nsamples−1i=11(yi^=yi)accuracy(y,y^)=1nsamples∑i=1nsamples−11(yi^=yi)accuracy(y,\hat{y}) = \frac{1}{n_{samples}}\sum_{i=1}^{n_{samples}-...
机器学习 -召回率和准确率的概念入门
概念 TP: TRUE Positive,正确,识别出正类 TN: TRUE Negative,正确,识别出负类 FP: False Positive,错误,负类识别为正类 FN:False Negative,错误,正类识别为负类 图片 样例 60个正样本,40个负样本。 系统查出50个样本,其中只有40个为正样本。 求召回率和准确率。 回答: TP = 40 (确实有40个正确的被找出来)...
Python/scikit-learn机器学习库(特征选取)
去除方差小的特征设置一个方差阈值,没有达到这个方差阈值的特征都会被丢弃。 VarianceThreshold,算法输入只要求特征(X),不需要输入结果(Y)。 from sklearn.feature_selection import VarianceThreshold X=[[feature1,feature2,…],…] sel=VarianceThreshold(th
Python机器学习中将重要特征可视化的方法
最近读到了一本书,《Python机器学习经典实例》,里面有很多的机器学习实例,入门干货满满啊~其中,有段代码,能够将重要特征可视化,并且降序排列,如下所示:def plot_feature_importances(feature_importances,title,feature_names): # 将重要性值标准化 feature_importances = 100.0*(fea...
相关热词 c# 去空格去转义符 c#用户登录窗体代码 c# 流 c# linux 可视化 c# mvc 返回图片 c# 像素空间 c# 日期 最后一天 c#字典序排序 c# 截屏取色 c#中的哪些属于托管机制

相似问题

8
python为什么会出现IndentationError: unexpected unindent?
2
python解压tgz出现OSError: [Errno 22] Invalid argument:
2
python IOerror:write error
2
Python 程序报错 AttributeError: 'NoneType' object has no attribute 'commit'
2
Python缺失module(ImportError: No module named Crypto.Util.py3compat)
1
python数据分析之后处理的数据入什么数据库比较好 mysql?Oracle?
0
提取HSV颜色特征,计算特征的熵,最后保存特征和熵,用python怎么实现
1
python:为什么显示 AttributerError: 'Restaurant' object has no attribute 'update_flavor' ?
1
python 图像识别处理 中国气象台网降水量图片信息提取
2
Python 3.7 AttributeError: 'str' object has no attribute 'items' 报错怎么解决
0
python 机器学习“local variable 'clf' referenced before assignment”。尝试过全局变量的方法。
2
Python学习过程中的问题:继承__init__的参数数量如何确定?
1
python 3 报错 urllib.error.URLError: <urlopen error unknown url type: "http>
1
python的NameError: name 'xx‘ is not defined该怎么解决?
2
Python: 使用pyinstaller打包exe时报错Cannot find PyQt5 plugin directories
1
如何用python编写爬虫,爬取谷歌学术镜像网站论文的参考文献数据?
1
python错误:ValueError: No JSON object could be decoded
2
python报错:KeyError: 'user_id'
0
求教:python paramiko库:paramiko.ssh_exception.SSHException: not a valid RSA private key file
3
Python 导入了chardet 调用detect的时候为什么报错