随机森林分类应用在预测外汇涨跌上,我做的模型为啥精度这么奇怪,求大神给解释下

刚开始接触金融量化投资这块。导师让做一个随机森林的模型,数据是老师给的大概6000条的外汇交易数据(包含开盘、收盘,最高,最低价),利用这4个特征算出来另外11个特征,并且根据开盘和收盘价给数据打好了一列标签也就是Y。
(交易日期 开盘价 最高价 最低价 收盘价 MACD MACDsignal MACDhist MA10_talib RSI k d j upper middle lower div label)这些是所有的列名,相当于输入特征有15个,输出为y(label),y是判断1或者0或者-1;

随机森林部分代码如下:

from sklearn.ensemble import RandomForestClassifier
X_train,X_test,Y_train,Y_test= train_test_split(x,y,test_size=0.3,random_state=1)
rf = RandomForestClassifier(n_estimators=100, max_depth=20,bootstrap=True,random_state=1)#基分类器
rf.fit(X_train, Y_train)
print('Training set score:{:.3f}'.format(rf.score(X_train,Y_train)))
print('Test set score:{:.3f}'.format(rf.score(X_test,Y_test)))

输出结果如下:Training set score:1.000
Test set score:0.998

这结果搞得我有点怕。。。。。求大神给讲讲

1个回答

我觉得出现这个结果的原因可能有两个:
1.数据质量比较好,这些数据可能都是前人整理清洗过的数据,用来做基础练习用的;
2.第二个问题我觉得是值得你注意的,在数据集划分阶段你只做了一次70%/30%的随机抽样,实验结果的偶然性和误差肯定较大,模型泛化能力可能较差。现在大家在做机器学习model selection的时候是常常会用K-fold交叉验证的方法,具体原理你可以去百度,这样结果更具说服力。
你可以在你的基础上加上这些代码,简单看一下,score平均都很高的话说明就是第一种情况:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(rf, x, y, cv=10) #10折交叉验证
print(scores)

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
sklearn 分类(上证指数涨跌预测)
来源 https://www.icourse163.org/course/BIT-1001872001 上证指数涨跌预测 数据介绍: 网易财经上获得的上证指数的历史数据,爬取了20年的上证指数数据。 实验目的: 根据给出当前时间前150天的历史数据,预测当天上证指数的涨跌。 import pandas as pd import numpy as np from sklearn im...
利用随机森林预测股票大盘涨跌
本文仅从实战角度去观察,利用机器学习算法中,随机森林模型预测股票市场指数涨跌的准确率。 适合入门玩家 首先,我们导入所需要的模块 import numpy as np import pandas as pd import talib as ta #金融数据计算 import datetime,pickle from sklearn.model_selection import Gr...
随机森林、决策树模型构建与预测
该内容共包含四部分代码,包含用python的sklearn包实现对kaggle上面泰坦尼克号的生存预测
社交网络预测分类模型
对时下流行的社交网络,进行链接预测,对数据挖掘中的很多分类算法进行分析
Spark随机森林之多分类模型
Spark随机森林之多分类模型关于随机森林随机森林算法是机器学习、计算机视觉等领域内应用极为广泛的一个算法,它不仅可以用来做分类,也可用来做回归即预测,随机森林机由多个决策树构成,相比于单个决策树算法,它分类、预测效果更好,不容易出现过度拟合的情况。
Kmeans求分类精度
Kmeans求分类精度怎么求啊!matlab代码
7cb180599673e0c7 这么是什么码 求大神解释
97f022e98e009e8e7cb180599673e0c7
使用opencv随机森林预测图像质量分类
1. 2. 参考链接: https://www.jianshu.com/p/d0d7809007a1 http://blog.csdn.net/lulumi2016/article/details/52662069
RandomForest:随机森林预测生物标记biomarker——分类
随机森林简介 R randomForest包 安装与加载 分类Classification 分类结果主坐轴分析 随机选取2/3预测,1/3验证 无监督分类 分层抽样 Reference 猜你喜欢 写在后面 随机森林简介 如果读者接触过决策树(Decision Tree)的话,那么会很容易理解什么是随机森林。随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元...
我的S60_Platform_Camera_Example_v3_0_en在5800上为啥这么卡?
但是在N73上和流畅rnrn要说5800比N73配置要好啊。。
使用AdaBoost预测预测大盘涨跌
继使用SVM预测大盘涨跌, 使用决策树预测大盘涨跌后的第三个预测大盘涨跌的模型。包括调参的过程以及模型稳健性验证。 经过调参之后,预测准确率可以达到平均90%,上下波动范围约10%。 看到预测的准确率还不错,我提取出了特征的权重值,来思考决策树为什么预测准确率还不错。然后做了策略不加预测大盘和加上预测大盘的对比。可以发现,一般的策略(例如纯随机,小于4购买)在加
求解释,求大神解释
用url地址访问一个servlet。然后做好之后,分别用不同的浏览器显示这些页面。rn为什么用搜狗浏览器,密码框的后面会出现输入密码的键盘,而ie或者百度或者其他的浏览器就没有呢?rnrn这个怎么解释 ?!~~~
随机森林做用户扩散模型
背景: 数据: 特征处理: 模型设置: 调参: 效果:
支持向量机做预测的模型
这个模型为用支持向量机来做预测,里面有详细的代码,希望可以帮到有需要的人
用SVM预测股票涨跌
基于机器学习的股票分析二、 对股票数据涨跌进行SVM训练和预测上一次爬取了股票数据并进行标签分类,这次进行SVM分类import pandas as pd from sklearn import svm,preprocessing#获取中国银行历史数据 df_CB=pd.read_csv(r'G:\\Project\\data\\CB.csv',encoding='gbk') #将日期作为inde
哪位大神给解释解释。。。。
select length(sys_guid()) from dual;rn结果明明是32位,可是为啥要用raw(16)来存储呢,rnrn[color=#FF0000]新手,勿喷。。。。。[/color]
HTTP协议奇怪现象,求大神解释
用抓包工具得到下面的请求头:rn[code=c]GET http://v.youku.com/v_playlist/f5326281o1p9.html HTTP/1.1rnHost: v.youku.comrnConnection: keep-alivernUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.79 Safari/535.11 QIHU THEWORLDrnAccept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8rnAccept-Encoding: gzip,deflate,sdchrnAccept-Language: zh-CN,zh;q=0.8rnAccept-Charset: GBK,utf-8;q=0.7,*;q=0.3[/code]rn然后我自己用这个头用c++来执行,结果返回:rn[code=c]HTTP/1.1 302 FoundrnServer: ApachernSet-Cookie: ykss=67ff3e514702392a7e202e0f; path=/; domain=.youku.comrnSet-Cookie: u=__LOGOUT__; expires=Thu, 01-Jan-1970 00:00:01 GMT; path=/; domain=.youku.comrnlocation: /index/y404rnCache-Control: max-age=660rnExpires: Tue, 12 Mar 2013 10:22:51 GMTrnVary: Accept-EncodingrnContent-Type: text/html; charset=UTF-8[/code]rnrn[color=#FF0000]注意第五行,返回的Location地址。[/color]rn正确的应该是Location到这个地址:http://v.youku.com/v_show/id_XMjI0NjA2ODQ0.html?f=5326281rn不知道为什么我的请求被Location到404页面了。
求大神 求解释
int a(char *s)rnrn char *t=s;rn while(*t++);rn t--;rn return(t-s);rnrn个人觉得t--可以不要rn求解释
求大神!求解释
怎么让table中的第一个tr不动!第一个tr是标题,后面的tr都是从数据库取的值。当值多的时候,产生滚动条。滚动顿动条的时候。第一个tr不动。下面的tr滚动
求大神,求解释
List mmtReplies = (List)CacheUtils.getValueFromCache("CommonData", mmtArticle.getId() + "_" + page1 + "_MMTMmtReplies");rn if (mmtReplies == null) rn mmtReplies = this.jpaTemplate.executeFind(new JpaCallback(mmtArticle, page1) rn public List doInJpa(EntityManager em) throws PersistenceException rn return em.createQuery("SELECT i FROM MMT_Reply i WHERE i.mmtArticle.id=? ORDER BY i.date DESC").setParameter(1, this.val$mmtArticle.getId()).setFirstResult((this.val$page1.intValue() - 1) * 10).setMaxResults(10).getResultList();rn rn );rn CacheUtils.putValueToCache("CommonData", mmtArticle.getId() + "_" + page1 + "_MMTMmtReplies", mmtReplies);rn rnrnrn我想问setParameter(1, this.val$mmtArticle.getId()).setFirstResult((this.val$page1.intValue() - 1)中的rnrnthis.val$mmtArticle 和 this.val$page1 是什么,,,
股票涨跌预测方法之四:实际预测
前一阵子在同学的鼓动下,花了一个多月研究了股票行情的预测方法,熟悉了常见的炒股术语及技术指标,现总结如下,纯属兴趣,如果想依照本文的方法来短线操作获利,请绕道。          前面模型都已经搭好了,最后一步就是更新当天的股票行情并预测第二天的涨跌,更新操作当然也可以用前面的tushare来做,但是慢啊,慢得难以忍受,所以折腾我几天后,就在电脑上装了一个招商证券智远理财软件,里边可以将当天所有
数据分析(三)实战——分类模型(随机森林与 AdaBoost )
数据分析(三)实战——分类模型(随机森林与 AdaBoost )基本信息数据预处理观察数据集特点数据集划分特征选择异常值检测离散化标准化模型训练分类器选择评估指标选择训练过程默认参数训练结果参数调整最优训练结果结语 前言:根据个人的学习经历,最无奈的就是前面学习了一大堆的零碎知识点,却压根不知道怎么去使用,更不清楚前面所学的哪个知识点可以在哪里派上用场。所以这第三篇文章笔者打算先拿一个简单的案例...
Spark ml 随机森林分类模型性能评估
宿舍
分类模型的再考以及随机森林的应用
结合上一篇的分类模型的预测表现,我们探讨了“蜂蜜水问题”对分类模型的影响。并且应用了随机森林进行对数据的分类预测。
利用spark的随机森林做票房预测
前言最近一段时间都在处理电影领域的数据, 而电影票房预测是电影领域数据建模中的一个重要模块, 所以我们针对电影数据做了票房预测建模.前期工作一开始的做法是将这个问题看待成回归的问题, 采用GBDT回归树去做. 训练了不同残差的回归树, 然后做集成学习. 考虑的影响因子分别有电影的类型, 豆瓣评分, 导演的 影响力, 演员的影响力, 电影的出品公司. 不过预测的结果并不是那么理想, 准确率为真实值的0
随机森林模型在分类与回归分析中的应用
随机森林 random forest 模型是由Breiman 和Cutler 在2001 年提出的一种基于分类树的算法 它通过 对大量分类树的汇总提高了模型的预测精度 是取代神经网络等传统机器学习方法的新的模型 随机森林的运 算速度很快 在处理大数据时表现优异 随机森林不需要顾虑一般回归分析面临的多元共线性的问题 不用做变 量选择 现有的随机森林软件包给出了所有变量的重要性 另外 随机森林便于计算变量的非线性作用 而且可 以体现变量间的交互作用 interaction 它对离群值也不敏感 本文通过3 个案例 分别介绍了随机森林在昆虫 种类的判别分析 有无数据的分析 取代逻辑斯蒂回归 和回归分析上的应用 案例的数据格式和R 语言代码可 为研究随机森林在分类与回归分析中的应用提供参考 ">随机森林 random forest 模型是由Breiman 和Cutler 在2001 年提出的一种基于分类树的算法 它通过 对大量分类树的汇总提高了模型的预测精度 是取代神经网络等传统机器学习方法的新的模型 随机森林的运 算速度很快 在处理大数 [更多]
论文研究-集成随机森林的分类模型.pdf
与集成学习相比,针对单个分类器不能获得相对较高而稳定的准确率的问题,提出一种分类模型。该模型可集成多个随机森林,并以带阈值的多数投票法作为结合方法;模型实现主要分为建立集成分类模型、实例初步预测和结合分析三个层次。MapReduce编程方式实现的分类模型以P2P流量识别为例,分别与单个随机森林和集成其他算法进行对比,实验表明提出模型能获得更好的P2P流量识别综合分类性能,该模型也为二类型分类提供了一种可行的参考方法。
下载文件报错 求大神给解释!!!
首先 我上传60个文件到本地的文件夹里rnrn上传是可以成功的,rnrn紧接着 我去那个路径去下载 但是下载个别的文件就会报错 搓搓如下:rnrn远程服务器返回错误: (403) 已禁止rnrn测试结果:rn 首先我找了那几个下载错误的文件, 单独上传他们 结果一样 报相同的错误rnrn 接着我去同事那里拷贝出那几个文件 测试下载 结果一样 rnrn 所以现在 请大侠们帮我想想 这个问题要怎么解决?rnrn 下边是错误文件名称rnrn DockPanel.config DockPanel_Tem.config DocStation.dll
用 线性回归 预测股票的涨跌
1、数据介绍网易财经上获得的上证指数的历史数据,爬取了20年的上证指数数据2、实验目的根据给出当前时间前150天的历史数据,预测当天上证指数的涨跌代码:import pandas as pd import numpy as np from sklearn import svm from sklearn import cross_validationdata=pd.read_csv('000777.c
随机森林模型
<p>rn <p>rn 20周年限定一卡通!<span style="color:#337FE5;">可学唐宇迪博士全部课程</span>,仅售799元(原价10374元),<span style="color:#E53333;">还送漫威正版授权机械键盘+CSDN 20周年限量版T恤+智能编程助手!</span>rn </p>rn <p>rn 点此链接购买:rn </p>rn <table>rn <tbody>rn <tr>rn <td>rn <span style="color:#337FE5;"><a href="https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy" target="_blank">https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy</a><br />rn</span>rn </td>rn </tr>rn </tbody>rn </table>rn<span>&nbsp;</span>rn</p>rn<span>购买课程后,可扫码进入学习群</span><span style="font-family:&quot;">,获取唐宇迪老师答疑</span><span></span> rn<p>rn <img src="https://img-bss.csdn.net/201908070622355579.jpg" alt="" /> rn</p>rn决策树算法形象讲解,熵原理,通过决策树构造实例讲解决策树选择节点的方法,案例实战-泰坦尼克船员获救预测。
股票涨跌预测方法之三:建立模型并训练
前一阵子在同学的鼓动下,花了半个多月研究了股票行情的预测方法,熟悉了常见的炒股术语及技术指标,现总结如下,纯属兴趣,如果想依照本文的方法来短线操作获利,请绕道。          研究的第三步就是建立神经网络预测模型了,还是使用keras来搭建,使用简单的3层全连接层做实验,输出就是根据第二天的涨跌幅分为5类:涨(范围[0.01,])、微涨(范围[0.003,0.01])、平(范围[-0.003
我这么写为啥不行?
北京 rnrn
随机森林预测算法的实现
本文拟采用随机森林实现空气质量的预测。 实现环境:python3.5 所需包:pandas 、numpy、matplotlib、csv等。引入包如下: import pandas as pd import numpy as np import matplotlib.pyplot as plt import matplotlib import csv import random from s...
随机森林:客户流失预测
http://blog.csdn.net/zhangyangfeiyu/article/details/79586549上篇主要针对客户价值进行分析,对于客户流失并没有具体的分析。本文主要对客户流失进行分类预测。1 背景与挖掘目标1.1 背景1、客户流失对利润增长造成的负面影响非常大,仅次于公司规模、市场占有率、单位成本等因素的影响;2、流失一个老客户比获得一个新客户对公司的损失更大;3、航空市场...
ML13: 随机森林预测
from __future__ import unicode_literals import csv import numpy as np import sklearn.utils as su import sklearn.ensemble as se import sklearn.metrics as sm import matplotlib.pyplot as mp with open('.....
随机森林的matlab的预测Iris
随机森林可以实现很多的分类问题,我这里面使用的是Iris的数据集,来判断Iris的类别。
用随机森林做泰坦尼克号数据集的分类的python实现
# _*_ coding: utf-8 _*_ import numpy as np import pandas as pd from matplotlib import pyplot as plt from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import GridSearchCV...
用自己的图片集做随机森林、逻辑回归分类
版权声明:本文为博主原创文章,转载请注明作者和出处。https://blog.csdn.net/xq920831/article/details/84390468 参考文章地址:https://blog.csdn.net/qq_42379006/article/details/80929670   决策树与随机森林的基础知识:https://www.cnblogs.com/fionacai/...
任务三:使用svm模型,做信贷预测分类
前述 在任务一和任务二中,分别对模型建立前的数据清理、归一化、特征值选取等做了学习。在本篇博客中,主要是通过svm算法,结合前两篇博客,实现对信贷数据分类预测的模型的简历。 代码实现 直接贴代码吧 import pandas as pd import numpy as np from sklearn.ensemble import RandomForestClassifier from skle...
粒子群优化算法的RBF模型,做预测
对于RBF神经网路模型,利用粒子群优化算法进行对权值优化,达到准确的预测效果!
相关热词 c#入门推荐书 c# 解码海康数据流 c# xml的遍历循环 c# 取 查看源码没有的 c#解决高并发 委托 c#日期转化为字符串 c# 显示问号 c# 字典对象池 c#5.0 安装程序 c# 分页算法