人工智能相关特征的筛选问题 10C

咨询大家一个问题,我的特征集里有很多特征,一些特征是独立的,一些是相关的一组,比如一个时间段的数据,我应该如何进行特征筛选?

举例:

[

[特征1(独立),特征2(独立),特征3(前1天特征X),特征4(前2天特征X),特征5(前1天特征Y),特征6(前2天特征Y)],.....

......

]

其中特征1和2是独立的,这个应该好进行筛选,特征3和4是相关的,特征5和6是相关的,我应该什么特征选取的方法,才能将3和4看做一组,5和6看成一组,进行筛选和保留?

另外,相同的一组特征,比如特征3和特征4,我在组织数据的时候,是否可以分散开进行组织,然后还是按照组形式筛选保留?

0

1个回答

如果你是深度神经网络,可以让有相关特征的构成全连接层,而独立特征的不要连接,但是你这个有时间序列的,可以考虑使用RNN(循环神经网络),然后时序的每个层共享参数和权重。

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
机器学习&人工智能基础入门篇·笔记(一)特征工程及数据的处理
n 写在前面 视频来源于 黑马程序员 六节课入门机器学习。 n 学习完爬虫,下一步准备学习机器学习的相关知识,之前自己也学习过一点,但感觉层次还达不到入门,沉下心来重新开始,给自己加油,希望能跟大家一起进步!!!nnn第一课 特征工程及数据的处理nnnn数据集nnnKaggle:数据量大,准确,数据真实nUCI:收录数据集比较专业,覆盖领域广泛nscikit-learn:自带数据集,数据量比较...
人工智能知识库spark_dnn算法
人工智能、深度学习、算法、机器学习,知识库、特征筛选等
人工智能面试题
1、深度学习框架TensorFlow中都有哪些优化方法? n答:GradientDescentOptimizer nAdagradOptimizer nOptimizer n优化最小代价函数 n2、深度学习框架TensorFlow中常见的激活函数都有哪些? n答:relu,sigmoid,tanh n3、深度学习框架TensorFlow中有哪四种常用交叉熵? n答: tf.nn.weighted_...
数据分析学习体验——特征变量相关系数和主成分分析
进行回归分析和聚类分析时,如何筛选并处理数据集中高度相关的特征变量,如何选择主成分
特征选择算法在微博业务应用中的演进历程
本文首先介绍了不同特征选择算法的各自特点及其在微博业务应用中的演进历程,最后通过对比试验,给出了不同方法对于模型预测性能效果的提升,希望能够对读者有参考价值。
过拟合讨论
过拟合就是模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。过拟合原因:1 使用过于复杂的模型,2 数据噪声过大3 训练数据少降低过拟合方法:1 简化模型假设,或者使用惩罚项限制模型复杂度,或者减少神经网络隐藏层节点数2 进行数据清洗,减少噪声 (删除稀疏的特征)3 收集更多训练数据高斯核的使用增加模...
利用皮尔逊相关系数找出与目标最相关的特征(Python实现)
#coding:utf-8n#检测各特征和辐照度之间的相关性以及各个特征之间的相关性nfrom __future__ import divisionnimport tensorflow as tfnimport mathnimport csvnfrom sklearn import metricsnimport numpy as npnfrom math import sqrtnfrom math...
特征选择之互信息
n n n 互信息(mutual information)是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量nnnnn互信息公式n在对文本进行特征选择的时候,X表示某个词,Y表示类别,xi表示这个词的取值,在这里只有两种情况,出现和不出现,yi表示某一类,可能两类可能多类。xi 和yi同时出现在整个数据集中的概率:nnnnn联合概率nxi在 整个数据集中出现的...
机器学习-自动筛选特征
选择属性(weka的书中把特征翻译成属性,那么这里的属性其实也就是指特征了) n选择属性的目的: n就是通过搜索数据中所有可能的属性组合,以找到预测效果最好的属性子集。 n也就是说假设属性目前有6个,准确率为80%,假设只取5个属性(这就是子集),反而准确率却变为90%选择属性和PCA降维有啥不同? n选择属性和PCA的目的都是一样,都是为了降低特征的数量,减少计算量 n但是PCA是将原始特征进行一
数学建模过程中的特征选择:scikit-learn--Feature selection(特征选择)
sklearn.feature_selection模块的作用是feature selection,而不是feature extraction。nnUnivariate feature selection:单变量的特征选择 n单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要。剔除那些不重要的指标。nnsklearn.feature_selection模块中主要...
用皮尔逊相关系数检查特征间的线性相关关系
1.1 皮尔逊相关系数1.1.1 简介是一种度量两个变量间线性相关程度的方法。协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入皮尔逊相关系数 ρ" style="position: relative;" tabindex="0" id="MathJax-Element-1-Frame" cl
特征冗余
刻画特征之间相似性的几种方法: n1、对称不确定性(SU):取值在(0,1)之间,值越大,X,Y之间相关性越大,当取值为0,表示X,Y之间相互独立,反之,代表之间具有强依赖性,意味着当知道其中一个变量就可以推测出另一个变量。∑i=0ni2=(n2+n)(2n+1)6\sum_{i=0}^n i^2 = \frac{(n^2+n)(2n+1)}{6}可以分为C-相关和F-相关,任何一个特征f和类别C之
特征处理和特征选择
特征处理之统计特征nn历届的Kaggle/天池比赛,天猫/京东排序和推荐业务线里模型用到的特征 n 1.加减平均:这个用户所买商品高于所有用户购买商品平均价格的多少(权衡一个人的消费能力),用户连续登录天数超过平均多少(表明这个用户对该产品的黏性) n 2.分位线:商品属于售出商品价格的多少分位线处。(比如20%,说明20%的人买东西都不会低于这个价格)。 n 3.次序型:排在第几位。 n 4.比...
分类算法----逻辑回归特征选择
备注:以下均参考Python数据分析和数据挖掘实战nn在利用Scikit-Learn对数据进行逻辑回归之前。首先进行特征筛选。特征筛选的方法很多,主要包含在Scikit-Learn的feature-selection库中,比较简单的有通过F检验(f_regression)来给出各个特征的F值个P值,从而可以筛选变量(选在F值达回执P值小的特征)。一下为利用稳定性选择方法中的随机逻辑回归进行特征筛选...
特征选择-卡方检验用于特征选择
卡方分布若n个相互独立的随机变量X1X_1、X2X_2、…\ldots、XnX_n,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个随机变量的平方和Q=∑ni=1X2iQ=\sum_{i=1}^nX_i^2构成一个新的随机变量,其分布规律称为卡方分布或χ2\chi^2分布(chi-square distribution),其中参数n为自由度,记为Q∼χ2Q\sim\chi^2。n 图片
使用原始的Titanic数据,通过特征筛选,一步步提升性能(特征如何提取)
# coding=gbkrn#使用Titanic数据集,通过特征筛选的方法一步步提升决策树的预测性能rnimport pandas as pdrnfrom sklearn.cross_validation import train_test_split , cross_val_scorernfrom sklearn.feature_extraction import DictVectorizer 
特征筛选(变量聚类proc varclus)
在模型筛选变量的时候,我们可以用varclus进行变量聚类分析来进行降维。提到降维我们会首先想到主成分分析,主成分实际上是正交主成分。而varclus是斜交主成分,其是在正交主成分的基础上再做了一些旋转。这样得到的主成分不仅能保留主成分的优点(主成分变量相关程度比较低)。另外一方面又能有很到的解释性,并且能达到对变量聚类的效果。rn综合说来就是,主成分分析是生成了新的主成分变量,用原始变量的线性关系...
特征提升之特征筛选
良好的数据特征组合不需太多,就可以使得模型的性能表现突出。冗余的特征虽然不会影响到模型的性能,但使得CPU的计算做了无用功。比如,PCA主要用于去除多余的线性相关的特征组合,因为这些冗余的特征组合不会对模型训练有更多贡献。不良的特征自然会降低模型的精度。rn特征筛选与PCA这类通过主成分对特征进行重建的方法略有区别:对于PCA,经常无法解释重建之后的特征;然而特征筛选不存在对特征值的修改,从而更加
人工智能基础概念
1.背景人工智能涉及的内容非常广泛,从数学到计算机科学,有很多的基础知识需要储备,之前打算阅读一些人工智能方面的书籍,总感觉比较吃力,这里会将一些人工智能方面的基础知识做一个总结梳理。2.基础概念1)人工智能人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能研
人工智能学会从无到有设计药物
n n n nn nn n n 美国北卡莱罗纳大学的科研人员开发出一款人工智能系统,可以从无到有地学会如何设计药物,有望极大加速新药设计过程。该系统被称为结构进化的强化学习,简称为ReLeaSE,它是一...
机器学习 scikit-learn9 - 预测贷款用户是否会逾期 - 特征筛选 IV 和 随机森林
特征挑选1 说明2 代码使用方法3 核心代码说明3.1 IV值挑选特征3.2 随机森林挑选特征3.3 训练模型得到结果3.4 训练模型输出结果4 结果对比5 问题n1 说明n主要是根据 IV值 和 随机森林 这两种方法来挑选特征n代码链接: https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/features/fe...
特征选择案例
特征选择简介
机器学习-特征筛选
冗余的特征虽然不会影响到模型的性能,不过却使得CPU的计算做了无用功。比如,主成分分析主要作用于去除多余的那些线性相关的特征组合,原因在于这些冗余的特征组合并不会对模型训练有更多贡献。rn特征筛选与PCA这类通过选择主成分对特征进行重建方法略有区别:对于PCA而言,我们经常无法解释重建后的特征;但是特征筛选不存在对特征值的修改,而更加侧重于寻找那些对模型的性能提升较大的少量特征。rn#泰坦尼克号沉
如何进行特征选择 实践
在做特征抽取的时候,我们是尽可能地抽取更多的Feature,但过多的 Feature 会造成 冗余(部分特征的相关度太高了,消耗计算性能),噪声(部分特征是对预测结果有负影响),容易过拟合等问题,因此我们需要进行 特征筛选。特征选择可以加快模型的训练速度,甚至还可以提升效果。nn接下来,我们了解下各种特征选择的方式。nnnnnn过滤型(Filter)n评估 单个特征 和 结果值 之间的相关程度,...
特征选择
特征选择1.相关性通过使用相关性,我们很容易看到特征之间的线性关系。这种关系可以用一条直线拟合。下面通过皮尔逊相关系数(Pearson correlation coefficient)来解释特征的相关性:下面每幅图上方的相关系数Cor(X1, X2)是计算出来的皮尔逊r值,从图中可以看出不同程度的相关性。 n np值越高,我们越不能信任这个相关系数 n上图中,前三个具有高相关系数,我们可以选择把X1
基于sklearn的特征筛选
n n n 理论n特征筛选的作用n样本中的有些特征是所谓的“优秀特征”,使用这些特征可以显著的提高泛化能力。而有些特征在样本类别区分上并不明显,在训练中引入这些特征会导致算力的浪费;另外有些特征对样本的分类有反作用,引入这些特征反而会导致泛化能力下降n特征筛选n与PCA(主成分分析)不同,特征筛选不修改特征值,而是寻找对模型性能提升较大的尽量少的特征n代码实现nimp...
人工智能与伦理问题浅谈
第一章 绪论nnnn一,提出问题nn人工智能(Artificial Intelligence,缩写为AI)一词,是在1956年的达特茅斯会议上被首次提出来的。作为一门新兴的交叉学科,人工智能在当今脑科学、认知科学飞速发展的基础下,被称为本世纪三大科技成就之一。目前来说,人工智能主要涉及计算机领域,它试图了解人类智能的实质,进而能够生产出一种媲美人类智能的软件系统、机器人、仿生人或者生化人,最后乃至...
深度学习与人工智能的经典的论文的整理
深度学习与人工智能的经典的论文的整理,挺多篇,挺详细的
特征筛选(复习15)
本文是个人学习笔记,内容主要基于sklearn库的特征筛选器对Titanic数据集进行特征预处理后,再进行分类。特征筛选与PCA这类通过选择主成分对特征进行重建的方法略有区别:对于PCA而言,经常无法解释重建之后的特征;但是特征筛选不存在对特征值的修改,其更侧重于寻找那些对模型的性能提升较大的少量特征。import pandas as pdntitanic=pd.read_csv('http://b
使用随机逻辑回归进行特征筛选,并利用筛选后的特征建立逻辑回归模型
from sklearn.linear_model import LogisticRegression as LRnfrom sklearn.linear_model import RandomizedLogisticRegression as RLRnnrlr=RLR() #建立随机逻辑回归模型,筛选变量nrlr.fit(x,y) #训练模型nrlr.get_support() #获取特征...
交叉验证(Cross-Validation)和特征选择(Feature Selection)
交叉验证(Cross-Validation):以下简称交叉验证(Cross Validation)为CV.CV是用来验证分类器的性能一种统计分析方法,基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set),首先用训练集对分类器进行训练,在利用验证集来测试训练得到的模型(model),以此来做为评价分类
数据特征提取,特征量相关性分析
python数据分析与挖掘实战rn笔记rn降维rn86页  PCA主成分分析rn100页  随机逻辑回归模型  选取特征变量rnrnrn特征相关性分析rn49页
特征工程步骤——以二分类问题为例
一 特征工程nn1、初步分析阶段nn数据的探索分析EDA,是对数据进行初步的统计分析,统计数据的分布、异常、相互关系,目标是让我们了解这些数据能告诉我们什么。可以用来指导我们进行模型的选择,比如说帮助我们初步的决定哪些特征需要被使用,哪些特征需要被剔除。nn1、准备好样本、特征、label n2、查看样本集中样本总个数、特征总个数 n3、查看正负样本个数,如果正负样本相差不多,则属于样本均衡的建模...
最佳特征筛选与feature_selection
本文介绍的是如何利用scikit learn中的feature_selection模块来筛选最佳特征。nn1.读取数据并进行填充nnnntitanic=pd.read_csv('./titanic.txt')n# print titanic.head()n# print titanic.info()n#分离数据特征与预测目标ny=titanic['survived'] # 提取出survived
python机器学习库sklearn——特征选择
全栈工程师开发手册 (作者:栾鹏)n n python数据挖掘系列教程n移除低方差特征VarianceThreshold 是特征选择的一个简单基本方法,它会移除所有那些方差不满足一些阈值的特征。默认情况下,它将会移除所有的零方差特征,即那些在所有的样本上的取值均不变的特征。# ============去除方差小于阈值的特征============nfrom sklearn.feature_sel
人工智能在线特征系统中的数据存取技术
一、在线特征系统n主流互联网产品中,不论是经典的计算广告、搜索、推荐,还是垂直领域的路径规划、司机派单、物料智能设计,建立在人工智能技术之上的策略系统已经深入到了产品功能的方方面面。相应的,每一个策略系统都离不开大量的在线特征,来支撑模型算法或人工规则对请求的精准响应,因此特征系统成为了支持线上策略系统的重要支柱。美团点评技术博客之前推出了多篇关于特征系统的文章,如《机器学习中的数...
精灵标注-人工智能数据标注工具
精灵标注是一个集合了图片分类,图片框选标注,文本实体标注,视频追踪标注等全领域的人工智能数据标注工具
[数据竞赛] 基于人工智能的分子筛选竞赛思路,a榜十一,b榜第十
任务: n 2014年,一种未知的疾病在全球肆虐,让人类束手无策。致病蛋白质很多,它们的结构序列都藏在df_protein.csv 数据集中(Sequence特征)。经过科学家的不懈努力,能与这些致病蛋白相结合的小分子(df_molecule.csv中的Fingerprint特征表示了其结构)也被发现,并附上了它们的理化属性。此外,在df_affinity.csv数据集中,包含了蛋...
用IV和WOE来做特征筛选
n n n 什么是变量的离散化n变量的离散化就是只抽取出一个变量,分析变量当中的分组与标签的分布情况。n比如对于某个活动客户有响应和不响应的情况(这里的响应与否就是我们的标签),有多个变量:nn最近一个月是否有购买;n最近一次购买金额;n最近一笔购买的商品类别;n是否是公司VIP客户;nn那么我们每次取一个变量进行对其下分组的不同标签数目进行统计如下:nnnnnnn变...
人工智能三个基础问题的思考——学习笔记(一)
1,机器学习是用怎样的思路解决问题的?我们在机器学习中面临的任务最典型的是:有很多数据,怎样从现有数据建立一个模型,通过这个模型来预测未知的数据。这相模型就是一个从自变量到目标变量的一个映射:可以表示成y=f(x),只要我建立起了这样的模型,那有了自变量x,就可以通过模型求出y。答:机器学习学习的过程就是建立模型并求解f的过程。常用的模型,有决策树、线性回归、逻辑回归、SVM等等,这么多模型哪一种...
文章热词 人工智能 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 人工智能相关培训 人工智能相关课程设计