人工智能相关特征的筛选问题 10C

咨询大家一个问题,我的特征集里有很多特征,一些特征是独立的,一些是相关的一组,比如一个时间段的数据,我应该如何进行特征筛选?

举例:

[

[特征1(独立),特征2(独立),特征3(前1天特征X),特征4(前2天特征X),特征5(前1天特征Y),特征6(前2天特征Y)],.....

......

]

其中特征1和2是独立的,这个应该好进行筛选,特征3和4是相关的,特征5和6是相关的,我应该什么特征选取的方法,才能将3和4看做一组,5和6看成一组,进行筛选和保留?

另外,相同的一组特征,比如特征3和特征4,我在组织数据的时候,是否可以分散开进行组织,然后还是按照组形式筛选保留?

0

1个回答

如果你是深度神经网络,可以让有相关特征的构成全连接层,而独立特征的不要连接,但是你这个有时间序列的,可以考虑使用RNN(循环神经网络),然后时序的每个层共享参数和权重。

0
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
利用皮尔逊相关系数找出与目标最相关的特征(Python实现)
#coding:utf-8 #检测各特征和辐照度之间的相关性以及各个特征之间的相关性 from __future__ import division import tensorflow as tf import math import csv from sklearn import metrics import numpy as np from math import sqrt from math...
人工智能知识库spark_dnn算法
人工智能、深度学习、算法、机器学习,知识库、特征筛选等
特征处理和特征选择
特征处理之统计特征 历届的Kaggle/天池比赛,天猫/京东排序和推荐业务线里模型用到的特征 1.加减平均:这个用户所买商品高于所有用户购买商品平均价格的多少(权衡一个人的消费能力),用户连续登录天数超过平均多少(表明这个用户对该产品的黏性) 2.分位线:商品属于售出商品价格的多少分位线处。(比如20%,说明20%的人买东西都不会低于这个价格)。 3.次序型:排在第几位。 4.比...
特征选择算法在微博业务应用中的演进历程
本文首先介绍了不同特征选择算法的各自特点及其在微博业务应用中的演进历程,最后通过对比试验,给出了不同方法对于模型预测性能效果的提升,希望能够对读者有参考价值。
机器学习-自动筛选特征
选择属性(weka的书中把特征翻译成属性,那么这里的属性其实也就是指特征了) 选择属性的目的: 就是通过搜索数据中所有可能的属性组合,以找到预测效果最好的属性子集。 也就是说假设属性目前有6个,准确率为80%,假设只取5个属性(这就是子集),反而准确率却变为90%选择属性和PCA降维有啥不同? 选择属性和PCA的目的都是一样,都是为了降低特征的数量,减少计算量 但是PCA是将原始特征进行一
机器学习&人工智能基础入门篇·笔记(一)特征工程及数据的处理
写在前面 视频来源于 黑马程序员 六节课入门机器学习。 学习完爬虫,下一步准备学习机器学习的相关知识,之前自己也学习过一点,但感觉层次还达不到入门,沉下心来重新开始,给自己加油,希望能跟大家一起进步!!! 第一课 特征工程及数据的处理 数据集 Kaggle:数据量大,准确,数据真实 UCI:收录数据集比较专业,覆盖领域广泛 scikit-learn:自带数据集,数据量比较...
数学建模过程中的特征选择:scikit-learn--Feature selection(特征选择)
sklearn.feature_selection模块的作用是feature selection,而不是feature extraction。 Univariate feature selection:单变量的特征选择 单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些指标重要。剔除那些不重要的指标。 sklearn.feature_selection模块中主要...
过拟合讨论
过拟合就是模型把数据学习的太彻底,以至于把噪声数据的特征也学习到了,这样就会导致在后期测试的时候不能够很好地识别数据,即不能正确的分类,模型泛化能力太差。过拟合原因:1 使用过于复杂的模型,2 数据噪声过大3 训练数据少降低过拟合方法:1 简化模型假设,或者使用惩罚项限制模型复杂度,或者减少神经网络隐藏层节点数2 进行数据清洗,减少噪声 (删除稀疏的特征)3 收集更多训练数据高斯核的使用增加模...
数据分析学习体验——特征变量相关系数和主成分分析
进行回归分析和聚类分析时,如何筛选并处理数据集中高度相关的特征变量,如何选择主成分
特征选择案例
特征选择简介
特征处理(特征筛选,排序)
特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下: 1. 计算每一个特征与响应变量的相关性:工程上常用的手段有计算皮尔逊系数和互信息系数,皮尔逊系数只能衡量线性
数据特征提取,特征量相关性分析
python数据分析与挖掘实战 笔记 降维 86页  PCA主成分分析 100页  随机逻辑回归模型  选取特征变量 特征相关性分析 49页
用皮尔逊相关系数检查特征间的线性相关关系
1.1 皮尔逊相关系数1.1.1 简介是一种度量两个变量间线性相关程度的方法。协方差作为描述X和Y相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入皮尔逊相关系数 ρ" style="position: relative;" tabindex="0" id="MathJax-Element-1-Frame" cl
使用原始的Titanic数据,通过特征筛选,一步步提升性能(特征如何提取)
# coding=gbk #使用Titanic数据集,通过特征筛选的方法一步步提升决策树的预测性能 import pandas as pd from sklearn.cross_validation import train_test_split , cross_val_score from sklearn.feature_extraction import DictVectorizer 
特征选择与稀疏学习
第十一章   特征学习与稀疏学习https://stackedit.io/editor#1 子集搜索与评价 我们能用很多属性描述一个西瓜:色泽、根蒂、敲声、纹理、触感等! 根蒂、敲声! 属性⟺\iff 特征(feature)={相关特征(relevantfeature)无关特征(irrelevant)特征(feature)=\begin{cases} 相关特征(relevant
特征工程步骤——以二分类问题为例
一 特征工程 1、初步分析阶段 数据的探索分析EDA,是对数据进行初步的统计分析,统计数据的分布、异常、相互关系,目标是让我们了解这些数据能告诉我们什么。可以用来指导我们进行模型的选择,比如说帮助我们初步的决定哪些特征需要被使用,哪些特征需要被剔除。 1、准备好样本、特征、label 2、查看样本集中样本总个数、特征总个数 3、查看正负样本个数,如果正负样本相差不多,则属于样本均衡的建模...
特征筛选(变量聚类proc varclus)
在模型筛选变量的时候,我们可以用varclus进行变量聚类分析来进行降维。提到降维我们会首先想到主成分分析,主成分实际上是正交主成分。而varclus是斜交主成分,其是在正交主成分的基础上再做了一些旋转。这样得到的主成分不仅能保留主成分的优点(主成分变量相关程度比较低)。另外一方面又能有很到的解释性,并且能达到对变量聚类的效果。 综合说来就是,主成分分析是生成了新的主成分变量,用原始变量的线性关系...
如何进行特征选择 实践
在做特征抽取的时候,我们是尽可能地抽取更多的Feature,但过多的 Feature 会造成 冗余(部分特征的相关度太高了,消耗计算性能),噪声(部分特征是对预测结果有负影响),容易过拟合等问题,因此我们需要进行 特征筛选。特征选择可以加快模型的训练速度,甚至还可以提升效果。 接下来,我们了解下各种特征选择的方式。   过滤型(Filter) 评估 单个特征 和 结果值 之间的相关程度,...
精灵标注-人工智能数据标注工具
精灵标注是一个集合了图片分类,图片框选标注,文本实体标注,视频追踪标注等全领域的人工智能数据标注工具
人工智能面试题
1、深度学习框架TensorFlow中都有哪些优化方法?  答:GradientDescentOptimizer  AdagradOptimizer  Optimizer  优化最小代价函数  2、深度学习框架TensorFlow中常见的激活函数都有哪些?  答:relu,sigmoid,tanh  3、深度学习框架TensorFlow中有哪四种常用交叉熵?  答: tf.nn.weighted_...
sklearn -- --特征选择(二)
具体的前面已经介绍过了一些方法来提取特征,下面继续介绍包裹法和嵌入法来提取特征。 特征的选取方式一共有三种,在sklearn实现了的包裹式(wrapper)特诊选取只有两个递归式特征消除的方法,如下: recursive feature elimination ( RFE )通过学习器返回的 coef_ 属性 或者 feature_importances_ 属性来获得每个特征的重要程度。 然后...
机器学习笔记——皮尔逊相关系数
在学到相关性度量的时候,有一个系数用来度量相似性(距离),这个系数叫做皮尔逊系数,其实在统计学的时候就已经学过了,只是当时不知道还能用到机器学习中来,这更加让我觉得机器学习离不开统计学了。 皮尔逊相关系数——Pearson correlation coefficient,用于度量两个变量之间的相关性,其值介于-1与1之间,值越大则说明相关性越强。 两个变量之间的皮尔逊相关系数定义为两个
几种常用的特征选择方法
几种常用的特征选择方法
聚类特征变量选取、聚类算法与效果评价简述
对data的各个feature进行预处理 1. feature的选择:用相关性、基尼系数、信息熵、统计检验或是随机森林选取最为重要的特征变量 2. 如果需要,对一些特征变量进行scaling 3. 对数据进行变换:离散傅里叶变换或离散小波变换 4. 可以对数据进行降维处理,映射到低维度空间进行展示,观察数据形状,帮助选择聚类算法 降维的一些选择: 线性方法,PCA 非线性特征十分
伪人工智能”三大特征新鲜出炉
  不可否认,人工智能现在已成为技术展开的干流,而且在用前所未有的力量影响着人们的日子。通过将更多更好的数据、软件、运用与这项技术结合,人工智能在社会的多个领域里得以完成。  一同,由于技术的不断展开,人工智能研讨员几十年来一贯在极力处理的问题也正在获得相应的处理计划。  但是,是风口就会有“虚火”和“伪概念”的出现,人工智能也不会破例:在本钱许多涌入,巨子纷乱入局的情况下,如同一夜之间,人工智能...
你的简历已经被机器人筛选了
简历筛选是难题?初创公司 Riminder用机器学习提高招聘效率 思齐 • 2017-05-16 • 企业服务 不会让 HR 失业,只是帮 HR 提升效率 对于应聘者们而言,投递简历的时间也是一门玄学,不过对于 HR 们来说,何时收到简历并不重要,如何在海量的简历中挑选出最优秀且最符合要求的那一个才是最难的。数据显示,HR 一年平均要浪费掉 21 个工作日去外网筛选简历,一年要扔掉 6750...
特征提升之特征筛选
良好的数据特征组合不需太多,就可以使得模型的性能表现突出。冗余的特征虽然不会影响到模型的性能,但使得CPU的计算做了无用功。比如,PCA主要用于去除多余的线性相关的特征组合,因为这些冗余的特征组合不会对模型训练有更多贡献。不良的特征自然会降低模型的精度。 特征筛选与PCA这类通过主成分对特征进行重建的方法略有区别:对于PCA,经常无法解释重建之后的特征;然而特征筛选不存在对特征值的修改,从而更加
荐号|10个优质的大数据、人工智能公众号
陈皓:很多程序员喜欢调侃说自己是“码农”:编码的农民工,在工作上被各种使唤,各种加班,累得像个牲口。在职业发展上各种迷茫和彷徨,完全看不到未来的希望,更别说可以成为一个手艺人用自己的技能变现了。 但是在这个信息高度流通,获取信息门栏越来越低的社会,主动的“学会学习”往往比被动接受任务更有利于自己的职业生涯发展。 本次筛选的一批公众号,主要与大数据、人工智能、机器学习相关,更
17、Python特征工程,用相关系数法选择数据特征
1 相关系数法 先计算各个特征对目标值得相关系数,选择更加相关的特征 2 代码案例 import pandas data = pandas.read_csv('D:\\database\\pystudy\\6.2\\data2.csv') # 导热油特征选择的方法和相关系数的方法 from sklearn.feature_selection import f_regression...
样本筛选与特征处理
基于特征化工程进行用户特征化,结合相关的机器学习算法对业务进行挖掘建模,在广告的精准投放、预测、风控等领域中应用的非常广泛。无论是有监督的学习分类算法,还是无监督的聚类也罢,都需要建立特征向量,对特征进行预处理;其中对于有监督的训练时,还需要进行样本的筛选。本章节讲解一下样本选择和特征处理方面的一些方法技巧。 在做样本训练前需要挑选样本,需要注意样本不平衡的问题,比如在定向广告预估点击率二元
如何防止过拟合?与如何特征选择?
过拟合
机器学习python特征筛选
import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer from sklearn.tree import DecisionTreeClassifier from sklearn.model_select
人工智能学会从无到有设计药物
美国北卡莱罗纳大学的科研人员开发出一款人工智能系统,可以从无到有地学会如何设计药物,有望极大加速新药设计过程。该系统被称为结构进化的强化学习,简称为ReLeaSE,它是一...
机器学习-特征筛选
冗余的特征虽然不会影响到模型的性能,不过却使得CPU的计算做了无用功。比如,主成分分析主要作用于去除多余的那些线性相关的特征组合,原因在于这些冗余的特征组合并不会对模型训练有更多贡献。 特征筛选与PCA这类通过选择主成分对特征进行重建方法略有区别:对于PCA而言,我们经常无法解释重建后的特征;但是特征筛选不存在对特征值的修改,而更加侧重于寻找那些对模型的性能提升较大的少量特征。 #泰坦尼克号沉
最小冗余 - 最大相关性(mRMR)特征选择
转载自维基百科Feature Selection 最小冗余 - 最大相关性(mRMR)特征选择 彭等人提出了一种特征选择方法,可以使用互信息,相关或距离/相似性分数来选择特征。目的是在存在其他所选特征的情况下通过其冗余来惩罚特征的相关性。特征集S与类c的相关性由各个特征f i和类c之间的所有互信息值的平均值定义,如下所示: 集合S中所有特征的冗余是特征f i和特征f j之间的所有互信息值的平...
Xgboost筛选特征重要性
基本思想 根据结构分数的增益情况计算出来选择哪个特征的哪个分割点,某个特征的重要性,就是它在所有树中出现的次数之和。 使用代码 import pandas as pd import xgboost as xgb import operator from matplotlib import pylab as plt def ceate_feature_map(features): ...
特征选择之基于相关性的特征选择(CFS)
此为本人学习笔记,转载请劳烦告知!特征选择特征抽取整合原始特征,这样可能产生一些新的特征,而特征选择是去除无关紧要或庸余的特征,仍然还保留其他原始特征。特征提取主要用于图像分析,信号处理和信息检索领域,在这些领域,模型精确度比模型可解释性要重要;特征选择主要用于数据挖掘,像文本挖掘,基因分析和传感器数据处理。今天主要做的是特征选择。特征选择定义:检测相关特征,摒弃冗余特征,以获得特征子集,从而以最小
人工智能基础概念
1.背景人工智能涉及的内容非常广泛,从数学到计算机科学,有很多的基础知识需要储备,之前打算阅读一些人工智能方面的书籍,总感觉比较吃力,这里会将一些人工智能方面的基础知识做一个总结梳理。2.基础概念1)人工智能人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能研
随机森林特征筛选
刚看到一篇介绍特征筛选的文章,里面介绍基于模型的特征排名,附加了一个随机森林的python程序,感觉挺好,赶紧mark下来。 程序使用了skliearn机器学习库,数据集为boston房屋价格数据,源程序如下所示: from sklearn.cross_validation import cross_val_score, ShuffleSplit from sklearn.data
计算特征相关性的方法,特征提取的方法,如何判断特征是否重要
计算特征相关性可以用皮尔逊系数(公式及含义解释:表示两组数据的线性关系程度,取值为[-1,1]),衡量的是变量之间的线性相关性,简单快速,但是只对线性关系敏感,非线性不适合;计算特征相关性的指标还有互信息MIC和距离相关系数(Python gist包),取值为[0,1]。特征工程中包含特征选择和特征提取(区别),特征选择用的是Lasso,OMP,WOMP(特征排序)算法(流程讲清楚),特征提取用的...
文章热词 人工智能 设计制作学习 机器学习教程 Objective-C培训 交互设计视频教程
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 人工智能相关培训 人工智能相关课程设计