2 fengbiqunluan fengbiqunluan 于 2016.04.10 16:12 提问

做数据挖掘前,需要把连续性数据离散化,在某个区间内归为1,2等,编程语言该怎么实现?

比如在240~250内的为1,250~260内的为2,260~270内的为3,该怎么实现啊图片说明

Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
数据处理:离散化好处多
离散化指把连续型数据切分为若干“段”,也称bin,是数据分析中常用的手段。切分的原则有等距,等频,优化,或根据数据特点而定。在营销数据挖掘中,离散化得到普遍采用。究其原因,有这样几点: ①算法需要。例如决策树,NaiveBayes等算法本身不能直接使用连续型变量,连续型数据只有经离散处理后才能进入算法引擎。这一点在使用具体软件时可能不明显。因为大多数数据挖掘软件内已经内建了离散化处理程序,所
为什么要将连续特征离散化
在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 0. 离散特征的增加和减少都很容易,易于模型的快速迭代; 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展; 2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给
机器学习(七)使用pandas库进行数据分析_——统计信息和离散化
在特征工程中,对于数值型数据(比如年龄为25岁、31岁。。,商店某个时间段的销量为20W件等等), 通常要对这些数值型数据进行统计分析,比如求取它们的最大最小值、期望方差等,pandas库在数据分析中非常好用。 对 数值型数据进行离散化,也用到pandas的cut函数,具体操作如下代码:# -*- coding: utf-8 -*- """ Created on Wed Oct 2
连续特征进行离散化的方法介绍与应用例子
RT,尤其在logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。 连续特征离散化处理有什么好的方法, 有时候为什么不直接归一化? 这里主要说明监督的变换方法; 连续性变量转化成离散型变量大致有两类方法: (1)卡方检验方法; (2)信息
【特征工程】连续数据特征离散化的方法
离散化背景连续数据经常采用离散化处理之后再放入模型。离散化可以理解为提取特征的过程,比如在LR模型,由于是广义线性模型表达能力有限,因此通过特征离散化来了提高非线性学习能力主要方法等距离散取值范围均匀划成n等份,每份的间距相等等频离散均匀分为n等份,每份内包含的观察点数相同优化离散大致有两类方法: 1. 卡方检验方法:(统计样本的实际观测值与理论推断值之间的偏离程度,卡方值越大,越不符合;卡方值越
《数据挖掘导论》学习笔记-离散化
什么是离散化: 连续属性的离散化就是将连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。 为什么要离散化 连续属性离散化的目的是为了简化数据结构,数据离散化技术可以用来减少给定连续属性值的个数。离散化方法经常作为数据挖掘的工具。常见的正态假设是连续变量,离散化减少了对于分布假设的依赖性,因此离散数据有时更有效。 离散化的技术 根据数
数据预处理之数据离散化
数据离散化的意义数据离散化是指将连续的数据进行分段,使其变为一段段离散化的区间。分段的原则有基于等距离、等频率或优化的方法。数据离散化的原因主要有以下几点:1**.算法需要:**比如决策树、朴素贝叶斯等算法,都是基于离散型的数据展开的。如果要使用该类算法,必须将离散型的数据进行。有效的离散化能减小算法的时间和空间开销,提高系统对样本的分类聚类能力和抗噪声能力。
连续特征离散化和归一化
连续特征进行离散化处理。
逻辑回归LR的特征为什么要先离散化
在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点: 1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。 2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。 3.
使用R并行方式对数值型数据离散化
使用R并行方式对数值型数据离散化        数据的特征按照其取值可以分为连续型和离散型。离散数值属性在数据挖掘的过程中具有重要的作用。比如在信用卡评分模型中,当自变量很多时,并非所有字段对于目标字段来说都是有效的,因此通常的做法是通过计算woe值和iv值(类似于信息增益)来初步挑选通过对目标变量重要的字段,然后建模逻辑回归模型。而这当中就需要对数值型数据离散化。        数值型数