关于归一化和numpy.log处理数据的疑问 5C

在数据挖掘中, 有对数据进行归一化处理,比如StandardNormalization, 这种归一化处理的
好处是对异常的离散数值有很好的效果, 而numpy.log 可以对一些离散的异常数值有这种处理,
经过这种log处理后,得到的直方图更接近高斯分布, 我的问题是:
1. 我在网上看到一些大数据挖掘方面的资料,利用LogisticRegressor, 并没有对数据进行
归一化处理, 这种归一化是否不一定必须的 ?
2. 如果采用了 StandardNormalization 这种归一化处理,是否也相当于采用了Log处理的效果,而且数值被限定在更小的范围之内?
3. 数据挖掘中,如果用到 LogisticRegressor这种算法,是否直接对那些离散值直接进行StandardNormalization处理,不用采用Log处理?

1个回答

(1)是不是必须的要看你的算法。比如说你用了sigmoid之类的激活函数来实现非线性,如果你的数据偏离原点很远,那么就学不起来。就需要归一化。总之,和你的机器学习的算法有关,有的的确差异不大。
(2)不是,标准归一化是将数据按照正态分布处理,均值为0,方差为1,不是指数归一化。
(3)逻辑回归用StandardNormalization就可以了,最好使用修正正切(ReLU)之类的非线性函数。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
数据的归一化处理和标准化处理
#值的归一化处理  1) 数据为什么做归一化处理      解析:  假设一个神经元有两个输入分别是x1和x2,权重分别是w1和w2,那么该神经元的信号加权求和为x1w1+x2w2。再假设x1属于[0~1],x2属于[100~1000],那么x2远远大于x1,那么x1w1就可以忽略不计,整个加权求和就只由x2w2来决定,小的信号就被淹没了!   所以需要将x1和x2都要做数据归一化处理避免造...
数据归一化处理
数据归一化处理公式:x=(x-min)/(max-min) 代码如下: public class AlgorithmService { /** * 数据归一化处理 * @param dataArray 需要处理的数据 * @param map 每列数据的最大值和最小值 * @return 返回归一化后的数据 */ p...
数据的归一化处理
1.归一化的含义归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内,例如限制在[0,1]或[-1,1]的范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。 2.归一化算法或方法数据的归一化处理算法有很多种,比如说: 1、线性函数转换,表达式如下: y=(x-MinValue)/(MaxValue-MinValue) 说明:x、
归一化处理数据 python
归一化处理数据,python
MATLAB数据归一化处理
B=18;%量化位宽% f_s=msk/max(abs(msk));%归一化处理Q_temp = round(Q/max(abs(Q))*(2^(B-1)-1));I_temp = round(I/max(abs(I))*(2^(B-1)-1));
数据的归一化和标准化处理
我们为什么要进行归一化处理 当我们在采集样本与使用样本进行算法预测时,是否发现在数据中某些
什么是数据归一化,数据为什么要做归一化处理
归一化算法: y=(x-min)/(max-min) y=2*(x-min)/(max-min)-1 目的是让大的输入,大的信号映射到小范围里面解析: (1)假设一个神经元有两个输入分别是x1和x2,权重分别是w1和w2,那么该神经元的信号加权求和为x1w1+x2w2。再假设x1属于[0~1],x2属于[100~1000],那么x2远远大于x1,那么x1w1就可以忽略不计,整个加权求和就只由
归一化处理
归一化概念优点方法 1、对于给定的数据在一些的情况下往往会出现这样的问题:在不同评价往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间事物量纲影响,需要进行数据标准化处理,以解决数据指标之间的差异性,原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。 2、优点:(1)、为后面处理数据更方便 (2)、保证程序运行时收敛快 3、方法:(1)、new
PyTorch 数据归一化与反归一化
文章目录数据归一化除最大值法MinMaxScaler均值和标准差反归一化 数据归一化 除最大值法 def read_and_normalize_train_data(): train_data, train_label = load_train() print('Convert to numpy...') train_data = np.array(train_data...
数据的归一化
数据归一化问题 第一次接触到数据归一化问题是在做飞卡的时候,我当时就在想,为什么要对数据进行归一化处理,这样做有什么好处,后来网上查了资料才明白了一点点:(1)归一化后可以将各个数据的量纲对应起来,换句话说就是两个变量之间不是一个量级的,不能直接做处理,归一化后就可以作处理了。(2)会使模型数据的收敛速度变快(3)会使模型的精度变高。综上所述,归一化操作还是很有必要的。 归一化
数据归一化
数据归一化,又叫数据规范化或数据标准化,即把属性数据按比例缩放,使之落入一个特定的小区间,如[-1.0, 1.0]或[0.0, 1.0]。 规范化数据试图赋予所有属性相等的权重。对于涉及神经网络的分类算法或基于距离度量的分类(如最近邻分类)和聚类,规范化特别有用。如果使用神经网络后向传播算法进行分类挖掘,对训练元组中每个属性的输入值规范化有助于加快学习速度。对于基于距离的方法,规范化可以帮助防止
请问关于数据归一化的问题
训练神经网络前,在对输入变量进行归一化时,如果原始数据是跨量级的,例如取值范围为[100,10000],这个时候采用什么归一化方式比较好?rn感觉传统的maxmin线性映射至[-1,1]似乎淹没了一些信息?
为什么要进行数据归一化处理?
归一化处理的目的是让算法收斂更快,提升模型拟合过程的计算效率。
python实现数据归一化处理的方式:(0,1)标准化
在机器学习过程中,对数据的处理过程中,常常需要对数据进行归一化处理,下面介绍(0, 1)标准化的方式,简单的说,其功能就是将预处理的数据的数值范围按一定关系“压缩”到(0,1)的范围类。 通常(0, 1)标注化处理的公式为: xnormalization=x−MinMax−Min {x}_{normalization}=\frac{x-Min}{Max-Min} xnormalization​=M...
【Data】数据归一化处理(data normalization)
介绍 Intro 解决的问题 常用方法 Methods 线性归一化 非线性归一化 介绍 Intro 数据的归一化,就是将各路嘈杂的数据映射到一个统一的区间上,只保留相对尺度而消去背景信息,从而方便下一步处理。 常用的归一化区间有 [0,1][0,1][0,1] [−1,1][−1,1][-1,1] [−0.5,0.5][−0.5,0.5][-0.5, 0.5] [a,b...
为何对数据进行“中心化、归一化”处理
来自知乎回答: https://www.zhihu.com/question/37069477 1、神经网络中,将原始数据进行去中心、归一化这样的标准化处理,(归一化)使得不同的特征具有相同的尺度(量纲),即消除特征之间的差异性,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了,(一心一意学习权重)从而加速神经网络的训练。 (去中心化)增加基向量的正交性。 2、使用PCA时,一般只...
关于服务器端处理数据的一些疑问
小弟因一时好奇,将平时玩的一款游戏的网络封包进行了截取,我的操作是这样的:rn rnrn 1. 强化背包格子1时获取这个操作发往服务器的封包;rn 2.将道具2放到背包格子1,发送第1步捕获到的封包,这样道具2便也被强化了;rn rn 以上两步操作后目前是正常的,但接下来的事情我想应该是服务器的自检起了作用:rn 上面2项操作后,大概20秒后吧,我被提示网络中断,再次登录游戏,我之前的操作已经被还原,然后我试验将非法操作与合理操作混合进行,但仍是非法操作被恢复,我想问,它(服务器端)是如何判定我发送的包是非法的呢?
特征归一化处理
介绍 机器学习中,提取某个样本特征的过程,叫特征工程。 同一个样本,可能具备不同类型的特征,各特征的数值大小范围不一致。所谓特征归一化,就是将不同类型的特征数值大小变为一致的过程。 举例:假设有4个样本及他们的特征如下 样本 特征1 特征2 1 10001 2 2 16020 4 3 12008 6 4 13131 ...
对traindata的归一化处理
首先说一下归一化的好处:    1 收敛速度加快    2 提高精确度原因参考网上的两个图:归一化前                                                                           归一化后:       我的数据格式为:5.4,3.4,1.7,0.25.1,3.7,1.5,0.44.6,3.6,1.0,0.25.1,3.3,1....
图片归一化处理代码
读取并显示,然后进行归一化处理,附件为文件的整个工程。编译运行无错误,需要自己添加图片。
LRN 局部归一化处理
局部响应归一化原理是仿造生物学上活跃的神经元对相邻神经元的抑制现象(侧抑制),对局部神经元的活动创建竞争机制,使得其中响应比较大的值变得相对更大,并抑制其他反馈较小的神经元,增强了模型的泛化能力。 ...
指纹的处理均衡化归一化
里面包括了指纹处理的代码实现,指纹的均衡化,归一化
归一化与标准化处理
1, 归一化把数据经过处理后限制在想要的范围内,比如[0,1],有量纲表达式变为无量纲表达式,成为纯量。 一般采用最大-最小规范化对原始数据进行线性变换公式:X=(X−Xmin)/(Xmax−Xmin)X =(X-Xmin)/(Xmax-Xmin) matlab归一化函数: [y,ps] = mapminmax(x,ymin,ymax) x输入矩阵,ymin,ymax归一化区
所谓归一化(normalization)处理。
如题,无非就是把多组数据按照一定的格式转化,翻译成标准化应该更恰当,或者说归一化只是标准化的方法其中之一。其中最近,使用把图像像素值收缩[0,1]区间,matlab有现成函数,mapminmax。整个过程无非就是老区间和新区间,数据的区间长度得转化,而数据在区间的位置不变。所以,mapminmax使用的转化就是按照数值的区间位置为基准。matlab函数的公式,这部分就是计算老区间的数据位置,分子是...
DataFrame关于某一列做归一化处理
之前一直在写 df['coloumn'] = df['coloumn'].apply(lambda x: (x - MIN) / (MAX - MIN)) 但是系统一直报错。 SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[...
数据挖掘特征处理之非数字特征转化及数据归一化处理
数据挖掘特征处理之非数字特征转化及数据归一化处理 在数据分析中,我们希望得到的表中的字段为数值类型的,因为数字才能参与到后面的计算当中,但在实际工作中,往往事与愿违, 这时就需要用到数据特征转化了. 为了保证数据的实用性,我们一般不能直接给文本数据赋值,而是采用index来替换 代码如下: cols = ['school', 'sex', 'address', 'famsize', 'Pstatu...
关于归一化
归一化在机器学习中经常避不过的一环。 1、归一化方法:单纯数学层面的归一化(一般是0~1.0, 或者0~100, ):        1)除于最大:score = x/ max         2) 除间隔: score = x-min/ (max-min)         3)利用指数性质: score(x) = sigmoid(x), 或者其他类似的函数。         归一化到同
数据缺失值处理的几个疑问
数据中含有缺失值、异常值,及无意义的数值0. 我的操作步骤是先将数值0替换成缺失值。再对数据进行z-score标准化处理,找出异常值后,也将异常值替换成空值。再统一对缺失值进行填充处理。我的问题是:rn1. 我的操作步骤是否合理?rn2. 如果按照上述步骤,将数值0和异常值替换成缺失值后, 导致缺失值数量较多,无法进行填充处理,该如何解决?rn3. 缺失值的填充,应该是针对原始数据进行的填充,而不会对标准化数据也同时进行填充吧? (原始数据缺失,标准化数据也同样缺失的)rn4. 如第3步正确,那数据填充完毕,是否还要对数据再次进行标准化处理,以便后期建模(后期建模,考虑到量纲问题,有必要将标准化数据纳入建模,而非原始数据)。
6.项目中的数据是否会归一化处理,哪个机器学习算法不需要归一化处理 ?
6.项目中的数据是否会归一化处理,哪个机器学习算法不需要归一化处理 ?答:归一化的目的是处理不同规模和量纲的数据,时期缩放到相同的数据区间和范围,以减少规模、特征、分布差异对模型的影响。Max-Min(线性归一化)Max-Min归一化是对原始数据进行线性变化,利用变量取值的最大值和最小值将原始数据转换为某一范围的数据。缺点是尤其其归一化过程仅与该变量的最大值和最小值有关,容易受到极端取值的影响。会...
数据归一化及两种常用归一化方法
数据标准化(归一化)处理是数据挖掘的一项基础工作,不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据标准化处理,以解决数据指标之间的可比性。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
关于钩子处理的疑问(或其它疑问)?
下面的是我写的消息处理函数,其中WM_HOOK是钩子处理函数发送的自定义消息。rnWM_HOOK的lParam为一个字符数组(如"OK")。rnrnBOOL CALLBACK DlgProc(HWND hDlg, UINT message, WPARAM wParam, LPARAM lParam)rnrn TCHAR *letter;rn rn switch (message)rn rn case WM_INITDIALOG:rn InstallHook(hDlg, WM_HOOK);rn break;rn case WM_CLOSE:rn UninstallHook();rn EndDialog(hDlg, 0);rn break;rn case WM_HOOK:rn letter = (LPSTR)lParam;rn strcat(szBuffer, letter);rn rn// SendDlgItemMessage(hDlg, IDC_EDIT, EM_REPLACESEL, 0, (WPARAM)lParam);rn// SendDlgItemMessage(hDlg, IDC_EDIT, WM_SETTEXT, 0, (WPARAM)szBuffer);rn SetDlgItemText(hDlg, IDC_EDIT,szBuffer);rn break;rn default:rn return FALSE;rn rnrn return TRUE;rnrnrnrn在WM_HOOK中,szBuffer中的内容如果是j时,IDC_EDIT的显示确是jjrnrn如:键盘按下okrn 则显示ookkrnrn为什么?????rn大家多帮忙呀!rnrnrn
处理数据时不进行归一化会有什么影响?归一化的作用是什么?什么时候需要归一化?有哪些归一化的方法?
归一化化定义:我是这样认为的,归一化化就是要把你需要处理的数据经过处理后(通过某种算法)限制在你需要的一定范围内。首先归一化是为了后面数据处理的方便,其次是保正程序运行时收敛加快。所谓特征归一化,就是将不同类型的特征数值大小变为一致的过程。特征归一化的意义1. 提升模型的收敛速度2. 提高精度,这在涉及到一些距离计算的算法时效果显著,比如算法要计算欧氏距离,上图中x2的取值范围比较小,涉及到距离计...
数据归一化的方法总结
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有: min-max标准化 log函数转换 atan函数转换 z-score标准化 z-sc
python 数据归一化方法
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Ma...
Spark ml数据归一化
import org.apache.log4j.{Level, Logger} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.SparkSession import org.apache.spark.ml.feature.Normalizer import org.apache.spark.ml.feat...
数据标准化和归一化的异同
简单来说,标准化是依照特征矩阵的列处理数据,其通过求Z-score的方法,将样本的特征值转换到同一量纲下。 归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点成运算或其他和函数计算相似性时,拥有同一的标准。也就是说都转化为“单位向量” -------------------------- 对比一下代码的输出,即可明白StandardScaler()对列进行标准化 from skle...
相关热词 c# 标准差 计算 c#siki第五季 c#入门推荐书 c# 解码海康数据流 c# xml的遍历循环 c# 取 查看源码没有的 c#解决高并发 委托 c#日期转化为字符串 c# 显示问号 c# 字典对象池