peixd2011 2018-08-24 19:46 采纳率: 0%
浏览 3001
已结题

关于归一化和numpy.log处理数据的疑问

在数据挖掘中, 有对数据进行归一化处理,比如StandardNormalization, 这种归一化处理的
好处是对异常的离散数值有很好的效果, 而numpy.log 可以对一些离散的异常数值有这种处理,
经过这种log处理后,得到的直方图更接近高斯分布, 我的问题是:
1. 我在网上看到一些大数据挖掘方面的资料,利用LogisticRegressor, 并没有对数据进行
归一化处理, 这种归一化是否不一定必须的 ?
2. 如果采用了 StandardNormalization 这种归一化处理,是否也相当于采用了Log处理的效果,而且数值被限定在更小的范围之内?
3. 数据挖掘中,如果用到 LogisticRegressor这种算法,是否直接对那些离散值直接进行StandardNormalization处理,不用采用Log处理?

  • 写回答

1条回答 默认 最新

  • threenewbee 2018-08-25 01:21
    关注

    (1)是不是必须的要看你的算法。比如说你用了sigmoid之类的激活函数来实现非线性,如果你的数据偏离原点很远,那么就学不起来。就需要归一化。总之,和你的机器学习的算法有关,有的的确差异不大。
    (2)不是,标准归一化是将数据按照正态分布处理,均值为0,方差为1,不是指数归一化。
    (3)逻辑回归用StandardNormalization就可以了,最好使用修正正切(ReLU)之类的非线性函数。

    评论

报告相同问题?

悬赏问题

  • ¥15 关于博途V17进行仿真时无法建立连接问题
  • ¥15 请问下这个红框里面是什么文档或者记事本编辑器
  • ¥15 机器学习教材中的例题询问
  • ¥15 求.net core 几款免费的pdf编辑器
  • ¥15 为什么安装HCL 和virtualbox之后没有找到VirtualBoxHost-OnlyNetWork?
  • ¥15 C# P/Invoke的效率问题
  • ¥20 thinkphp适配人大金仓问题
  • ¥20 Oracle替换.dbf文件后无法连接,如何解决?(相关搜索:数据库|死循环)
  • ¥15 数据库数据成问号了,前台查询正常,数据库查询是?号
  • ¥15 算法使用了tf-idf,用手肘图确定k值确定不了,第四轮廓系数又太小才有0.006088746097507285,如何解决?(相关搜索:数据处理)