问题描述
为啥说激活函数最好具有关于零点对称的性质,不关于零点对称会导致收敛变慢?
网上查了一些文章也还是没有弄明白,要是能讲得通俗易懂、深入浅出一些就好了😝
为啥说激活函数最好具有关于零点对称的性质,不关于零点对称会导致收敛变慢?
网上查了一些文章也还是没有弄明白,要是能讲得通俗易懂、深入浅出一些就好了😝
也不是绝对关于零点对称就慢,如果是这样,那ReLU速度应该比Tanh慢才对,但是实际上ReLU可比Tanh快很多收敛。
你说的应该是下面链接里面的情况,公式推理很详细了。
谈谈激活函数以零为中心的问题 | 始终
今天在讨论神经网络中的激活函数时,陆同学提出 Sigmoid 函数的输出不是以零为中心的(non-zero-centered),这会导致神经网络收敛较慢。关于这一点,过去我只是将其记下,却并未理解背后的原因。此篇谈谈背后的原因。
https://liam.page/2018/04/17/zero-centered-active-function/