BN层的作用是使数据趋向正态分布,防止训练过程中参数更新时导致深层网络输入数据的分布混乱,使得网络难以拟合。
虽然数据经过BN层后趋向正态分布,但数据输入下一层网络之前会经过激活函数。以ReLU为例,负数部分进行截断,这样经过激活函数后数据好像又不是趋于正态分布了?
收起
根据需要模型可以有多个BN层
报告相同问题?