dropout可以实现正则化可以理解。但是使用dropout,为什么梯度下降能够让网络的整体的损失函数达到最小呢?
dropout随机屏蔽了隐藏层的一些节点,根据剩下的网络,反向传播计算出的梯度,对剩下的参数进行优化。应该是使这个剩下网络的损失函数变小了,下一次循环又是使另一个剩下的网络的损失函数变小。为什么最后,整个网络的损失函数也变小了呢?变得更优了呢?
dropout可以实现正则化可以理解。但是使用dropout,为什么梯度下降能够让网络的整体的损失函数达到最小呢?
dropout随机屏蔽了隐藏层的一些节点,根据剩下的网络,反向传播计算出的梯度,对剩下的参数进行优化。应该是使这个剩下网络的损失函数变小了,下一次循环又是使另一个剩下的网络的损失函数变小。为什么最后,整个网络的损失函数也变小了呢?变得更优了呢?