为什么小批量梯度算法是更大批量要用更小的步长呢？

在小批量梯度下降算法里，我认为更大的批量得出的梯度是更可信的，我们可以用更大的步长去更新参数，可是在《动手学深度学习》这本书里为什么反而是更大的批量对应着更小的步长呢？

报告相同问题？

关注问题