C4n 2022-09-14 18:26 采纳率: 80%
浏览 10
已结题

为什么小批量梯度算法是更大批量要用更小的步长呢?

在小批量梯度下降算法里,我认为更大的批量得出的梯度是更可信的,我们可以用更大的步长去更新参数,可是在《动手学深度学习》这本书里为什么反而是更大的批量对应着更小的步长呢?

img

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 9月22日
    • 创建了问题 9月14日