每个batch其实后面都要求平均梯度再反向传播,所以感觉多GPU优势就是得到一个更小的学习率?
2条回答 默认 最新
- _沧海桑田_ 2021-02-18 11:26关注
没错,本质是learning rate,且每个batch其实后面都要求平均梯度再反向传播,
多gpu时每个batch的data多了,这时,
每个batch的learning rate不变则每个data的learning rate变小,
每个data的learning rate不变则每个batch的learning rate变大,
最终就是允许更大的总learning rate。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报