Focus1988 2021-02-18 11:11 采纳率: 100%
浏览 78
已采纳

多GPU数据并行训练的加速原理到底是什么?

每个batch其实后面都要求平均梯度再反向传播,所以感觉多GPU优势就是得到一个更小的学习率?

  • 写回答

2条回答 默认 最新

  • Focus1988 2021-02-18 11:26
    关注

    没错,本质是learning rate,且每个batch其实后面都要求平均梯度再反向传播,

    多gpu时每个batch的data多了,这时,

    每个batch的learning rate不变则每个data的learning rate变小,

    每个data的learning rate不变则每个batch的learning rate变大,

    最终就是允许更大的总learning rate。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已采纳回答 7月19日

悬赏问题

  • ¥15 找一个QT页面+目标识别(行人检测)的开源项目
  • ¥15 有没有整苹果智能分拣线上图像数据
  • ¥20 有没有人会这个东西的
  • ¥15 cfx考虑调整“enforce system memory limit”参数的设置
  • ¥30 航迹分离,航迹增强,误差分析
  • ¥15 Chrome Manifest扩展引用Ajax-hook库拦截请求失败
  • ¥15 用Ros中的Topic通讯方式控制小乌龟的速度,走矩形;编写订阅器代码
  • ¥15 LLM accuracy检测
  • ¥15 pycharm添加远程解释器报错
  • ¥15 如何让子窗口鼠标滚动独立,不要传递消息给主窗口