Taylor不想被展开 2022-07-30 11:47 采纳率: 0%
浏览 41
已结题

RepVGG代码中sgd_optimizer()的作用是什么?

在RepVGG官方代码的train.py中,没看懂这个函数在干什么:

def sgd_optimizer(model, lr, momentum, weight_decay, use_custwd):
    params = []
    for key, value in model.named_parameters():  # key是网络层名称,value是参数
        if not value.requires_grad:
            continue
        apply_weight_decay = weight_decay
        apply_lr = lr
        if (use_custwd and ('rbr_dense' in key or 'rbr_1x1' in key)) or 'bias' in key or 'bn' in key:
            apply_weight_decay = 0
            print('set weight decay=0 for {}'.format(key))
        if 'bias' in key:
            apply_lr = 2 * lr  # Just a Caffe-style common practice. Made no difference.
        params += [{'params': [value], 'lr': apply_lr, 'weight_decay': apply_weight_decay}]
    optimizer = torch.optim.SGD(params, lr, momentum=momentum)
    return optimizer
```python


```

  • 写回答

2条回答 默认 最新

  • herosunly Python领域优质创作者 2022-07-30 18:24
    关注
    获得1.85元问题酬金

    针对不同的层设置学习率(lr)、momentum(动量)和weight_decay(权重衰减),然后使用SGD算法对整个网络进行优化。

    评论

报告相同问题?

问题事件

  • 系统已结题 8月7日
  • 请采纳用户回复 8月2日
  • 创建了问题 7月30日

悬赏问题

  • ¥30 comsol仿真等离激元
  • ¥15 静电纺丝煅烧后如何得到柔性纤维
  • ¥15 (标签-react native|关键词-镜像源)
  • ¥100 照片生成3D人脸视频
  • ¥15 伪装视频时长问题修改MP4的时长问题,
  • ¥15 JETSON NANO
  • ¥15 VS开发qt时如何在paintgl函数中用pushbutton控制切换纹理
  • ¥20 关于 openpyxl 处理excel文件地问题
  • ¥15 MS中不知道高分子的构型怎么构建模型
  • ¥60 QQOP数据,什么是op数据号,怎么提取op数据!能不能大量提取(语言-c语言)