岭南香雪 2024-09-09 10:54 采纳率: 50%

torch_ema库的EMA(ExponentialMovingAverage,，指数滑动平均)使用问题

我从https://github.com/fadel/pytorch_ema下载并使用torch_ema这个库，在调用ExponentialMovingAverage(EMA，指数滑动平均)时遇到了问题。以下是我的详细代码：

from torch_ema import ExponentialMovingAverage
model = ...
for name, para in model.named_parameters():
    if "blocks" in name or "head" in name:
        para.requires_grad_(True)
    else:
        para.requires_grad_(False)
# pg are the parameters to be trained in the model(I freeze some of the parameters of the model during training)
pg = [p for p in model.parameters() if p.requires_grad] 
optimizer = optim.SGD(pg, lr=0.01, momentum=0.9, weight_decay=5e-5)
scheduler = lr_scheduler.CosineAnnealingLR(optimizer, T_max=20, eta_min=0)
ema_model = ExponentialMovingAverage(parameters=pg, decay=0.9999)

best_MAE=10
save_path=...
for epoch in range(args.epochs):# train
    print('epoch:',epoch,'Current learning rate:', optimizer.param_groups[0]['lr'])
    train_loss, train_MAE, tb_writer = train_one_epoch(model=model,
                                            optimizer=optimizer,
                                            data_loader=train_loader,
                                            device=device,
                                            epoch=epoch,
                                            scheduler=scheduler,
                                            csv_filename=args.csv_filename,
                                            tb_writer=tb_writer)
    
    scheduler.step()
    ema_model.update()
    # validate
    with ema_model.average_parameters():
        val_loss, val_MAE = evaluate(model=model,data_loader=val_loader,device=device,epoch=epoch)
    if val_MAE < best_MAE:
        best_MAE=val_MAE
        torch.save(ema_model.state_dict(), save_path)

其中，evaluate函数如下所示：

@torch.no_grad()
def evaluate(model, data_loader, device, epoch):
    softceloss_function = SoftCrossEntropy()
    model.eval()
    data_loader = tqdm(data_loader)
    for step, data in enumerate(data_loader):
        images, names, labels = data
        pred = model(images.to(device))
        softlabel = softlabel_function(labels) # a function to convert labels to softlabel
        loss = softceloss_function(pred, softlabel.to(device))

    val_loss,val_MAE = ... # calculate loss and MAE
    return val_loss, val_MAE

在训练过程中的每个epoch结束时，我都会在验证集上执行evaluate函数。如果 val_MAE < best_MAE，我会保存模型的checkpoint。经过 20 个 epoch 的训练后，我会选择在验证集上性能最好的模型，去在测试集上进行测试。

结果如下：

如果我不使用 pytorch_ema 软件包，即在不使用 ema_model.average_parameters() 这句代码时执行evaluate函数，epoch 1、2、3 的 val_MAE 分别为 6.185、5.779 和 5.529。
如果我使用上面提供的代码，即 ema_model = ExponentialMovingAverage(parameters=pg,decay=0.9999)，其中decay设置为 0.9999，则epoch 1、2、3 的值 val_MAE 分别为 6.269、5.878 和 5.548。这证明了 ema 模式的有效性。
当我尝试将decay设置为其他值，如 0.999（或任何其他值），即ema_model = ExponentialMovingAverage(parameters=pg, decay=0.999)，并重新开始训练时，我发现每轮的验证结果完全一样，epoch 1、2、3 的 val_MAE 还是分别为 6.269、5.878 和 5.548。

总的来说，我有三个问题：
1.我想知道为什么设置不同的 decay 进行训练时，验证结果完全相同。
2.由于 ema_model.state_dict() 与 model.state_dict() 不同，如何保存 ema_model 的 checkpoint 并将其应用于测试集？
3.是否有其他更方便的、兼容torch的，使用EMA功能的方法，如有麻烦提供链接或例程，非常感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

月下独码 Java领域新星创作者 2024-09-15 21:49

关注

问题分析与解决方案

你提出的问题主要集中在以下几个方面：

不同的decay值导致相同的验证结果。
如何保存和加载ema_model的checkpoint。
是否有其他更方便的、兼容PyTorch的EMA方法。

下面我将逐一解决这些问题，并提供相应的解决方案。

1. 不同的`decay`值导致相同的验证结果

问题分析

在ExponentialMovingAverage中，decay参数控制了指数滑动平均的权重。理论上，不同的decay值应该会导致不同的模型参数滑动平均结果，从而影响验证结果。然而，你发现无论decay值如何变化，验证结果都相同。

可能原因

初始化问题：可能是因为ema_model的初始化方式导致不同的decay值没有产生预期的效果。
更新机制问题：可能是因为ema_model.update()的实现方式没有正确处理不同的decay值。

解决方案

检查ExponentialMovingAverage的实现：确保ExponentialMovingAverage的实现正确处理了decay参数。
手动调试：在训练过程中打印ema_model的参数，观察其变化情况。

ema_model = ExponentialMovingAverage(parameters=pg, decay=0.9999)

for epoch in range(args.epochs):
    # 训练代码...
    ema_model.update()
    print(f"Epoch {epoch}: EMA parameters updated.")
    # 打印EMA模型的参数
    for name, param in ema_model.named_parameters():
        print(f"{name}: {param.data}")

使用其他EMA实现：如果torch_ema库的实现有问题，可以尝试其他EMA实现，如torchcontrib中的EMA实现。

2. 如何保存和加载`ema_model`的checkpoint

问题分析

由于ema_model的state_dict()与model的state_dict()不同，直接保存ema_model.state_dict()会导致加载时出现问题。

解决方案

**保存ema_model的state_dict()**：

torch.save(ema_model.state_dict(), save_path)

**加载ema_model的state_dict()**：

# 加载EMA模型的state_dict
ema_model.load_state_dict(torch.load(save_path))

在测试时使用EMA模型：

# 在测试时使用EMA模型
with ema_model.average_parameters():
    test_loss, test_MAE = evaluate(model=model, data_loader=test_loader, device=device, epoch=epoch)

3. 是否有其他更方便的、兼容PyTorch的EMA方法

解决方案

使用torchcontrib库：torchcontrib库中提供了EMA的实现，使用起来更加方便。

from torchcontrib.optim import SWA

# 初始化EMA模型
ema_model = SWA(model, swa_start=10, swa_freq=5, swa_lr=0.05)

# 训练代码...
ema_model.update_swa()

# 保存EMA模型的state_dict
torch.save(ema_model.state_dict(), save_path)

# 加载EMA模型的state_dict
ema_model.load_state_dict(torch.load(save_path))

# 在测试时使用EMA模型
with ema_model.average_parameters():
    test_loss, test_MAE = evaluate(model=model, data_loader=test_loader, device=device, epoch=epoch)

自定义EMA实现：如果你对EMA的实现有特殊需求，可以自定义EMA实现。

class ExponentialMovingAverage:
    def __init__(self, model, decay):
        self.model = model
        self.decay = decay
        self.shadow = {}
        self.backup = {}
        self.register()

    def register(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                self.shadow[name] = param.data.clone()

    def update(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.shadow
                new_average = (1.0 - self.decay) * param.data + self.decay * self.shadow[name]
                self.shadow[name] = new_average.clone()

    def apply_shadow(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.shadow
                self.backup[name] = param.data
                param.data = self.shadow[name]

    def restore(self):
        for name, param in self.model.named_parameters():
            if param.requires_grad:
                assert name in self.backup
                param.data = self.backup[name]
        self.backup = {}

# 使用自定义EMA实现
ema_model = ExponentialMovingAverage(model, decay=0.9999)

for epoch in range(args.epochs):
    # 训练代码...
    ema_model.update()

    # 在验证时使用EMA模型
    with ema_model.apply_shadow():
        val_loss, val_MAE = evaluate(model=model, data_loader=val_loader, device=device, epoch=epoch)

    if val_MAE < best_MAE:
        best_MAE = val_MAE
        torch.save(ema_model.shadow, save_path)  # 保存EMA模型的参数

# 加载EMA模型的参数
ema_model.shadow = torch.load(save_path)

# 在测试时使用EMA模型
with ema_model.apply_shadow():
    test_loss, test_MAE = evaluate(model=model, data_loader=test_loader, device=device, epoch=epoch)

总结

通过以上解决方案，你可以解决不同decay值导致相同验证结果的问题，并且能够正确保存和加载ema_model的checkpoint。此外，你还可以尝试其他更方便的EMA实现方法，如torchcontrib库中的EMA实现。

报告相同问题？

关注问题

pyinstaller 编译成exe 提示缺少torch_utils.pyc python 人工智能机器学习
2022-05-22 17:28

回答 2 已采纳你把utils文件夹复制到你打包的文件夹里面，然后把torch_utils.py复杂一份，改名为orch_utils.pyc就行。我也不知道这是为什么，但他就是能跑了
安装 torch_sparse 的问题 python 有问必答
2021-04-25 11:33

回答 1 已采纳问题解决：直接在https://pytorch-geometric.com/whl/torch-1.6.0.html 下载好安装包，进行安装即可：
Python 该怎么下载一个叫torch._C的库呢？ github python pytorch
2022-01-14 16:11

回答 2 已采纳 pip3 install torchvision
推荐开源项目：PyTorch EMA — 模型参数指数移动平均库
2024-06-07 09:49

蓬玮剑的博客推荐开源项目：PyTorch EMA — 模型参数指数移动平均库 pytorch_emaTiny PyTorch library for maintaining a moving average of a collection of parameters.项目地址:...
pytorch源码中“if torch._C._get_tracing_state():”怎么理解 python 人工智能神经网络
2021-02-10 15:57

回答 3 已采纳 if torch._C._get_tracing_state():就是用来判断是否使用JIT来跟踪模型。像pytorch构建一个计算图就会用到一个中央的context去管理变量，而JIT跟踪模型也类似
python中安装了torch_geometric但不能代码自动补全。 python
2022-10-04 11:33

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：Python安装torch模块报错处理除此之外, 这篇博客: python tor
ModuleNotFoundError: No module named 'torch'问题 python 人工智能有问必答
2021-12-03 16:42

回答 1 已采纳意思是程序没有找到模块torch。你需要打开cmd，执行pip install torch命令。
模型训练相关
2022-03-03 14:19

今天刷leetcode了吗的博客【EMA : Exponential Moving Average】 cnblogs：...1. 用滑动平均估计局部均值 滑动平均(exponential moving average)，或者叫做指数加权平均(exponentially weighted moving average)，
cannot import name 'torch' from 'torchtools' 如何解决？ python 人工智能有问必答
2021-05-10 13:48

回答 6 已采纳非常感谢您使用有问必答服务，为了后续更快速的帮您解决问题，现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中，希望能得到您的支持与协助！速戳参与调研>>>https
No such file or directory: 'saved_model_weight/resnet34_pretrain_ori_low_torch_version.pth' python pytorch 深度学习
2022-07-13 22:40

回答 2 已采纳 FileNotFoundError: [Errno 2] No such file or directory: 'saved_model_weight/resnet34_pretrain_ori_lo
关于Torch里面的RNNCell中的Hidden_Size的一些问题。 pytorch 机器学习神经网络
2023-04-18 20:11

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 以下回答来自chatgpt: 首先，RNN是指循环神经网络，通常被用作处理序列数据的模型。可以输入任意长度的序列数据，输出相应的预测结果。在
PyTorch指数移动平均(EMA)手册
2021-02-01 22:52

没有灵魂的工具人的博客文章目录PyTorch指数移动平均(EMA)手册EMA的数学模型EMA的意义EMA的偏差修正EMA在测试阶段的优越性能PyTorch实现Reference PyTorch指数移动平均(EMA)手册指数移动平均 —— Exponential Moving Average (a.k.a ...
关于安卓部署AI，现在手上只有一个torchscript android pytorch 人工智能
2022-04-25 16:48

回答 1 已采纳自问自答，目前进度是能使用模型处理图像。首先是关于模型：torchscript模型是可以通过pytorch.jit.load直接进行导入，可以通过netron.app查看模型的结构。Android提供
滑动平均模型：使用ExponentialMovingAverage
2018-12-02 11:59

我没有那种天分的博客 #定义一个变量用于计算滑动平均，这个变量的初始值为0。 v1 = tf.Variable(0, dtype=tf.float32) #此变量模拟神经网络中的迭代的轮数，可以用于动态控制衰减率 step = tf.Variable(0, trainable=False) #定义了一个...
EMA滑动平均训练方式
2023-11-12 16:05

ZhengXinTang的博客首先该类实现，使用timm ==0.6.11 版本；目的：它旨在维护模型状态字典的移动平均值，包括参数和缓冲区。该技术通常用于训练方案，其中权重的平滑版本对于最佳性能至关重要。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月9日

悬赏问题

¥50 安装华大九天aether
¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证

torch_ema库的EMA(ExponentialMovingAverage,，指数滑动平均)使用问题

1条回答 默认 最新

问题分析与解决方案

1. 不同的decay值导致相同的验证结果

问题分析

可能原因

解决方案

2. 如何保存和加载ema_model的checkpoint

问题分析

解决方案

3. 是否有其他更方便的、兼容PyTorch的EMA方法

解决方案

总结

问题事件

悬赏问题

1条回答默认最新

1. 不同的`decay`值导致相同的验证结果

2. 如何保存和加载`ema_model`的checkpoint