mini_batch批量训练问题

累积多个样本和大批量样本训练结果应该一致的，但是实际的累积的不能正常训练（loss不下降），大批量样本可以正常训练（正常收敛）。网络中已经注释掉了BatchNorm。是因为优化器的原因吗？

#累积600个样本
#batch_size=1
def Train_batch(self,epoch):
        self.net.train()
        
        loss_ = 0
        self.optim.zero_grad()

        for i,(data, label) in enumerate(self.train):
            data = data.cuda() if tr.cuda.is_available() else data
            label = label.cuda() if tr.cuda.is_available() else label
            
            _,prediction = self.net(data)
            loss = train.compute_loss(prediction, label)   

            loss.backward()   #计算梯度

            if (i+1)%600 == 0:
                for param in self.net.parameters():
                    if param.grad is not None:
                        param.grad /= 600  
                #更新参数
                self.optim.step()
                self.optim.zero_grad()
            loss_ +=  loss.item()
        
        return loss_ / len(self.train)  # 计算epoch内 loss 的均值

#batch_size=600
 def Train_batch(self,epoch):
        self.net.train()
        loss_ = 0
        batch_count = 0  # 记录批次数量
        for data, label in self.train:
            data = data.cuda() if tr.cuda.is_available() else data
            label = label.cuda() if tr.cuda.is_available() else label
            self.optim.zero_grad()
            
            _,prediction = self.net(data)
            
            loss = train.compute_loss(prediction, label)  
         
            loss.backward()   #计算梯度
            self.optim.step()  #更新参数

            loss_ = loss_ + loss.item()
            batch_count += 1  # 统计 batch 数量
        return loss_ / batch_count  # 计算 loss 的均值

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
道友老李 JWE233286一种基于机器视觉的水表指针读数识别及修正的方法专利发明者 2025-03-22 22:49
关注
让【道友老李】来帮你解答，本回答参考gpt编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。
如果答案让您满意，请采纳、关注，非常感谢！
这个问题可能是由于在累积样本时未正确更新梯度造成的。在第一个代码段中，每累积600个样本就对参数进行一次梯度更新，但是在更新前并没有将累积的梯度除以累积的样本数量600。因此，导致每次对参数更新的梯度过大，无法正常训练。你可以尝试在累积样本的代码段中将参数梯度除以累积的样本数量600，即在`self.optim.step()`前进行梯度的更新操作。代码示例：
if (i+1)%600 == 0: for param in self.net.parameters(): if param.grad is not None: param.grad /= 600 self.optim.step() self.optim.zero_grad()

这样做可以保证每次梯度更新时梯度的大小合适，可能解决你遇到的问题。如果问题仍然存在，可以尝试调整学习率等优化器的超参数，以提高模型的训练效果。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【深度学习】mini-batch训练思想及方法
2024-07-29 15:57

黑白交界的博客如果面临过拟合问题，则可以考虑减小batch size，同时注意监测训练和验证的损失曲线，以便找到最佳的batch size。使用mini-batch训练的主要原因是它结合了全批量训练和随机梯度下降的优点，能够在加速收敛的同时提高...
Mini-batch在强化学习中的应用
2025-03-22 20:32

xyd_biang的博客 Mini-batch 是深度学习和强化学习中一种常用的训练技术，用于在每次优化时使用一小部分数据（而不是全部数据）来更新模型参数。
深度学习_mini-batch实现&评价_详解
2019-07-22 19:23

AI 黎明的博客 mini-batch是在训练数据中随机选择小批量的数据，进行深度学习找到合适权重值。主要步骤： 1.每次从6万多张MNIST数据集图片中挑选100张图片 2.计算梯度 3.根据梯度更新参数 4.如果数据经过一个epoch，则计算识别...
【深度学习基础】第十五课：mini-batch梯度下降法
2025-03-09 19:49

x-jeff的博客 2.1.BGD、SGD、MBGD 假设训练集的数据量为m：当mini-batch size=m时，称之为批量梯度下降法(batch gradient descent)。即之前提到的batch梯度下降法，可简称BGD。当mini-batch size=1时，称之为随机梯度下降法...
大模型基础：VeRL框架强化学习Batch Size全解析，从入门到精通！
2025-10-18 10:52

AI大模型-王哥的博客 VeRL框架中的强化学习流程...(4)参数更新批量（ppo_mini_batch_size）；(5)梯度计算微批量（ppo_micro_batch_size_per_gpu）。这些参数通过分层设计（如8卡并行时全局生成4096样本）和梯度累积策略，平衡显存占用与训
批量重整化：减少批量规范化模型中的小批量依赖Batch Renormalization: Towards Reducing Minibatch Depe.pdf
2021-06-28 22:58

批量规范化对加速和改进深部模型的训练是非常有效的。但是，当训练小批量或不包含独立样本时，其有效性会降低。我们假设这是由于模型层对小批量中所有示例的依赖性，以及在训练和推理之间产生的不同激活。提出了批量...
神经网络里的mini-batch算法.zip
2023-08-28 09:55

在神经网络的学习与实践中，Mini-Batch梯度下降算法是一种广泛应用的优化策略，它结合了批量梯度下降和随机梯度下降的优点。批量梯度下降每次迭代更新权重时使用整个训练集，计算精确但效率较低；而随机梯度下降则...
【优化算法01】Batch，MiniBatch和随机梯度下降原理
2024-10-22 21:35

贝与贝的博客给定一个包含 n 个样本的数据集，批量梯度下降的每次更新步骤是基于所有训练数据计算的。与传统的梯度下降算法不同，随机梯度下降中每次更新都是基于一个随机选取的样本。是对 n 个样本的梯度。
【深度学习】小批量随机梯度下降（Mini-batch SGD）
2025-03-21 22:12

冰冷的bin的博客每次只用 1 个数据，比如只看学生 A 的数据调整参数，但噪声太大，像闭着眼睛乱跳，可能跳错方向。：每次计算都用全部 1000 个数据，计算量...假设你要训练一个模型，根据学生的"学习时间"和"刷题数量"预测"考试分数"。
深度学习中的批处理vs小批量训练
2025-07-10 18:47

老贾的AI世界的博客在每个训练步骤中，整个数据集会被一次性输入到模型中，这一过程称为批处理（又称全批量梯度下降）。图3 深度训练中的批处理使用整个数据集来计算梯度。每个epoch仅包含一次前向传播和反向传播。内存占用率高。每个...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月22日

mini_batch批量训练问题

4条回答 默认 最新

问题事件

4条回答默认最新