使用了剪裁还是梯度爆炸该怎么解决？


def main():
    args = parser.parse_args()
    input_dir = args.input_dir
    total_epoch = args.epochs
    patch_size = args.patch_size
    batch_size = args.batch_size
    num_workers = args.num_workers
    
    trainable_set = True
    model = Model(trainable_set)
    model.to('cuda:0')
    epoch = 1
    train_data = ImageFolder(root=input_dir, transform=transforms.Compose(
        [
            transforms.RandomCrop(patch_size),
            transforms.ToTensor(),
        ]
    ))


    train_loader = DataLoader(train_data, batch_size=batch_size, shuffle=True, num_workers=num_workers)
    opt = optim.Adam(model.parameters(), lr=1e-5)

    while True:
        if epoch > total_epoch:
            break
        model.train()

        pbar = tqdm(train_loader)
        for input_img, _ in pbar:
            opt.zero_grad()

            ori_img=to_variable(input_img)


            loss,recon_img = model(ori_img, wavelet_trainable=1, coding=0)

            loss.requires_grad_(True)
            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 5.0, norm_type=2)

            opt.step()
            pbar.set_description("Processing %s" % loss.item())
        epoch = epoch + 1
        print(loss)

得到的损失也很奇怪

Processing 0.23131124675273895:   0%|          | 1/200 [00:02<09:51,  2.97s/it]tensor(0.2313, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.1524205356836319:   1%|          | 2/200 [00:03<05:28,  1.66s/it]tensor(0.1524, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.06570276618003845:   2%|▏         | 3/200 [00:04<04:13,  1.29s/it]tensor(0.0657, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.11781097948551178:   2%|▏         | 4/200 [00:05<03:42,  1.14s/it]tensor(0.1178, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.10447573661804199:   2%|▎         | 5/200 [00:06<03:38,  1.12s/it]tensor(0.1045, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.07497256249189377:   3%|▎         | 6/200 [00:07<03:24,  1.05s/it]tensor(0.0750, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.08797897398471832:   4%|▎         | 7/200 [00:08<03:17,  1.02s/it]tensor(0.0880, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.09975536912679672:   4%|▍         | 8/200 [00:09<03:14,  1.01s/it]tensor(0.0998, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.06214721128344536:   4%|▍         | 9/200 [00:10<03:14,  1.02s/it]tensor(0.0621, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.03598678484559059:   5%|▌         | 10/200 [00:11<03:13,  1.02s/it]tensor(0.0360, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.06032150983810425:   6%|▌         | 11/200 [00:12<03:04,  1.03it/s]tensor(0.0603, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.05920260399580002:   6%|▌         | 12/200 [00:13<03:09,  1.01s/it]tensor(0.0592, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.047266583889722824:   6%|▋         | 13/200 [00:14<03:01,  1.03it/s]tensor(0.0473, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.06426531076431274:   7%|▋         | 14/200 [00:15<02:54,  1.06it/s]tensor(0.0643, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.08503642678260803:   8%|▊         | 15/200 [00:16<02:58,  1.04it/s]tensor(0.0850, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.07649430632591248:   8%|▊         | 16/200 [00:17<03:11,  1.04s/it]tensor(0.0765, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.055424176156520844:   8%|▊         | 17/200 [00:18<03:19,  1.09s/it]tensor(0.0554, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.026697305962443352:   9%|▉         | 18/200 [00:19<03:21,  1.11s/it]tensor(0.0267, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.04741383716464043:  10%|▉         | 19/200 [00:20<03:17,  1.09s/it]tensor(0.0474, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.05615292116999626:  10%|█         | 20/200 [00:22<03:21,  1.12s/it]tensor(0.0562, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.08515559136867523:  10%|█         | 21/200 [00:23<03:13,  1.08s/it]tensor(0.0852, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.04595249891281128:  11%|█         | 22/200 [00:23<03:06,  1.05s/it]tensor(0.0460, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.05469346046447754:  12%|█▏        | 23/200 [00:25<03:10,  1.08s/it]tensor(0.0547, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.0492982491850853:  12%|█▏        | 24/200 [00:26<03:06,  1.06s/it]tensor(0.0493, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.044051021337509155:  12%|█▎        | 25/200 [00:27<03:01,  1.04s/it]tensor(0.0441, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.024460002779960632:  13%|█▎        | 26/200 [00:28<03:04,  1.06s/it]tensor(0.0245, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.0649680346250534:  14%|█▎        | 27/200 [00:29<02:54,  1.01s/it]tensor(0.0650, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.15364143252372742:  14%|█▍        | 28/200 [00:30<02:52,  1.00s/it]tensor(0.1536, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.1933668553829193:  14%|█▍        | 29/200 [00:31<02:52,  1.01s/it]tensor(0.1934, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.2110283076763153:  15%|█▌        | 30/200 [00:32<02:47,  1.02it/s]tensor(0.2110, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.22534942626953125:  16%|█▌        | 31/200 [00:33<02:48,  1.00it/s]tensor(0.2253, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.1966424435377121:  16%|█▌        | 32/200 [00:34<02:55,  1.04s/it]tensor(0.1966, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.13029730319976807:  16%|█▋        | 33/200 [00:35<02:58,  1.07s/it]tensor(0.1303, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.03669431805610657:  17%|█▋        | 34/200 [00:36<02:58,  1.08s/it]tensor(0.0367, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.12538409233093262:  18%|█▊        | 35/200 [00:37<02:53,  1.05s/it]tensor(0.1254, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.07871457934379578:  18%|█▊        | 36/200 [00:38<02:57,  1.08s/it]tensor(0.0787, device='cuda:0', grad_fn=<MseLossBackward0>)
Processing 0.1417844593524933:  18%|█▊        | 37/200 [00:39<02:52,  1.06s/it]tensor(0.1418, device='cuda:0', grad_fn=<MseLossBackward0>)

我已经尝试了将学习率调小，使用了剪裁，但还是训练了几个epoch之后梯度爆炸

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-10-12 21:11
关注
【相关推荐】

这个问题的回答你可以参考下: https://ask.csdn.net/questions/1064854
这篇博客你也可以参考下：深度学习中关于epoch的几个词汇的理解
除此之外, 这篇博客: 迁移学习应用中的 最后一步是为模型设置损失，然后对设定的epoch数运行训练和验证函数。 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

请注意，取决于epoch 的数量，此步骤在CPU上可能需要执行一段时间。此外，默认的学习率对所有模型都不是最佳的，因此为了获得最大精度，有必要分别调整每个模型。

# 设置损失函数 criterion = nn.CrossEntropyLoss() # Train and evaluate model_ft, hist = train_model(model_ft, dataloaders_dict, criterion,optimizer_ft, num_epochs=num_epochs, is_inception=(model_name=="inception"))

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Android File.createTempFile 是在file被使用完就自动删除了吗？ android android-studio java
2019-08-10 19:17

回答 2 已采纳 createTempFile()就是创建临时文件啊，顾名思义程序退出后文件是会被删除的。
open CV人脸剪裁 python 机器学习
2021-05-30 12:16

回答 2 已采纳 import cv2 # 读取文件 image = 'C:\\Users\86199\Desktop\OCP.jpg' model = 'C:\\Users\86199\Downloads\ope
使用PHP解码时，来自cropit的Base64图像将被剪裁 javascript jquery php
2016-02-01 09:42

回答 2 已采纳 The data URI scheme that the export function is using as size limitations (depending on the browse
7. 2 如何解决梯度爆炸的问题？
2023-09-07 21:00

轨迹的路口的博客使用激活函数：权重初始化：批量归一化（Batch Normalization）：梯度剪裁（Gradient Clipping）：减小学习率（Learning Rate Scheduling）：使用更小的模型：使用梯度稳定的优化算法：增加训练数据：使用梯度检验：
Android怎么提取图片里的二维码部分？ android
2020-10-30 18:50

回答 1 已采纳 https://blog.csdn.net/bzlj2912009596/article/details/71513948
DuiLib界面库中控件圆角半径有锯齿，怎么使用GDI+改善啊？
2016-07-11 15:27

回答 2 已采纳 dc->SetSmoothingMode(Gdiplus::SmoothingModeHighQuality); http://blog.csdn.net/pjl1119/article/
身份证上传之后变成身份证的照片，用vue怎么做呢？ javascript vue.js 前端框架
2022-07-25 21:27

回答 7 已采纳上传预览吧只有点击提交才会执行上传。element-upload 有类似的https://element.eleme.cn/#/zh-CN/component/upload#wen-jian
如何确定是否出现梯度爆炸？
2023-08-08 15:45

海洋之心的博客 梯度爆炸是指在深度神经网络的训练过程中，反向传播计算得到的梯度值变得异常地巨大，导致权重更新变得非常大，甚至超出数值范围，从而引发数值不稳定性和训练不稳定性的问题。梯度爆炸通常发生在较深层次的网络中，...
为什么在pytorch中使用VGG16不用预训练，自己从头训练猫狗分类，正确率只有74%就上不去了？ pytorch 深度学习神经网络
2021-10-21 23:53

回答 1 已采纳官方pretrain的模型数据集是imagenet，样本数是你这个数据集的很多倍，这样的vgg网络卷积层的参数基本收敛到比较好的一个情况，你直接用来finetune只要稍微微调一下最后的fc层就可以得
iphone中剪裁图片之后会旋转 iphone
2013-01-22 06:48

回答 1 已采纳坐标系不同. UIView是已左上角为0,0坐标. CG开头的函数是使用正常的坐标系,也就是左下角为0,0的. 我就不给你改代码了,你要么重新设计剪裁时0,0坐标的统一. 要么你就操作
剪裁图片导致图片向左旋转 ios iphone objective-c xcode
2013-04-22 03:05

回答 2 已采纳如楼上所说的可能是imageOrientation属性的问题。并且你也没有正确保存scale。这样创建剪裁的图片： CGImageRef croppedRef = CGBitma
如何解决梯度消失和梯度爆炸？
2023-08-08 15:40

海洋之心的博客在反向传播过程中，梯度...梯度爆炸问题通常出现在具有较深层次的神经网络中，特别是在网络的层数较多时，由于梯度在反向传播过程中要乘以每一层的权重，如果这些权重较大，梯度就会不断增大，可能会引发梯度爆炸问题。
iphone关于图片的剪裁问题 ios iphone objective-c
2013-03-18 02:29

回答 2 已采纳创建一个UIImage： @implementation UIImage (Crop) - (UIImage *)crop:(CGRect)cropRect
LeNet试验（三）深入理解梯度消失/梯度爆炸及解决办法（激活函数、梯度剪裁、BN层、ResNet）
2021-01-10 14:17

Brikie的博客本文通过数据试验分析梯度消失和梯度爆炸的原因并分析各种常用解决方案的效果。梯度消失/爆炸是困扰深度神经网络的大问题，ResNet和BatchNormalization的原理在网上已有不少文章介绍，但是从文章的跟帖评论中可以...
NNDL 实验七循环神经网络(2)梯度爆炸实验
2022-11-24 17:03

白小码i的博客 NNDL 实验七循环神经网络(2)梯度爆炸实验
7. 梯度爆炸相关问题
2023-09-08 15:03

轨迹的路口的博客 梯度爆炸是深度学习中的一种问题，它发生在反向传播过程中，导致梯度值变得非常大，从而使模型的权重参数大幅度更新，通常是指梯度值超过了计算机的数值范围，造成数值不稳定。梯度爆炸通常出现在深层神经网络中，...
如何解决RNN中的梯度消失问题？
2023-08-08 21:05

海洋之心的博客设置一个梯度范数的阈值，在反向传播过程中，如果梯度的范数超过了阈值，就对梯度进行缩放，从而避免梯度爆炸问题，同时也有助于缓解梯度消失问题。将批量标准化应用于RNN的输入数据，可以减少梯度消失问题。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 10月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月12日

悬赏问题

¥15 phython如何实现以下功能？查找同一用户名的消费金额合并—
¥15 孟德尔随机化怎样画共定位分析图
¥18 模拟电路问题解答有偿速度
¥15 CST仿真别人的模型结果仿真结果S参数完全不对
¥15 误删注册表文件致win10无法开启
¥15 请问在阿里云服务器中怎么利用数据库制作网站
¥60 ESP32怎么烧录自启动程序
¥50 html2canvas超出滚动条不显示
¥15 java业务性能问题求解(sql，业务设计相关)
¥15 52810 尾椎c三个a 写蓝牙地址

使用了剪裁还是梯度爆炸该怎么解决？

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新