有哪个损失函数可以单纯的计算两个张量（图像）之间的误差，并且不要求Height和Width维度相同？或者有哪个方法可以重塑（扩展）需要计算梯度的张量？

在做时间序列预测 / 未来帧预测的时候，我遇到了一个问题，那就是从NN输出的我预测的图像（比如第0.1秒的帧）和原本第0.1的真实图像做loss计算时，我不知道该如何选择损失函数。我尝试了2种损失函数：MSELoss和CrossEntropy，但都会出现问题，下面是具体情况：

我的训练代码


```python
    for epoch in range(50):
        print('epoch {}'.format(epoch + 1))
        train_loss = 0.
        train_acc = 0.
        for batch_Group, batch_target in train_loader:
            for Group, target in zip(batch_Group, batch_target):
                inputs_20, target_1 = Variable(Group).cuda(), Variable(target).cuda()
                prediction = model(inputs_20)
                print(prediction.shape)
                print(target_1.shape)

                for i in range(BATCH_SIZE):
                    print(prediction[i].shape)
                    print(target_1.shape)
                    loss = loss_func(prediction[i], target_1)
                    optimizer.zero_grad() 
                    loss.backward()  # 计算梯度/反向传播
                    optimizer.step()  # 更新网络参数

我的预测帧是【 3， 684，76】，原图像的帧是【3，686，76】

在我尝试第一种nn.CrossEntropy时，遇到了一个报错

我理解报错原因，预测帧作为input的【3， 684，76】分别代表batch_size、number of classes 和图像维度

如果要计算，target只允许有2个维度（我的pytorch是1.9.1），分别是batch_size 和图像维度

但我并不是做图像分类，我只是做图像预测，没有类别可言，更没有类别的可能性之言，所以我无法使用Crossentropy

在我尝试第二种nn.MSELoss时，遇到的报错是：

同样，我也理解报错原因，因为维度不相同

并且我还知道pytorch的 broadcasting机制，如果我的target是【3】或者【3，1，1】，我也可以解决这个bug，但我觉得这会影响我的误差计算

所以我现在需要一个损失函数，可以单纯的计算两张图像之间的误差（可以是像素级的差异），并且不要求Height和Width完全一致，也就是【channels，H，W】中的H和W

或者，你也可以告诉我如何将NN输出的【3，672，64】通过某个tensor的方法扩展为【3，686，76】，因为我使用其他扩展tensor的方法不可以。比如reshape会告诉我元素数不够，expand会告诉我只能扩展起始维度为1。而tensor.resize_又告诉我计算梯度的张量不可以重塑！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

Pytorch常用函数用法归纳:Tensor张量之间的计算
2024-06-04 17:56

Stay Peace的博客【代码】Pytorch常用函数用法归纳:Tensor张量之间的计算。
图像处理：张量分解在图像处理领域的应用
2023-08-16 09:55

光子AI的博客随着计算机视觉和图像处理技术的快速发展,图像数据呈现出高维、多模态、海量等特点。传统的矩阵分解方法已经无法有效处理这些复杂的图像数据。张量分解作为一种高阶矩阵分解方法,可以很好地捕捉图像数据的高维结构...
图像增强任务中的常用损失函数
2025-09-10 20:29

小贝老师牛！的博客这段代码是一个优秀的基础设施代码（Infrastructure Code）范例，它通过高阶函数（装饰器）和模块化设计，将通用逻辑与特定逻辑分离。清晰的分层结构处理最基础的归约。在基础归约上增加了加权功能。装饰器提供最...
Pytorch中张量维度的定义
2024-09-23 21:41

倾卿574的博客在 PyTorch 中，张量的维度有一个标准的约定，特别是用于图像处理任务时（例如卷积神经网络）。通常输入张量的形状是batch_sizechannelsheightwidth。
TensorFlow调整张量维度的详细方法教程
2025-09-13 22:54

代码漫叙的博客 TensorFlow张量维度操作指南：涵盖了reshape、expand_dims、squeeze、transpose等核心方法，用于调整数据形状、增减维度、交换维度顺序等。通过代码示例展示了各种操作的实际应用，并比较了不同方法的区别与适用场景...
计算机视觉卷积神经网络CNN架构设计指南：如何构建高效的视觉模型？
2025-04-20 15:25

xcLeigh的博客构建一个高效的 CNN 视觉模型，不仅需要对其基本原理有深入理解，还需要掌握一系列架构设计技巧。本文将详细探讨如何构建高效的 CNN 视觉模型，涵盖从基础概念到复杂架构设计的各个方面，并通过丰富的代码示例帮助...
【机器学习】图像和张量的关系
2024-09-12 16:56

渣渣灰和古天罗的博客张量是多维数组的一个通用术语，它可以是一维的向量、二维的矩阵，也可以是更高维度的数组。在深度学习框架中，张量通常用于表示数据集，它支持高效的数值运算。
pytorch图像和张量的相互转换_使用PyTorch进行图像风格转换
2020-12-22 12:51

weixin_39600331的博客 Neural-Style或者叫Neural-Transfer，可以让你使用一种新的风格将指定的图片进行重构。这个算法使用三张图片，一张输入图片，一张内容图片和一张风格图片，并将输入的图片变得与内容图片相似，且拥有风格图片的优美...
tensorflow 利用expand_dims和squeeze扩展和压缩tensor维度方式
2020-12-20 17:40

本文将详细讨论如何使用`tf.expand_dims`和`tf.squeeze`这两个操作来扩展和压缩Tensor（张量）的维度。首先，让我们了解`tf.expand_dims`函数。这个函数的主要作用是在指定的位置插入一个新的维度，其形状为1。这...
【图像去噪】论文复现：新手入门必看！DnCNN的Pytorch源码训练测试全流程解析！为源码做详细注释！补充DnCNN-B和DnCNN-3的模型训练和测试！附各种情况下训练好的模型权重文件！
2024-08-12 11:05

十小大的博客 - 以官方Pytorch源代码为基础，在DnCNN-S的基础上，增添DnCNN-B/CDnCNN-B、DnCNN-3模型训练和测试复现，代码注释非常详细，无论是科研还是应用，新手小白都能看懂，学习阅读毫无压力，去噪入门必备，适用于去噪、...
pytorch常用的几个函数详解
2023-12-23 08:18

AI浩的博客 view()是 PyTorch 中的一个常用函数，用于改变张量（tensor）的形状。在深度学习中，我们经常需要调整数据的形状以适应不同的网络结构或计算需求，view()函数就是用来完成这个任务的。
【图像超分】论文复现：新手入门！Pytorch实现SRCNN，数据预处理、模型训练、测试、评估全流程详解，注释详细，简单修改就可以训练你自己的图像数据，有训练好的模型下载地址，随取随用
2024-03-11 11:10

十小大的博客图像超分辨率SRCNN和FSRCNN复现代码，除基本的网络实现外，还有特征图可视化，PSNR曲线图可视化，测试自己的图像数据等不想理解原理，希望直接跑通然后应用到自己的图像数据的同学，请直接下载上面的代码，有训练好...
nn.LayerNorm()：对输入张量的最后一个维度（特征维度）进行归一化
2025-04-21 16:13

asdfg1258963的博客 nn.LayerNorm()：对输入张量的最后一个维度（特征维度）进行归一化
Pytorch中expand()和repeat()函数使用详解和实战示例
2025-07-03 18:07

点云SLAM的博客特性expand()repeat()是否复制内存❌ 否，仅创建视图✅ 是，真正复制数据是否支持...tile 模式张量、数据重复场景操作函数原因expand()避免内存复制，适合广播掩码图像 tile 复制repeat()必须真实复制图像内容expand。
【AI面试】分类损失横评：CrossEntropy Loss 、Balanced Cross Entropy、 Dice Loss 和 Focal Loss
2023-05-24 14:32

钱多多先森的博客分类损失学习汇总
深度学习-Softmax回归+损失函数+图像分类数据集
2024-05-24 20:44

Einstein·Jun的博客回归估计一个连续值分类预测一个离散类别例如： MNIST：手写数字识别（10类）ImageNet：自然物体分类（1000类）将人类蛋白质显微镜图片分为28类将恶意软件分为9个类别将恶意的Wikipedia评论分成7类单连续数值...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月23日

有哪个损失函数可以单纯的计算两个张量（图像）之间的误差，并且不要求Height和Width维度相同？或者有哪个方法可以重塑（扩展）需要计算梯度的张量？

我的训练代码

我的预测帧是【 3， 684，76】，原图像的帧是【3，686，76】

在我尝试第一种nn.CrossEntropy时，遇到了一个报错

我理解报错原因，预测帧作为input的【3， 684，76】分别代表batch_size、number of classes 和 图像维度

在我尝试第二种nn.MSELoss时，遇到的报错是：

同样，我也理解报错原因，因为维度不相同

并且我还知道pytorch的 broadcasting机制，如果我的target是【3】或者【3，1，1】，我也可以解决这个bug，但我觉得这会影响我的误差计算

所以我现在需要一个损失函数，可以单纯的计算两张图像之间的误差（可以是像素级的差异），并且不要求Height和Width完全一致，也就是【channels，H，W】中的H和W

0条回答 默认 最新

问题事件

我理解报错原因，预测帧作为input的【3， 684，76】分别代表batch_size、number of classes 和图像维度

0条回答默认最新