多类分割损失（gt_mask和pred_mask如何对应）问题

def cross_entropy_loss(
        inputs: torch.Tensor,
        targets: torch.Tensor,
        num_masks: float,
):
    """
    Args:
        inputs: A float tensor of arbitrary shape.
                The predictions for each example.
        targets: A float tensor with the same shape as inputs. Stores the binary
                 classification label for each element in inputs
                (0 for the negative class and 1 for the positive class).
    Returns:
        Loss tensor
    """
    loss = F.cross_entropy(inputs, targets, reduction="none")
    loss = loss.mean(dim=(1, 2)).sum() / (num_masks + 1e-8)
    return loss

def dice_loss_multi_class(
    inputs: torch.Tensor,
    targets: torch.Tensor,
    num_masks: float,
    num_classes: int,
    scale=1000,  # 100000.0,
    eps=1e-6,
):
    """
    Compute the DICE loss for multi-class masks.
    Args:
        inputs: A float tensor of shape (batch_size, num_classes, height, width).
                The predictions for each example.
        targets: A long tensor of shape (batch_size, height, width). Stores the class
                 labels for each element in inputs.
        num_classes: The number of classes.
    """
    inputs = inputs.softmax(dim=1)
    loss = 0
    print("inputs.shape",inputs.shape)

    for cls in range(num_classes):
        input_cls = inputs[:, cls, ...]
        target_cls = (targets == cls).float()
        numerator = 2 * (input_cls * target_cls).sum()
        denominator = (input_cls + target_cls).sum()
        loss += 1 - (numerator + eps) / (denominator + eps)
    loss = loss / num_classes
    loss = loss.sum() / (num_masks + 1e-8)
    return loss

sorted_ids = torch.argsort(iou_predictions, dim=-1, descending=True)
# low_res_masks = torch.take_along_dim(low_res_masks, sorted_ids[..., None, None], dim=1)[:, :1]
low_res_masks = torch.take_along_dim(low_res_masks, sorted_ids[..., None, None], dim=1)

pred_mask = self.postprocess_masks(
                low_res_masks,
                orig_hw=low_res_masks.shape,
            )
            pred_masks.append(pred_mask[:, 0])
        gt_masks = masks_list
        gt_mask_cpu = gt_masks.cpu()
        num_classes = np.unique(gt_mask_cpu.numpy())
        print(gt_masks.shape)
        print(pred_mask.shape)
        # pred_mask = pred_mask.unsqueeze(1)
        print("num_classes",len(num_classes))
        if inference:
            return {
                "pred_masks": pred_masks,
                "gt_masks": gt_masks,
            }

        mask_bce_loss = 0
        mask_dice_loss = 0
        num_masks = 0
        for batch_idx in range(1):
            gt_mask = gt_masks[:, :, :, :]
            pred_mask = pred_mask

            assert (
                    gt_mask.shape[0] == pred_mask.shape[0]
            ), "gt_mask.shape: {}, pred_mask.shape: {}".format(
                gt_mask.shape, pred_mask.shape
            )
            mask_bce_loss += (
                    cross_entropy_loss(pred_mask, gt_mask, num_masks=gt_mask.shape[0])
                    * gt_mask.shape[0]
            )
            # print(self.config.num_classes)
            # exit(0)
            mask_dice_loss += (
                    dice_loss_multi_class(pred_mask, gt_mask, num_masks=gt_mask.shape[0],num_classes=len(num_classes))
                    * gt_mask.shape[0]
            )
            num_masks += gt_mask.shape[0]

        mask_bce_loss = self.bce_loss_weight * mask_bce_loss / (1 + 1e-8)
        mask_dice_loss = self.dice_loss_weight * mask_dice_loss / (1 + 1e-8)
        mask_loss = mask_bce_loss + mask_dice_loss
        loss = mask_loss
###下面是我的dataloader代码
class CustomDataset(Dataset):
    def __init__(self, root_dir, transform=None, mask_transform=None, text_transform=None):
        """
        Args:
            root_dir (str): 数据集的根目录路径。
            transform (callable, optional): 应用于图像的变换。
            mask_transform (callable, optional): 应用于掩码的变换。
            text_transform (callable, optional): 应用于文本的变换。
        """
        self.root_dir = root_dir
        self.images_dir = os.path.join(root_dir, 'images')
        self.masks_dir = os.path.join(root_dir, 'masks')
        self.texts_dir = os.path.join(root_dir, 'texts')
        self.transform = transform
        self.mask_transform = mask_transform
        self.text_transform = text_transform

        # 获取所有图像文件的名称（不包括扩展名）
        self.image_files = sorted([
            os.path.splitext(f)[0] for f in os.listdir(self.images_dir)
            if os.path.isfile(os.path.join(self.images_dir, f)) and f.lower().endswith('.jpg')
        ])

        # 确保每个图像都有对应的掩码和文本
        self.valid_files = []
        for base_name in self.image_files:
            mask_file = f"{base_name}.png"  # 掩码文件后缀为 .png
            text_file = f"{base_name}.txt"  # 文本文件后缀为 .txt

            mask_path = os.path.join(self.masks_dir, mask_file)
            text_path = os.path.join(self.texts_dir, text_file)

            if os.path.exists(mask_path) and os.path.exists(text_path):
                self.valid_files.append(base_name)
            else:
                missing = []
                if not os.path.exists(mask_path):
                    missing.append('mask')
                if not os.path.exists(text_path):
                    missing.append('text')
                missing_str = ' and '.join(missing)
                print(f"Warning: Missing {missing_str} for {base_name}")

    def __len__(self):
        return len(self.valid_files)

    def __getitem__(self, idx):
        if torch.is_tensor(idx):
            idx = idx.tolist()

        base_name = self.valid_files[idx]

        # 加载图像
        img_path = os.path.join(self.images_dir, base_name + '.jpg')  # 图像后缀为 .jpg
        image = Image.open(img_path).convert('RGB')
        image_tensor = transforms.ToTensor()(image)  # 将 PIL.Image 转换为 PyTorch 张量
        if torch.isnan(image_tensor).any():
            print(f"Warning: NaN found in image {base_name}")
            print(111111111111111111111111111111)
            exit(0)
        if self.transform:
            image = self.transform(image)

        # 加载掩码
        batch_masks_np = []
        mask_path = os.path.join(self.masks_dir, base_name + '.png')  # 掩码后缀为 .png
        mask = Image.open(mask_path).convert('L')  # 假设掩码是单通道
        print("mask.shape",mask.size)
        num_class = np.unique(mask)
        mask = torch.float32(0,len(num_class),mask.size)
        mask_one_hot = torch.nn.functional.one_hot(mask, num_classes=num_class)  # 形状为 (height, width, num_classes)
        # 调整维度顺序为 (batch_size, num_classes, height, width)
        # mask_one_hot = mask_one_hot.permute(2, 0, 1).unsqueeze(0).float()  # 添加 batch_size 维度，并转换为 float 类型
        # batch_masks_np.append(mask)
        # one_hot_masks_np = np.eye(num_class)[batch_masks_np]
        # one_hot_masks_np = one_hot_masks_np.transpose(0, 3, 1, 2)
        # one_hot_masks_tensor = torch.tensor(one_hot_masks_np, dtype=torch.float32)
        # mask = one_hot_masks_tensor
        # exit(0)
        mask_tensor = transforms.ToTensor()(mask)  # 将 PIL.Image 转换为 PyTorch 张量
        if torch.isnan(mask_tensor).any():
            print(f"Warning: NaN found in mask {base_name}")
            print(222222222222222222222222222222)
            exit(0)
        if self.mask_transform:
            print(88888888888888888888)
            mask = self.mask_transform(mask)
        else:
            mask = transforms.ToTensor()(mask)

        # 加载文本
        text_path = os.path.join(self.texts_dir, base_name + '.txt')
        with open(text_path, 'r', encoding='utf-8') as f:
            text = f.read()
        if not text:
            print(f"Warning: Empty text for {base_name}")
            print(3333333333333333333333333333333)
            exit(0)
        if self.text_transform:
            text = self.text_transform(text)

        sample = {
            'image': image,
            'mask': mask,
            'text': text,
            'name': base_name
        }
        # retun image,mask,text

        return sample

问题：我的掩码图有多类最多4类（值为0,1,2,3,0为背景），目前代码是只能支持单类分割，如何对CustomDataset进行修改，以适应多类别的分割任务，例如batchsize为4，其中一张图4类都有，另一张可能只包含2类等情况，如何对gt_mask和pred_mask进行处理并进行损失计算

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-04-10 09:12
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

问题解答

您的问题是关于多类分割损失函数（Cross-Entropy Loss）的实现，特别是关于gt_mask和pred_mask的对应关系。

在 PyTorch 中，cross_entropy_loss 函数用于计算分类损失。假设您已经定义了 inputs 和 targets 两个张量，其中 inputs 是模型的输出，targets 是真实标签。

gt_mask 和 pred_mask 是用于 mask true labels 和 predictions 的 mask 张量。它们的作用是将不相关的类别设置为 0，使得损失函数只计算相关类别的损失。

在计算损失时，您需要将 gt_mask 和 pred_mask 和 inputs 和 targets 张量相乘，然后将结果传递给 cross_entropy_loss 函数。

以下是一个示例代码：

import torch import torch.nn as nn # 假设 inputs 和 targets 是 torch.Tensor inputs = torch.randn(1, 3, 224, 224) targets = torch.randint(0, 3, (1, 224, 224)) # 创建 gt_mask 和 pred_mask gt_mask = torch.zeros_like(targets) gt_mask[targets == 0] = 1 pred_mask = torch.sigmoid(inputs) # 计算损失 loss = nn.CrossEntropyLoss()(inputs * pred_mask, targets * gt_mask)

在上面的代码中，我们首先创建了 gt_mask 和 pred_mask 张量，然后将它们和 inputs 和 targets 张量相乘。最后，我们将结果传递给 CrossEntropyLoss 函数计算损失。

注意：在实际实现中，您需要根据您的模型和数据集的具体情况进行调整。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Mask RCNN综述以及建筑物实例分割
2021-10-15 11:08

RyanC3的博客基于Mask RCNN建筑物轮廓识别摘要Mask RCNNTensorflow实现模型优化与修剪总结摘要 Mask RCNN Tensorflow实现模型优化与修剪总结
语义分割任务评价指标 Python 代码实现
2025-10-20 00:27

彬彬侠的博客 Python代码实现了多类别语义分割任务的评价指标计算，包括混淆矩阵、准确率、各类别的Precision/Recall/F1-Score、Macro F1-Score、IoU、mIoU和FWIoU。通过OpenCV读取灰度格式的Ground Truth和预测掩码图像，构建4×...
SiamMask 测试程序分析
2019-04-14 11:42

图波列夫的博客到了 SiamMask，似乎主题应该有所升华。故事的明线为跟踪器构成，暗线为训练流图。相比于 DaSiamRPN，SiamMask 不仅网络结构是现代化的，系统设计也更具匠心。这便于我们一窥其轮廓。 SiamMask/models 文件夹下...
语义分割的三点奇技淫巧
2022-04-28 10:05

小白学视觉的博客点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达来源｜Peiyuan Liao@知乎，...本人才学疏浅，就分享一些水Kaggle时看到的和用过的tricks吧，纯工程没理论，不保证一定能用hhh代...
深入详解K近邻算法（KNN）在医学图像分割质量评估中的应用与实现
2025-06-24 18:56

猿享天开的博客 K近邻算法（KNN）凭借其直观性和非参数特性，在医学图像分割质量评估中展现出独特优势。本文深入探讨了KNN在医学影像领域的应用，重点分析了其在肿瘤分割、脑部分割等场景中的评估方法。文章详细阐述了KNN的核心原理...
Paddle飞桨动态图教程——轻量级人像语义分割BiSeNet V2（算法原理、训练、部署，含完整代码和数据）
2021-02-15 16:27

钱彬（Qian Bin）的博客目录一、语义分割概述二、算法原理 2.1 BiSeNetV2算法简述 2.1.1 细节分支 2.1.2 语义分支 2.1.3 双边特征指导聚合（BGA） 2.1.4 分割头设计和增强训练策略 2.2 BiSeNetV2完整模型三、训练 3.1 准备开发环境 ...
睿智的目标检测66——Pytorch搭建YoloV8目标检测平台
2023-05-15 00:13

Bubbliiiing的博客又搞了个YoloV8，看起来似乎在抢这个名字。YoloV8所使用的主干特征提取网络主要为速度快做了一些优化：1、颈部结构使用普通的步长为2的3x3卷积。...这样做会损失一些感受野，但是可以提高模型的速度。
深度学习在图像处理领域的最新进展，以及如何利用并行计算资源加速训练过程 Deep Learning and Efficient Parallel Computing Methods
2023-08-03 01:59

程序员光剑的博客它是一种高度抽象、高度自动化的技术，可以应用于计算机视觉、自然语言处理、语音识别、生物信息等领域。与其他机器学习方法相比，深度学习通过多个隐层的神经网络结构对复杂数据进行非线性建模，并且能够高效地处理...
基于YOLOv10的全景图像分割系统设计与实现
2025-07-06 19:31

YOLO项目的博客本系统结合了YOLOv10的目标检测能力和全景分割技术，能够高效准确地识别和分割图像中的各类对象，并通过友好的用户界面提供便捷的操作体验。关键词：YOLOv10、全景分割、深度学习、计算机视觉、PyQt5。
Mask RCNN 源代码解析 (1) - 整体思路
2018-07-27 11:05

hnshahao的博客 Mask RCNN 属于 RCNN这一系列的应该是比较最终的版本，融合多种算法的思想，这里对Mask RCNN从源代码进行解析，主要写几篇文章，一个总结大的思路，其他文章整理细节。这篇文章为了简单，主要从前向传播和后向传播...
《昇思25天学习打卡营第11天|FCN图像语义分割》
2024-07-02 16:26

龙泉寺天下行走的博客 FCN主要用于图像分割领域，是一种端到端的分割方法，是深度学习应用在图像语义分割的开山之作。通过进行像素级的预测直接得出与原图大小相等的label map。因FCN丢弃全连接层替换为全卷积层，网络所有层均为卷积层，...
MaskRCNN源码解读
2019-11-09 17:49

松语编程的博客 1.2 backbone网络1.3 RPN网络1.4 ProposalLayer1.5 DetectionTargetLayer1.6 Feature Pyramid Network Heads(fpn_classifier_graph)1.7 build_fpn_mask_graph1.8损失函数1.9 总的模型2 模型的训...
图像分割涨点技巧。从39个Kaggle竞赛中总结出的分割Tips和Tricks
2022-11-21 19:44

AI Studio的博客 39点技巧可分为11大类，包括使用外部数据数据探索和直觉预处理数据增强模型结构硬件设置损失函数训练技巧评估和验证集成方法后处理（一）使用外部数据使用 LUng Node Analysis Grand Challenge 数据，...
PP-YoLoE | PP-YoLov2全面升级Anchor-Free，速度精度完美超越YoLoX和YoLov5
2022-03-29 21:30

计算机视觉研究院的博客 ATSS选取正样本的方法如下：其简要流程为：计算每个 gt bbox 和多尺度输出层的所有 anchor 之间的 IoU 计算每个 gt bbox 中心坐标和多尺度输出层的所有 anchor 中心坐标的 l2 距离遍历每个输出层，遍历每个 gt ...
医疗影像分割 | 使用MedSAM训练自己的医学图像分割数据集
2025-12-10 18:19

编程日记✧的博客摘要本文详细介绍了使用MedSAM模型训练自定义医学图像数据集的完整流程。主要内容包括：代码下载与环境配置...通过逐步指导，帮助用户快速搭建MedSAM训练环境并适配自己的医学图像数据，实现高效的分割模型训练。
Python编程：图像处理Pipeline
2025-07-01 08:41

倔强老吕的博客图像处理Pipeline是将多个图像处理步骤有序组合起来的完整流程。下面详细介绍一个典型的图像处理Pipeline的各个阶段，并提供完整的Python实现。
faster rcnn fpn_目标检测方法以及Faster-RCNN学习
2020-11-21 11:40

weixin_39786617的博客最近在进行视频行人检测优化的课题，需要进行相关领域的技术和背景调研，完成开题同时，了解相关技术，为后面的队伍的proposal和项目做准备，技术调研报告如下：一、目标检测发展1、概述Faster-RCNN相关技术发展简图...
深度学习与计算机视觉教程(14) | 图像分割 (FCN,SegNet,U-Net,PSPNet,DeepLab,RefineNet)（CV通关指南·完结）
2022-06-11 11:24

ShowMeAI的博客本文讲解了图像语义分割的定义，常见应用（自动驾驶、医学影像诊断），评估指标（mIoU、mAcc），典型语义分割算法等【对应 CS231n Lecture 11】
word2vec模型评估_NLP之文本分类：TfIdf、Word2Vec和BERT三种模型比较
2020-11-27 22:55

weixin_39949673的博客 NLP(自然语言处理)是人工智能的一个领域，它研究计算机和人类语言之间的交互作用，特别是如何通过计算机编程来处理和分析大量的自然语言数据。NLP常用于文本数据的分类。文本分类是指根据文本数据内容对其进行分类的...
第九章：AI大模型的实践案例9.2 医疗领域9.2.1 病例分析与辅助诊断
2024-01-30 01:37

程序员光剑的博客医疗资源的分配不均、诊断错误和治疗延误等问题严重影响着患者的健康和生活质量。与此同时，医学知识的快速增长使得医生难以及时掌握所有最新研究成果和治疗方法。在这样的背景下，利用人工智能技术，特别是AI大模型...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月10日

多类分割损失（gt_mask和pred_mask如何对应）问题

5条回答 默认 最新

问题事件

5条回答默认最新