导师让训练数据集，但是原图和标注图在一起，怎么办呢

毕设让mask一下但是不太能掌握，能教教吗，因为我本科是电信的，所以深度学习也是这学期刚接触不太理解这个原理

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

12条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-13 19:33
关注
引自免费微信小程序：皆我百晓生

首先，很高兴您向我求助关于深度学习中如何处理合并在一起的原图与标注图（即MASK）的问题。在您的情况下，您需要将原图与标注图分离，并基于标注图中的色块信息创建MASK。以下是针对您的问题所提出的详细解决方案：

步骤一：分离原图与标注图

由于您提到原图和标注图已经合并在一起，第一步需要将它们分开。通常，标注图会以特定颜色或颜色通道表示不同类别的区域。假设标注图使用了某个特定颜色（例如红色）来标记感兴趣的区域，您可以利用色彩空间转换和阈值处理来分离出标注部分。

import cv2 import numpy as np # 加载合并后的图片 merged_img = cv2.imread('merged_image.png') # 将图片从BGR色彩空间转换到HSV色彩空间，便于根据颜色进行分离 hsv_img = cv2.cvtColor(merged_img, cv2.COLOR_BGR2HSV) # 定义红色在HSV色彩空间的范围（这里仅作示例，您可能需要根据实际标注颜色调整） lower_red = np.array([0, 50, 50]) upper_red = np.array([10, 255, 255]) # 创建一个掩码，其中标注区域为白色，其余区域为黑色 mask = cv2.inRange(hsv_img, lower_red, upper_red) # 分离原图和标注图 original_img = merged_img.copy() annotated_img = cv2.bitwise_and(original_img, original_img, mask=mask)

步骤二：创建MASK（二值图）

现在已经分离出标注图，接下来可以将其转化为二值MASK。假设标注图中的感兴趣区域为单一颜色，可直接对分离出的标注图进行阈值处理得到MASK：

# 对分离出的标注图应用全局阈值，生成二值MASK _, binary_mask = cv2.threshold(annotated_img, 127, 255, cv2.THRESH_BINARY) # 保存MASK以便后续使用 cv2.imwrite('binary_mask.png', binary_mask)

步骤三：准备训练数据集

至此，您已经成功地从合并的原图中提取出了二值MASK。接下来，按照深度学习模型所需的数据格式组织训练数据集。通常，深度学习模型的训练数据集包含多个样本对，每个样本对由一张原图及其对应的MASK组成。您可以按照以下方式构建数据集：

import os import glob def build_dataset(input_dir, output_dir): # 收集所有合并的原图文件路径 merged_img_paths = glob.glob(os.path.join(input_dir, '*.png')) for img_path in merged_img_paths: # 分离原图与标注图 # ... (此处重复步骤一的操作) # 生成并保存MASK # ... (此处重复步骤二的操作) # 将原图与MASK文件路径分别保存至两个列表，用于构建数据集 original_img_list.append(os.path.abspath(original_img)) mask_list.append(os.path.abspath(binary_mask)) # 调用函数构建数据集 build_dataset('input_directory', 'output_directory')

以上代码示例展示了如何从合并的原图中分离出标注图并生成二值MASK，以及如何构建深度学习所需的训练数据集。请根据实际情况调整代码中的参数和文件路径。如果您遇到任何问题或需要进一步的帮助，请随时告知。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【AI产业链拆解】深入浅出数据标注：解锁大模型训练的钥匙（值得收藏）
2025-09-13 15:37

大模型入门教程的博客数据标注是AI产业链的核心环节，为AI模型提供训练"教材"。它经历了从简单"贴标签"到复杂全流程服务的转变，在AI不同阶段（预训练、强化学习、应用）有不同要求。行业正向自动化、专业化方向发展，从2D到3D/4D标注，...
北京智源研究院发布史上最强双语预训练数据集：35TB的“神级数据库“让AI推理能力飞跃
2025-06-12 16:17

至顶头条的博客而北京智源研究院这次发布的CCI4.0数据集，就像是为AI孩子准备了一个包含35万...最终的结果证明，用这个数据集训练出来的AI模型，在各种推理任务上的表现都有了显著提升，特别是在数学问题和代码分析方面更是表现突出。
【pytorch图像视觉】lesson17(上)数据篇：认识经典数据+使用自己的数据/图片创造数据集+图片数据的基本与处理与数据增强
2025-04-13 17:06

斯外戈的小蜗的博客在传统机器学习中，通常会区分有监督、无监督、分类、回归、聚类等人物类别，在不同的任务重会指向不同形式的标签、不同的评估指标、不同的损失函数，这些内容会影响我们的训练和建模流程。在深度视觉以外，除了区分...
关于VehicleID数据集的请求下载问题，如何解决？
2025-06-04 20:35

bug菌¹的博客本文收录于《全栈Bug调优(实战版)》专栏，致力于分享我在项目实战过程中遇到的各类Bug及其原因，并提供切实有效的解决方案。无论你是初学者还是经验丰富的开发者，本文将为你指引出一条更高效的Bug修复之路，助你...
16个车辆信息检测数据集收集汇总（简介及链接）
2021-03-22 11:27

等待破茧的博客 16个车辆信息检测数据集收集汇总（简介及链接) 转载自：https://blog.csdn.net/u014546828/article/details/109089621?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_baidulandingword-1&spm=1001...
110_微调数据集标注：众包与自动化
2025-10-02 08:58

安全风信子的博客在大语言模型（LLM）的微调过程中，高质量的标注数据是模型性能提升的关键因素。随着模型规模的不断扩大和应用场景的日益多样化，如何高效、准确地创建大规模标注数据集成为了研究者和工程师面临的重要挑战。众包与...
AI架构师的教育公平技术全景图
2025-07-28 13:07

光子AI的博客在云南大山深处的一所小学，五年级学生小花每天最期待的是平板电脑上的"数学小老师"——这个AI系统能听懂她带着方言的提问，用她熟悉的农作物举例讲解分数；而在北京的一所重点小学，学生小明正通过AR系统观察三维...
香港大学团队打造“机器人眼中的世界“：让AI学会像人类一样探索和思考
2025-07-22 22:35

至顶AI实验室的博客由于数据集包含了大量的人类示范和AI生成的推理标注，确保数据的一致性和高质量成为了一个重要问题。这个阶段的工作就像是一个经验丰富的老师，根据学生当前的位置和能看到的东西，为他们设计合适的练习题。研究团队...
送你100+NLP数据集！数据科学需要的数据都在这里
2018-10-27 23:31

老野_的博客本文转载一个来自学堂在线的关于数据科学的资源整理，方便大家共同学习。 ... 文内容由学堂在线的课程助教于延涛整理，方便大家在数据科学学习过程中查找数据... 第一部分：80+国内外常用的数据集，适合中、高级的...
人工智能三大技术路线的发展历程和基本原理，看完肯定明明白白的！
2025-06-12 00:13

人机与认知实验室的博客从1956年达特茅斯会议确定人工智能这一研究方向，到今天如火如荼的大模型，从应用的角度来看，人工智能技术在这近70年的时间里取得不小的进步，从概念走向了实际应用，从不好用到好用，更重要的是。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 4月13日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月13日

导师让训练数据集，但是原图和标注图在一起，怎么办呢

12条回答 默认 最新

问题事件

12条回答默认最新