x2849209890 2025-05-07 17:38 采纳率: 0%

图片是url的格式，数据集应该怎么制作

我的图片是用url格式传入的

[ {
  "id" : "2500010_1",
  "conversations" : [ {
    "from" : "user",
    "value" : "FabricDesign Yes: <|vision_start|>https://deti.cn-sh2.ufileos.com/PC%2F9db094a2-2e8c-4fa1-b931-50f9e25c9c98.png?UCloudPublicKey=TOKEN_696b1902-38dd-411f-b9f6-18c454ec200c&Signature=x4SPImsAbXI3EctpIQwYKu2ZfnM%3D&Expires=1746687410<|vision_end|>"
  }, {
    "from" : "assistant",
    "value" : "女生-上衣，型号：2500010，颜色：深灰，质量等级：合格品，服务类型：打版+采购+生产，生产类型：包工包料"
  } ]
}, {
  "id" : "2500010_2",
  "conversations" : [ {
    "from" : "user",
    "value" : "FabricDesign Yes: <|vision_start|>https://deti.cn-sh2.ufileos.com/PC%2F5c21c566-d60d-4679-9d0b-9423d00f585f.png?UCloudPublicKey=TOKEN_696b1902-38dd-411f-b9f6-18c454ec200c&Signature=WxAMVLeCtL0UQKdQwRWU18V6wnI%3D&Expires=1746675952<|vision_end|>"
  }, {
    "from" : "assistant",
    "value" : "主料A：50单面 | 编号：50单面 | 成分：90%棉 | 颜色：精白 | 幅宽：20*20 | 单位：米 | 克重：20 | 供应商：(13632374222) | 含税价：17.80 | 特殊工艺："
  } ]

然后报错了

D:\Anaconda\envs\wt\python.exe D:\xm\wt\train.py 
swanlab: Tracking run with swanlab version 0.5.7
swanlab: Run data will be saved locally in D:\xm\wt\swanlog\run-20250507_172653-2126b24a
swanlab: 👋 Hi xun, welcome to swanlab!
swanlab: Syncing run Qwen/Qwen2-VL-2B-Instruct to the cloud
swanlab: 🏠 View project at https://swanlab.cn/@xun/qwen-finetune
swanlab: 🚀 View run at https://swanlab.cn/@xun/qwen-finetune/runs/ybsxv8axwjtlelg87rmm0
2025-05-07 17:26:54,534 - modelscope - WARNING - Using branch: master as version is unstable, use with caution
The argument `trust_remote_code` is to be used with Auto classes. It has no effect here and is ignored.
`Qwen2VLRotaryEmbedding` can now be fully parameterized by passing the model config through the `config` argument. All other arguments will be removed in v4.46
Loading checkpoint shards: 100%|██████████| 2/2 [00:00<00:00,  9.83it/s]
Generating train split: 819 examples [00:00, 34821.44 examples/s]
Map:   7%|▋         | 57/819 [00:09<02:11,  5.81 examples/s]
swanlab: Error happened while training
swanlab: 🏠 View project at https://swanlab.cn/@xun/qwen-finetune
swanlab: 🚀 View run at https://swanlab.cn/@xun/qwen-finetune/runs/ybsxv8axwjtlelg87rmm0
  File "D:\xm\wt\train.py", line 146, in <module>
    train_dataset = train_ds.map(process_func)
  File "D:\Anaconda\envs\wt\lib\site-packages\datasets\arrow_dataset.py", line 557, in wrapper
    out: Union["Dataset", "DatasetDict"] = func(self, *args, **kwargs)
  File "D:\Anaconda\envs\wt\lib\site-packages\datasets\arrow_dataset.py", line 3079, in map
    for rank, done, content in Dataset._map_single(**dataset_kwargs):
  File "D:\Anaconda\envs\wt\lib\site-packages\datasets\arrow_dataset.py", line 3501, in _map_single
    for i, example in iter_outputs(shard_iterable):
  File "D:\Anaconda\envs\wt\lib\site-packages\datasets\arrow_dataset.py", line 3475, in iter_outputs
    yield i, apply_function(example, i, offset=offset)
  File "D:\Anaconda\envs\wt\lib\site-packages\datasets\arrow_dataset.py", line 3398, in apply_function
    processed_inputs = function(*fn_args, *additional_args, **fn_kwargs)
  File "D:\xm\wt\train.py", line 56, in process_func
    image_inputs, video_inputs = process_vision_info(messages)  # 获取数据数据（预处理过）
  File "D:\Anaconda\envs\wt\lib\site-packages\qwen_vl_utils\vision_process.py", line 330, in process_vision_info
    image_inputs.append(fetch_image(vision_info))
  File "D:\Anaconda\envs\wt\lib\site-packages\qwen_vl_utils\vision_process.py", line 91, in fetch_image
    image_obj = Image.open(requests.get(image, stream=True).raw)
  File "D:\Anaconda\envs\wt\lib\site-packages\PIL\Image.py", line 3572, in open
    raise UnidentifiedImageError(msg)
cannot identify image file <_io.BytesIO object at 0x0000029BEBD236A0>

是数据集格式有问题吗，标准的格式是什么样子的？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

宝码香车优质创作者: JavaScript技术领域 2025-05-07 17:56

关注

让【宝码香车】来帮你解答，本回答参考DeepSeek编写，并整理提供。
如果还有疑问可以点击头像关注私信或评论。如果答案让您满意，请采纳、点赞、关注，非常感谢！

根据您提供的错误信息和数据集格式，问题主要出在图片URL的处理上。标准的Qwen-VL多模态数据集格式应该遵循特定的结构，特别是对于包含URL图片的情况。以下是详细分析和解决方案：

1. 问题分析

错误表明系统无法识别从URL获取的图片数据，可能原因：

URL格式不正确（包含特殊标记<|vision_start|>）
服务器返回的不是有效图片数据
网络请求失败或权限问题

2. 标准数据集格式

对于Qwen-VL模型，标准的多模态对话数据集格式应如下：

[
  {
    "id": "unique_id_1",
    "conversations": [
      {
        "from": "user",
        "value": "<image>https://example.com/image1.jpg</image> 图片描述文本"
      },
      {
        "from": "assistant",
        "value": "对图片的回复内容"
      }
    ]
  }
]

3. 修正建议

修改您的数据集格式如下：

[
  {
    "id": "2500010_1",
    "conversations": [
      {
        "from": "user",
        "value": "<image>https://deti.cn-sh2.ufileos.com/PC/9db094a2-2e8c-4fa1-b931-50f9e25c9c98.png?UCloudPublicKey=TOKEN_696b1902-38dd-411f-b9f6-18c454ec200c&Signature=x4SPImsAbXI3EctpIQwYKu2ZfnM%3D&Expires=1746687410</image> FabricDesign Yes"
      },
      {
        "from": "assistant",
        "value": "女生-上衣，型号：2500010，颜色：深灰，质量等级：合格品，服务类型：打版+采购+生产，生产类型：包工包料"
      }
    ]
  }
]

4. 关键修改点

将<|vision_start|>和<|vision_end|>替换为<image>和</image>
确保URL是可直接访问的有效图片链接
图片描述文本应放在图片标签之后

5. 验证URL有效性

建议先单独测试URL是否能正确返回图片：

import requests
from PIL import Image
from io import BytesIO

url = "https://deti.cn-sh2.ufileos.com/PC/9db094a2-2e8c-4fa1-b931-50f9e25c9c98.png?UCloudPublicKey=TOKEN_696b1902-38dd-411f-b9f6-18c454ec200c&Signature=x4SPImsAbXI3EctpIQwYKu2ZfnM%3D&Expires=1746687410"
response = requests.get(url, stream=True)
if response.status_code == 200:
    img = Image.open(BytesIO(response.content))
    img.show()  # 如果能正常显示图片，说明URL有效
else:
    print(f"URL访问失败，状态码: {response.status_code}")

6. 完整处理函数示例

如果您需要自定义处理函数，可以参考以下模板：

def process_func(example):
    messages = example["conversations"]
    new_messages = []
    for msg in messages:
        if msg["from"] == "user":
            # 处理包含图片的消息
            if "<image>" in msg["value"]:
                # 提取图片URL
                start = msg["value"].find("<image>") + len("<image>")
                end = msg["value"].find("</image>")
                img_url = msg["value"][start:end]
                # 这里添加您的图片处理逻辑
                new_value = msg["value"].replace("<image>", "").replace("</image>", "")
                new_messages.append({"from": msg["from"], "value": new_value})
            else:
                new_messages.append(msg)
        else:
            new_messages.append(msg)
    return {"conversations": new_messages}

如果问题仍然存在，可能需要检查：

URL是否设置了访问权限（如签名过期）
服务器是否限制了请求频率
图片格式是否被支持（建议使用常见格式如jpg/png）

报告相同问题？

关注问题

从Wikipedia获取的编程语言数据集CSV格式介绍
2024-10-06 15:22

赵子诺的博客简介：该数据集提供了从Wikipedia抓取的编程语言信息，并以CSV格式存储。CSV格式适用于表格数据，便于多种软件处理。数据集可能包含编程语言的名称、创建年份、设计者、类型、应用领域、语法特点等信息，这些数据对...
【大语言模型/LLM】全网最全！持续更新！147个大语言模型评估数据集分类归纳整理，内含数据集手册！
2024-12-30 19:25

十小大的博客为了指导后续的大模型研究工作并促进该领域的技术进步，本文收集了147个流行的评估数据集，并提出了一种新的分类方法，根据数据集可评测的能力将它们分为六类。此外，我们还归纳了几个常见的评估指标和使用场景。
最新AI大模型数据集解决方案：分享两种AI高质量代码数据集生产方案
2025-03-17 22:59

猫头虎的博客最新AI大模型数据集解决方案：分享两种AI高质量代码数据集生产方案，你知道哪些？随着AI大模型技术的快速发展，自动化的数据抓取工具逐渐成为了主流，尤其是在需要快速、高效、可定制化的数据抓取时，Web Scraper ...
最新 COCO数据集的下载、使用方法demo最新详细教程
2024-04-29 14:01

猫头虎的博客文章内容覆盖Python编程语言和机器学习框架，适用于所有级别的读者。关键词包括COCO数据集图像识别机器学习应用Python数据处理深度学习教程。功能描述数据集内容图像及多种类型的注释适用任务对象检测、分割、关键点...
详解MNIST数据集下载、解析及显示的Python实现
2023-05-14 19:39

KRISNAT的博客 MNIST（modified national institute of standard and ...MNIST数据集是深度学习和计算机视觉领域入门级的数据集，类似于编程语言的Hello Word。本篇博客完整地给出了多种下载、解析及可视化方案，以供参考和学习。
华为自研编程语言“仓颉“在HDC 2024首次公开：一文带你了解仓颉语言特性
2024-06-23 08:00

摸五休二的博客 编程语言的演变从未停止过。在2024年6月23日的华为开发者大会（HDC）上，华为隆重发布了一种全新的编程语言——仓颉语言（Cangjie Language）。旨在提升开发效率和代码的可维护性，特别是为大数据和人工智能应用提供...
昇思大模型-基于MNIST数据集的实现手写数字识别
2024-07-28 16:40

Damon小智的博客本文介绍了如何使用昇思MindSpore框架构建基于MNIST数据集的手写数字识别模型。首先，讲解了机器学习和深度学习的背景知识，以及MindSpore的优势和架构。随后，详细描述了从数据下载、预处理到神经网络模型定义、...
LeRobot的数据集系统（上）
2025-05-20 20:04

三谷秋水的博客 LeRobot 的数据集系统提供了一个强大的框架，用于管理用于训练、评估和推理的机器人数据。本文介绍 LeRobot 数据集组件的架构和使用方法，重点介绍了机器人数据的存储、访问和处理方式。
【AI编程工具合集】42 款 AI 代码助手工具大盘点！开发效率神器！
2023-06-05 23:32

研发之道的博客【AI编程工具合集】42 款 AI 代码助手工具大盘点！开发效率神器！通过自动执行复杂的编码任务来加快项目完成时间
【网安AIGC专题10.19】论文6（顶会ISSTA 2023）：提出新Java漏洞自动修复数据集：数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
2023-10-25 16:59

是Yu欸的博客安全漏洞修复的两种方向（1）LLM，已对源代码预训练，用于代码补全等任务（2）基于深度学习的自动程序修复APR1）漏洞修复的需求平均修复漏洞的时间（从发现到...这使得Java漏洞修复至关重要，涉及敏感数据和关键功能。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月7日