Qwen2.5-VL框架图没看懂

Qwen2.5-VL框架中，输入Qwen2.5 LM Decoder前的蓝色实线小框(images and videos here.和后面的Picture 1 is an image from a)代表什么意思。还有输出的那几个蓝色实线小框代表的token又是什么？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
独角鲸网络安全实验室 2025-11-24 13:44
关注
你看哈，输入那排蓝色小框就是用来装图像、视频这些视觉内容的，相当于它们的“入口”；输出的蓝色小框呢，是这些视觉内容被编码成的“视觉token”，用来和文本部分在语言模型里融合。简单说，输入框是“装视觉素材的地方”，输出框是“视觉素材变成的token序列”，这样模型就能同时理解图、视频和文字啦。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

LLM学习笔记9——Qwen-VL多模态系列（Qwen-VL、Qwen2-VL、Qwen2.5-VL、Qwen3-VL）
2026-02-02 16:03

RanceGru的博客 Qwen-VL是阿里巴巴通义实验室推出的开源多模态视觉语言模型系列，旨在构建“看得懂、听得清、说得出”的通用多模态智能体。该系列从基础的图文理解逐步演进到支持全感官感知，在开源社区和工业界广受关注。
Qwen3-VL-8B vs Qwen2.5-VL实测对比：云端GPU 2小时搞定选型
2026-01-20 00:06

RubyWolf84的博客本文介绍了基于星图GPU平台自动化部署Qwen3-VL-8B-Instruct-GGUF镜像的完整流程，助力用户高效完成多模态大模型选型。通过该平台，可快速启动云端GPU实例，在2小时内完成模型测试，显著降低算力成本。该镜像适用于...
小白学大模型：多模态 Qwen2.5-VL 入门指南
2025-05-06 11:43

大模型应用开发的博客多模态 Qwen2.5-VL 是一个能「看」会「说」的AI全能助手，无论是办公、教育还是创作，它都能大幅提升效率。通过简单的安装步骤和丰富的使用案例，即使是小白也能快速上手。未来，随着多模态技术的发展，Qwen2.5-VL ...
阿里深夜开源Qwen2.5-VL新利器：32B模型竟比72B更“懂”你？视觉推理通杀！
2025-03-26 08:35

that's boy的博客阿里通义千问团队此次开源的Qwen2.5-VL-32B-Instruct，无疑为视觉语言模型领域注入了新的活力。...Qwen2.5-VL-32B是否能成为多模态AI Agent的“标准配置”？让我们拭目以待，并期待通义千问团队在未来带来更多突破！
从入门到落地：借助 LLaMA-Factory 微调 Qwen2.5-VL 实战指南
2025-08-28 09:40

大模型研究院的博客从入门到落地：借助 LLaMA-Factory 微调 Qwen2.5-VL 实战指南
本地部署Qwen2.5-VL多模态大模型应用
2025-02-17 15:37

人工智能我来了的博客你有没有想过，家门口的监控摄像头有一天会突然开口说话？“注意！穿黑色外套的男子于下午3点出现在小区东门”，这不是科幻电影！阿里巴巴最新发布的Qwen2.5-VL模型，正在让这个场景成为现实。
Qwen2.5-VL-32B多模态模型实测：昇腾MindIE上的图像与视频理解能力展示
2026-02-15 00:09

徐卓菲的博客本文实测了Qwen2.5-VL-32B多模态模型在昇腾MindIE平台上的部署与推理表现。通过详细的配置指南和实战测试，展示了该模型在复杂图像描述、专业图表解读及动态视频理解方面的强大能力，为开发者在昇腾硬件上进行本地化...
图像对话模型怎么选？BLIP-2、GPT-4V、MiniGPT-4、Qwen2.5-VL
2025-07-09 14:31

AI大模型-王哥的博客本文全面对比分析了四大图像对话大模型：BLIP-2、...文章还提供了BLIP-2和Qwen2.5-VL的部署方案，并展望了多模态AI的未来趋势，强调选择模型需根据实际场景需求而非单纯追求性能。最后分享了AI大模型学习资源获取方式。
从 CLIP 和 Qwen2.5-VL 入门多模态技术
2025-06-04 19:15

frostmelody的博客简单来说，多模态AI的目标是让机器能够理解和处理来自不同来源的信息，例如文本、图像、声音等（这些不同的信息来源就是“模态”）。而“对齐”就是建立这些不同模态信息之间的联系。显式对齐 (Explicit Alignment)...
从零到实战：用 LLaMA-Factory 微调 Qwen2.5-VL
2025-09-01 14:50

Llama-Turbo的博客我们今天要聊的，就是如何用 LLaMA-Factory 给“天赋型选手”Qwen2.5-VL 做个专业化训练，让它在垂直领域表现得更聪明、更贴心。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月23日

Qwen2.5-VL框架图没看懂

Qwen2.5-VL框架中，输入Qwen2.5 LM Decoder前的蓝色实线小框(images and videos here.和后面的Picture 1 is an image from a)代表什么意思。还有输出的那几个蓝色实线小框代表的token又是什么？

1条回答 默认 最新

问题事件

1条回答默认最新