Jial-(^V^) 2025-11-23 17:01 采纳率: 0%
浏览 6

Qwen2.5-VL框架图没看懂

img

Qwen2.5-VL框架中,输入Qwen2.5 LM Decoder前的蓝色实线小框(images and videos here.和后面的Picture 1 is an image from a)代表什么意思。还有输出的那几个蓝色实线小框代表的token又是什么?

  • 写回答

1条回答 默认 最新

  • 关注

    你看哈,输入那排蓝色小框就是用来装图像、视频这些视觉内容的,相当于它们的“入口”;输出的蓝色小框呢,是这些视觉内容被编码成的“视觉token”,用来和文本部分在语言模型里融合。简单说,输入框是“装视觉素材的地方”,输出框是“视觉素材变成的token序列”,这样模型就能同时理解图、视频和文字啦。

    评论

报告相同问题?

问题事件

  • 创建了问题 11月23日