
1条回答 默认 最新
独角鲸网络安全实验室 2025-11-24 13:44关注你看哈,输入那排蓝色小框就是用来装图像、视频这些视觉内容的,相当于它们的“入口”;输出的蓝色小框呢,是这些视觉内容被编码成的“视觉token”,用来和文本部分在语言模型里融合。简单说,输入框是“装视觉素材的地方”,输出框是“视觉素材变成的token序列”,这样模型就能同时理解图、视频和文字啦。
解决 无用评论 打赏 举报

你看哈,输入那排蓝色小框就是用来装图像、视频这些视觉内容的,相当于它们的“入口”;输出的蓝色小框呢,是这些视觉内容被编码成的“视觉token”,用来和文本部分在语言模型里融合。简单说,输入框是“装视觉素材的地方”,输出框是“视觉素材变成的token序列”,这样模型就能同时理解图、视频和文字啦。