目前我看到的一些网上的案例更聚焦 Text-Agent,但未讨论 multimodal I/O schema。
当前市面上是否有将 Node 输入输出结构标准化,让视觉/音频/结构化数据更可组合?
目前我看到的一些网上的案例更聚焦 Text-Agent,但未讨论 multimodal I/O schema。
当前市面上是否有将 Node 输入输出结构标准化,让视觉/音频/结构化数据更可组合?
肯定会限制生态扩展!核心就是模态异构+Schema不统一,导致跨视觉/音频/文本的Node没法直接组合,对接成本高到离谱。
现在网上案例扎堆做Text-Agent,就是因为文本Schema天然统一,多模态这块儿还没形成行业标准,不过已经有能用的框架内方案了:
ContentBlock把图像、音频都包成type+data+metadata的格式,Node间按这个格式传数据,不用管原始类型。目前没有大一统的行业标准,都是各框架自己搞一套,跨框架组合还是得写适配代码。