qq_47464003 2024-07-16 21:56 采纳率: 62.5%
浏览 50
已结题

深度学习一维输入与二维输入多模态融合问题

Progressive Fusion for Multimodal Integration

img


像这篇论文提出的这种思想,文本,图像特征分别提取,特征合并后再与输入合并再次提取特征,他们特征融合是怎么融合的呢?
文本这种提取的特征不是一维的吗,张量的shape不应该是(batch_size, 1, 特征数量),而图像提取的特征是(batch_size, 最终的通道数, 宽,高)这样的吗,怎么将其融合呢,我以前的做法是都将其reshape,y1 = y1.reshape(y.size(0), -1)
但是这样特征怎么与输入再次合并呢,求各位解答!!
具体来说就像下面这个图

img


假设只需要一个一维输入和一个二维输入,一维最终提取到的特征为1 * 3816,二维特征为32 * 12 * 17.(255是batch_size)
第一个问题:特征融合怎么将他们融合起来
第二个问题:融合后的特征怎么又和原输入融合起来。

  • 写回答

27条回答 默认 最新

  • 陈嘿萌 第二十三届中国机器人及人工智能大赛获奖者 2024-07-24 19:30
    关注

    问题1:

    文本和图像特征是如何融合的。如上图2,文本特征维度是255,1,3816;图像特征是255,32,12,17;那么把图像特征展平为255,1,6528(32×12×17);然后可以通过全连接层把文本特征映射到255,1,5031;图像特征通过全连接层映射到255,1,5031;如何融合呢,一般是相加或者拼接。相加的融合特征维度为255,1,5031;拼接的维度为255,1,10061。

    问题2:

    融合后的特征如何与原输入融合。文本和图像特征都映射到了相同的维度255,1,5031;那么就可以把这两个特征融合起来,一般是拼接或者相加,如果加起来的话就得到融合的特征255,1,5031。如何与原输入融合起来呢,原输入如图2所示文本特征的维度为255,1,5031;它们的维度相同可以做一个残差把他们加起来,得到最终的融合特征为255,1,5031。这样的残差可以保证信息的流通,尽可能保留文本信息。


    不管是图像还是文本或者音频或者其它的输入,首先都是可以通过对应的编码器把它转换成特征向量的。

    图像特征的维度一般是:B,C,H,W;
    文本特征的维度是:B,L,N;

    想要直接融合一般是不行的,需要做特征上的映射到相同维度。

    比如图像可以按照HW展开,维度变成:B,C,H×W;

    那么我们可以通过全连接层的映射,C和L都可以映射到相同的维度;N和H×W也可以映射到相同的维度;

    如果文本和图像的特征都映射到了,B,M,N的维度,那么这两种特征就到了相同的空间下进行表征;

    然后再对不同模态的特征进行融合,可以直接相加也可以拼接;

    得到融合后的特征,针对不同任务的需求就在接后续对应的处理头。

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(26条)

报告相同问题?

问题事件

  • 系统已结题 8月1日
  • 已采纳回答 7月24日
  • 赞助了问题酬金15元 7月17日
  • 修改了问题 7月17日
  • 展开全部

悬赏问题

  • ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
  • ¥15 Linux权限管理相关操作(求解答)
  • ¥15 Bug traq 数据包 大概什么价
  • ¥15 在anaconda上pytorch和paddle paddle下载报错
  • ¥25 自动填写QQ腾讯文档收集表
  • ¥15 DbVisualizer Pro 12.0.7 sql commander光标错位 显示位置与实际不符
  • ¥15 求一份STM32F10X的I2S外设库
  • ¥15 android 打包报错
  • ¥15 关于stm32的问题
  • ¥15 ncode振动疲劳分析中,noisefloor如何影响PSD函数?