Progressive Fusion for Multimodal Integration
像这篇论文提出的这种思想,文本,图像特征分别提取,特征合并后再与输入合并再次提取特征,他们特征融合是怎么融合的呢?
文本这种提取的特征不是一维的吗,张量的shape不应该是(batch_size, 1, 特征数量),而图像提取的特征是(batch_size, 最终的通道数, 宽,高)这样的吗,怎么将其融合呢,我以前的做法是都将其reshape,y1 = y1.reshape(y.size(0), -1)
但是这样特征怎么与输入再次合并呢,求各位解答!!
具体来说就像下面这个图
假设只需要一个一维输入和一个二维输入,一维最终提取到的特征为1 * 3816,二维特征为32 * 12 * 17.(255是batch_size)
第一个问题:特征融合怎么将他们融合起来
第二个问题:融合后的特征怎么又和原输入融合起来。