深度学习一维输入与二维输入多模态融合问题

Progressive Fusion for Multimodal Integration

像这篇论文提出的这种思想，文本，图像特征分别提取，特征合并后再与输入合并再次提取特征，他们特征融合是怎么融合的呢？
文本这种提取的特征不是一维的吗，张量的shape不应该是（batch_size, 1, 特征数量），而图像提取的特征是（batch_size, 最终的通道数, 宽，高）这样的吗，怎么将其融合呢，我以前的做法是都将其reshape，y1 = y1.reshape(y.size(0), -1)
但是这样特征怎么与输入再次合并呢，求各位解答！！
具体来说就像下面这个图

假设只需要一个一维输入和一个二维输入，一维最终提取到的特征为1 * 3816，二维特征为32 * 12 * 17.（255是batch_size）
第一个问题：特征融合怎么将他们融合起来
第二个问题：融合后的特征怎么又和原输入融合起来。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

27条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
陈嘿萌第二十三届中国机器人及人工智能大赛获奖者 2024-07-24 19:30
关注
问题1：

文本和图像特征是如何融合的。如上图2，文本特征维度是255,1，3816；图像特征是255,32,12,17；那么把图像特征展平为255,1，6528（32×12×17）；然后可以通过全连接层把文本特征映射到255,1,5031；图像特征通过全连接层映射到255,1,5031；如何融合呢，一般是相加或者拼接。相加的融合特征维度为255,1,5031；拼接的维度为255,1,10061。

问题2：

融合后的特征如何与原输入融合。文本和图像特征都映射到了相同的维度255,1,5031；那么就可以把这两个特征融合起来，一般是拼接或者相加，如果加起来的话就得到融合的特征255,1,5031。如何与原输入融合起来呢，原输入如图2所示文本特征的维度为255,1,5031；它们的维度相同可以做一个残差把他们加起来，得到最终的融合特征为255,1,5031。这样的残差可以保证信息的流通，尽可能保留文本信息。

不管是图像还是文本或者音频或者其它的输入，首先都是可以通过对应的编码器把它转换成特征向量的。

图像特征的维度一般是：B，C，H，W；
文本特征的维度是：B，L，N；

想要直接融合一般是不行的，需要做特征上的映射到相同维度。

比如图像可以按照HW展开，维度变成：B，C，H×W;

那么我们可以通过全连接层的映射，C和L都可以映射到相同的维度；N和H×W也可以映射到相同的维度；

如果文本和图像的特征都映射到了，B，M，N的维度，那么这两种特征就到了相同的空间下进行表征；

然后再对不同模态的特征进行融合，可以直接相加也可以拼接；

得到融合后的特征，针对不同任务的需求就在接后续对应的处理头。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(26条)

报告相同问题？

关注问题

关于深度学习多模态方面的疑问 pytorch 深度学习
2023-02-14 16:00

回答 3 已采纳 多模态识别一般包括数据的预处理、特征提取、模态融合和分类等步骤。从你的进度来看，数据集、特征和上下文都已经加载完成，接下来可以考虑以下步骤：数据预处理：检查数据是否存在缺失值、异常值等，进行必要的数
pytorch两个或多个不同的数据集多模态数据输入如何代码实现 pytorch 深度学习神经网络
2023-03-14 17:52

回答 1 已采纳要实现多机数据输入，需要使用PyTorch分布式数据并行模块（DistributedDataParallel）。该模块提供了多台机器之间分布式数据并行计算的机制。以下是具体的代码实现步骤：配置分布式
同一个界面模态框传值的问题 java javascript
2021-10-07 00:40

回答 2 已采纳那首先你alt的值就应该是动态的。不是写死的。点击时把当前项的数据传过去比如 {url:"",alt:"33"}这样 img alt属性就可以动态赋值。
多模态深度学习综述总结与目标检测多模态融合领域论文推荐
2022-01-19 23:00

naca yu的博客人们生活在一个多模态相互交融的环境中，生活中的各项决策都考虑了至少两种方面的信息。对单模态信息的学习上，每种模态的异构性决定了其存在不同的学习模型。虽然单模态学习在如今已经取得了显著的进步，在图像单...
求解jsp无法弹出模态框问题 bootstrap java jquery
2022-07-03 05:19

回答 3 已采纳前端问题打开浏览器F12，看看控制台报的什么错误。提问有代码的，使用插入代码，否则你的代码嵌入的csdn的页面中了，没法看。
网页开发前端模态框问题 javascript 有问必答
2021-11-15 13:19

回答 3 已采纳 btn.onclick = function () { if (login) return;//这里判断login DOM是否创建过，创建就退出，在JavaScript中，n
怎么让模态框跳转到另一个页面 html5 javascript 有问必答
2021-07-07 10:31

回答 5 已采纳看你需求吧，转到其他系统最好是新窗口打开，iframe的话由于跨域问题无法控制加载的内容，如加载的页面链接是target="_blank"的，点击的时候还是会在新窗口打开。如果是微信会直接覆盖当前页面
论文阅读-面向深度学习的多模态融合技术研究综述
2023-07-16 00:24

安徒生在ACL讲一千零一夜的博客面向深度学习的多模态融合技术是指机器从文本、图像、语音和视频等领域获取信息实现转换与融合以提升模型性能。多模态融合技术发展前期，以提升深度学习模型分类与回归性能为出发点，阐述多模态融合架构、融合方法和...
python与flask结合，向模态框传值 flask python 后端
2022-07-02 13:03

回答 1 已采纳 bftask这个函数代码什么样的？用的ajax请求的话需要在客户端用js更新对应dom对象的内容
bootstrap 模态框焦点问题 bootstrap c# html
2022-03-21 10:17

回答 1 已采纳 focus
按钮赋值传值到模态框表单的问题 bootstrap css javascript
2022-08-21 13:20

回答 1 已采纳 $('#updateModal').on('show.bs.modal', function(event) { // 加个延时试试，可能dom还没生成，找不到 setTimeout(f
云计算实战应用案例精讲-【深度学习】多模态融合（最终篇）
2023-04-19 00:30

林聪木的博客之所以要对模态进行融合，是因为不同模态的表现方式不一样，看待事物的角度也会不一样，所以存在一些交叉（所以存在信息冗余），互补（所以比单特征更优秀）的现象，甚至模态间可能还存在多种不同的信息交互，如果能...
bootstrapVue模态框不显示问题 bootstrap vue.js
2022-08-27 14:12

回答 1 已采纳你可以参考下这篇文章：BootstrapVue使用入门
深度学习与多模态数据处理：融合与应用
2023-12-27 18:07

AI天才研究院的博客 深度学习是人工智能领域的一个重要分支，它主要通过模拟人类大脑中的神经网络结构，来进行数据的处理和分析。多模态数据处理则是指在处理和分析数据时，同时考虑不同类型的数据，如图像、文本、音频等。随着数据的...
云计算实战应用案例精讲-【深度学习】多模态融合（补充篇）
2023-04-18 00:15

林聪木的博客模态对齐是多模态融合关键技术之一，是指从两个或多个模态中查找实例子组件之间的对应关系。例如，给定一个图像和一个标题，希望找到图像区域与标题单词或短语的对应关系[72]。多模态对齐方法分为显式对齐和隐式对齐...
没有解决我的问题, 去提问