有没有擅长多模态方向的朋友!
最近在做多模态方向的项目,项目使用URFUNNY数据集,其中包括音频视频和文本的特征和上下文的信息,可以成功加载数据集,加载后输出为
punchline shape: torch.Size([10, 20, 456])
context shape: torch.Size([10, 5, 20, 456])
humor labels: tensor([[0.],
[1.],
[1.],
[0.],
[0.],
[1.],
[0.],
[1.],
[1.],
[0.]], device='cuda:0')
想请教一下如果想进行下一步的融合应该往哪个方向走?需要学习哪种模型?要做些什么?