m0_58545998 2024-07-30 14:55
浏览 127
已结题

mamba 训练过程遇到Nan?

最近学习了一下有关mamba的论文,在Vmamba论文的VSSBlock的基础上写了一个类似于交叉注意力的模块,用来做图像融合。网络架构与Mamba-CFT想同,我的模块叠加超过四层时,训练一开始loss就会变成Nan,请问哪位遇到过类似的问题,或者有些解决的建议吗?感谢!

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 8月7日
    • 创建了问题 7月30日