在训练基于文本描述的跨模态行人重识别模型,在目前其它主流数据集都唔那个正常,但是在RSTPReid数据集上就出现下图所示的情况:

如果这是过拟合,为什么在其他数据集都挺正常的,而且这个RSTPReid数据集也是一个主流的数据集,想请教一下怎么解决(是基于CLIP实现的)
在训练基于文本描述的跨模态行人重识别模型,在目前其它主流数据集都唔那个正常,但是在RSTPReid数据集上就出现下图所示的情况:

说实话你这个还蛮怪的,出现这种情况一般有三个可能
1.过拟合了,但是你这一共才20个epoch,说是过拟合了显然站不太住脚,而且过拟合也没见过指标降这么快这么多的。
2.数据本身有噪声,我本人研究的就是噪声监督的TIReID,在有噪声的情况下,有些鲁棒性不足的方法确实会越训练效果越差。但是你这个用的数据集应该不是有噪声的,一般噪声监督,都是自己手动添加噪声,数据集原本是干净的。
3.RSTPReid这个数据集其实指标一直都比较低,这你应该知道。这个数据集与别的数据集不同的地方在于它的每个图片都有两个对应的文本对,而其它的数据集对应的只有一个,但是具体为什么造成你这种情况,我还真不知道怎么解释。只能说从这个点出发能解释为什么在别的数据集上就行,只在这个数据集上不行的原因。
P.S.:基于CLIP的TIReID方法太多了,五花八门,你只说一个基于CLIP,没用啊。