SSIR超分图像重建问题。transformer在vision的应用问题
我发现SwinIR和它的一些改进模型,train和test时的输入图像大小不一样,train的imagesize比较小,这样训练出来的attention里的转移矩阵为什么适用大图像。
比如Swin中训练的image_size=.,48,48,在valid和test时,model却可以对image_size = .,1024,720数据直接处理,有点不理解原因。
SSIR超分图像重建问题。transformer在vision的应用问题
我发现SwinIR和它的一些改进模型,train和test时的输入图像大小不一样,train的imagesize比较小,这样训练出来的attention里的转移矩阵为什么适用大图像。
比如Swin中训练的image_size=.,48,48,在valid和test时,model却可以对image_size = .,1024,720数据直接处理,有点不理解原因。
Transformer模型在SISR问题中的特殊之处在于它使用了self-attention机制来捕捉图像中的长距离依赖关系,因此它可以处理任意大小的图像。在训练时使用的小图像可以避免内存问题,但是训练出来的self-attention机制可以在高分辨率图像上得到更好的表现。因此,使用小图像训练可以保证模型的通用性和稳定性,可以在不同大小的图像上得到很好的结果。