这是一个关于遥感图像-文本跨模态检索的问题,根据下面这个
https://github.com/isaaccorley/torchrs
我想要实现RSICD数据集的训练,但是不是很理解思路
(我如何利用预训练的结果?我怎么生成最后的检索实验结果?)
下面就是RSICD数据集的实例化过程:
Lu等人在“探索遥感图像配图生成的模型和数据”中提出的RSICD数据集是一个图像配图数据集,使用谷歌Earth、百度Map、MapABC和天图提取10,921张224x224 RGB图像,每张图像5个句子。虽然该数据集是较大的遥感图像字幕数据集之一,但该数据集包含非常重复的语言,细节很少,而且许多字幕是重复的。
数据集可以使用scripts/download_rsicd.sh下载(0.57GB),并实例化如下:
import torchvision.transforms as T
from torchrs.datasets import RSICD
transform = T.Compose([T.ToTensor()])
dataset = RSICD(
root="path/to/dataset/",
split="train", # or 'val', 'test'
transform=transform
)
x = dataset[0]
"""
x: dict(
x: (3, 224, 224)
captions: List[str]
)
"""
最终应该是得到下面这种结果: