万物皆bit 2022-12-24 12:11 采纳率: 69.2%
浏览 36
已结题

遥感图像-文本跨模态检索

这是一个关于遥感图像-文本跨模态检索的问题,根据下面这个

https://github.com/isaaccorley/torchrs

我想要实现RSICD数据集的训练,但是不是很理解思路

(我如何利用预训练的结果?我怎么生成最后的检索实验结果?)

下面就是RSICD数据集的实例化过程:

img

Lu等人在“探索遥感图像配图生成的模型和数据”中提出的RSICD数据集是一个图像配图数据集,使用谷歌Earth、百度Map、MapABC和天图提取10,921张224x224 RGB图像,每张图像5个句子。虽然该数据集是较大的遥感图像字幕数据集之一,但该数据集包含非常重复的语言,细节很少,而且许多字幕是重复的。
数据集可以使用scripts/download_rsicd.sh下载(0.57GB),并实例化如下:

import torchvision.transforms as T
from torchrs.datasets import RSICD

transform = T.Compose([T.ToTensor()])

dataset = RSICD(
    root="path/to/dataset/",
    split="train",  # or 'val', 'test'
    transform=transform
)

x = dataset[0]
"""
x: dict(
    x:        (3, 224, 224)
    captions: List[str]
)
"""

最终应该是得到下面这种结果:

img

  • 写回答

0条回答 默认 最新

    报告相同问题?

    问题事件

    • 系统已结题 1月1日
    • 创建了问题 12月24日

    悬赏问题

    • ¥15 chipyard环境搭建问题
    • ¥20 matlab可以把多个二维图合成为三维瀑布图吗
    • ¥15 EEPROM,软件i2c
    • ¥500 求解读该段JS代码,需要知道是用干什么的
    • ¥20 qt4代码实现二进制文件读取显示,以及显示的内容进行搜索
    • ¥15 Labview获取LK-G3001数据
    • ¥15 我知道什么是混合树,但是怎么写代码啊
    • ¥50 开发板linux系统安装dpkg,apt函数库 有偿
    • ¥15 浏览器时间循环 交互事件和延时事件的 优先级与执行问题
    • ¥15 GD模块安装出错,libgd无法正常安装