遥感图像-文本跨模态检索

这是一个关于遥感图像-文本跨模态检索的问题，根据下面这个

https://github.com/isaaccorley/torchrs

我想要实现RSICD数据集的训练，但是不是很理解思路

（我如何利用预训练的结果？我怎么生成最后的检索实验结果？）

下面就是RSICD数据集的实例化过程：

Lu等人在“探索遥感图像配图生成的模型和数据”中提出的RSICD数据集是一个图像配图数据集，使用谷歌Earth、百度Map、MapABC和天图提取10,921张224x224 RGB图像，每张图像5个句子。虽然该数据集是较大的遥感图像字幕数据集之一，但该数据集包含非常重复的语言，细节很少，而且许多字幕是重复的。
数据集可以使用scripts/download_rsicd.sh下载(0.57GB)，并实例化如下:

import torchvision.transforms as T
from torchrs.datasets import RSICD

transform = T.Compose([T.ToTensor()])

dataset = RSICD(
    root="path/to/dataset/",
    split="train",  # or 'val', 'test'
    transform=transform
)

x = dataset[0]
"""
x: dict(
    x:        (3, 224, 224)
    captions: List[str]
)
"""

最终应该是得到下面这种结果：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

如何提升yolov 5对遥感图像目标检测的精度 pytorch 人工智能目标检测
2023-04-03 22:32

回答 2 已采纳数据集问题：如果使用的数据集中包含的小目标较少或者标注不够准确，那么就会对模型的训练产生很大的影响，从而导致精度提升不明显。模型设计问题：虽然您已经尝试了使用注意力机制、增加小目标检测层等方法，但是
基于SUFT的遥感图像目标检测算法研发人工智能其他算法
2021-09-12 21:10

回答 1 已采纳 SIFT?SURF?SUFT是什么的缩写？我只听过前面两种算法，你可以说说你这个suft的全称是啥
高光谱遥感图像目标检测中光谱角度制图有什么缺点 matlab
2023-02-19 19:43

回答 2 已采纳该回答引用ChatGPT 光谱角度制图是一种常用的高光谱遥感图像处理技术，它将多个波段的光谱数据投影到二维平面上，以可视化的方式展示出不同光谱特征之间的差异。然而，光谱角度制图也存在一些缺点，包括：
CVPR 2022 | 阿里&华科提出：针对场景文本检测的视觉语言模型预训练
2022-08-07 23:59

Amusi（CVer）的博客 CV微信技术交流群转载自：CSIG文档图像分析与识别专委会本文简要介绍了发表于CVPR 2022的论文“Vision-Language Pre-Training for Boosting Scene Text Detector”的相关工作。大规模预训练在视觉任务中有着重要的...
关于遥感图像目标检测Faster R CNN代码能运行数据集为Rsod python
2022-08-03 04:39

回答 2 已采纳项目地址已发私信数据训练
<p>无人机遥感影像拼接</p> python 图像处理有问必答
2021-08-07 16:57

回答 1 已采纳参考一下： http://www.360doc.com/content/17/0509/11/36754589_652351960.shtml http:/
为什么哨兵二大气校正完没有第一波段了？（＃SNAP#遥感图像预处理＃哨兵数据大气校正＃snap） python 其他
2022-05-09 16:35

回答 1 已采纳原因提示已经指出了引用的栅格大小不同需要做的你需要让我的所有波段都在相同的栅格大小上 Sentinel-2 波段具有不同的空间分辨率：https ://sentinel.esa.int/web/se
中科院提出：视觉-语言预训练(VLP)综述，了解多模态最新进展！
2022-03-28 23:59

Amusi（CVer）的博客点击下方卡片，关注“CVer”公众号AI/CV重磅干货，第一时间送达作者：Feilong Chen等转载自：机器之心 |编辑：陈萍一文了解视觉 - 语言预训练最新进展和新领域。让机器做出与人类相似的反应一直是 AI 研究不懈追求的...
sci三四区遥感期刊 python 深度学习
2023-02-15 23:18

回答 3 已采纳 JSTAR一直不太好投，开源之后难度有所降低但是也不算是水刊，不过审稿比较快INTERNATIONAL JOURNAL OF REMOTE SENSING一般给major了照着改就行，问题不大
遥感影像遇到这种问题 c语言 python
2023-03-03 11:39

回答 2 已采纳估计是感光阵列出现了问题吧。或许可以使用深度学习去除这些异常，但是需要知道产生这种异常的机理，并生成一批数据，用于训练。
关于NASA下载遥感影像问题学习方法
2023-02-14 13:13

回答 1 已采纳可能是由于网络连接或服务器问题引起的。您可以尝试在不同的时间或使用不同的网络连接重新尝试下载。此外，NASA网站上可能有一些下载限制或限制条件，您可以查看网站的相关帮助文档或联系网站管理员以获取更多帮
什么是多模态感知和多对象追踪？
2023-08-07 00:55

禅与计算机程序设计艺术的博客多模态（Multimodality）指的是同时处理图像、视频、声音、文本等不同模态的信息；而多对象追踪（Multi-object tracking）则是通过计算机视觉、声学、机器学习等技术来实现对多种目标或物体的跟踪和识别。近几年来，...
遥感波段和植被指数做相关性数据库
2023-03-06 09:45

回答 2 已采纳参考GPT的内容和自己的思路: 要分析四个植被指数和四个遥感波段之间的相关性，可以使用相关分析（correlation analysis）来计算它们之间的相关系数。相关系数通常用Pearson相关系数
CVPR 2021 Oral | 聊一聊使用NLP语言模型解决场景文本识别中问题的思路以及一些思考...
2021-03-15 12:57

Amusi（CVer）的博客这种方法，在图像清晰可读的情况下，比如说文档图像、相对规整的手写及场景文本图像等，效果其实都可以做到比较好了（讲白了就是字符的外形清晰可读的情况）。但场景文本识别中，大部分情况并不是字符外形清晰可读...
新突破！华为诺亚开源首个亿级中文多模态数据集-悟空！
2022-03-08 13:05

Amusi（CVer）的博客发布的预训练模型在数个中文基准测试任务，例如由 17 个数据集组成的零样本图像分类任务和由 5 个数据集组成的图像文本检索任务，表现出了最优性能。「悟空」数据集研究者构建了一个名为悟空的新数据集，该数据集...
没有解决我的问题, 去提问