Remote sensing 领域的 visual grounding任务

目前是否有遥感领域visual grounding任务在开集场景下的工作？我一直没有找到类似自然图像中GroundVLP，VR-VLM等这种开集场景visual grounding的工作
是否有将自然领域的开集视觉定位任务迁移到遥感领域的可能？
目前自然领域开集视觉定位的工作看了不少，也看了一些遥感通用多任务大模型，但是对于遥感领域是否可以实现开集视觉定位有些疑问，如何将两者结合还有些混乱
是否有必要考虑遥感领域，还是专攻自然领域的视觉定位任务？
希望寻求大家的建议（本人研一小白菜，如何才能水一篇期刊毕业🥹

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

道友老李 JWE233286一种基于机器视觉的水表指针读数识别及修正的方法专利发明者 2025-03-18 22:45

关注

让【道友老李】来帮你解答，本回答参考gpt编写，并整理提供，如果还有疑问可以点击头像关注私信或评论。

如果答案让您满意，请采纳、关注，非常感谢！

1. 目前在遥感领域下的visual grounding任务还没有太多相关工作，尤其是在开集场景下的工作。GroundVLP、VR-VLM等在自然图像中的visual grounding工作还没有被直接应用到遥感领域。

将自然领域的开集视觉定位任务迁移到遥感领域是有可能的。可以尝试将自然领域的算法和模型应用到遥感数据中，并根据遥感数据的特点进行调整和修改。例如，可以尝试使用迁移学习的方法，将自然领域的预训练模型微调到遥感领域的数据上。以下是一个简单的示例代码，展示如何使用迁移学习将自然领域的预训练模型在遥感领域的数据上进行微调：

import torch
import torchvision
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, models, transforms
# 加载预训练的ResNet模型
model = models.resnet50(pretrained=True)
# 冻结模型的参数
for param in model.parameters():
    param.requires_grad = False
# 重新定义模型的全连接层
num_ftrs = model.fc.in_features
model.fc = nn.Linear(num_ftrs, num_classes)  # num_classes为遥感领域的类别数
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)
# 加载遥感数据集并进行数据增强
data_transforms = {
    'train': transforms.Compose([
        transforms.RandomResizedCrop(224),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
    'val': transforms.Compose([
        transforms.Resize(256),
        transforms.CenterCrop(224),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ]),
}
image_datasets = {x: datasets.ImageFolder(os.path.join(data_dir, x), data_transforms[x]) for x in ['train', 'val']}
dataloaders = {x: torch.utils.data.DataLoader(image_datasets[x], batch_size=4, shuffle=True, num_workers=4) for x in ['train', 'val']}
dataset_sizes = {x: len(image_datasets[x]) for x in ['train', 'val']}
# 微调模型
def train_model(model, criterion, optimizer, num_epochs=25):
    for epoch in range(num_epochs):
        model.train()
        running_loss = 0.0
        for inputs, labels in dataloaders['train']:
            optimizer.zero_grad()
            outputs = model(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()
            running_loss += loss.item()
        
        epoch_loss = running_loss / dataset_sizes['train']
        print(f"Epoch {epoch}/{num_epochs}, Loss: {epoch_loss}")
    
    return model
# 开始训练
model = train_model(model, criterion, optimizer)

在实际应用中，还需根据具体的遥感数据特点和任务需求进行进一步的调整和优化。希望以上内容对您有所帮助。如果有任何疑问或需要进一步的解答，请随时告诉我。

报告相同问题？

关注问题

VGRSS: Datasets and Models for Visual Grounding in Remote Sensing Ship Images
2025-04-23 14:14

WUTCM-Lab的博客本文提出了一项名为遥感船舶图像视觉定位（VGRSS）的新任务。VGRSS的目标是通过自然语言指导在遥感图像中定位船舶目标。目前已有大量研究致力于遥感图像与文本的多模态处理，试图通过自然语言从遥感图像中获取丰富...
论文题目：RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data
2025-01-08 13:46

WUTCM-Lab的博客本文介绍了遥感数据（RSVG）的Visual Grounding任务。RSVG的目的是在自然语言的指导下定位遥感（RS）图像中的参考对象。为了利用自然语言从RS图像中获取丰富的信息，人们对RS图像视觉-问题回答、RS图像-字幕、RS...
【ACMMM 2022】 Visual Grounding in Remote Sensing Images
2025-10-29 17:23

Jerry~~京的博客遥感领域视觉定位；在大规模遥感图像之上构建了一个；设计了一种新颖的遥感图像视觉接地解决方案。
【TGRS 2023】RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data
2025-10-29 22:05

Jerry~~京的博客 Huang, “Visual grounding in remote sensing images,” in Proc. 30th ACM Int. Conf. Multimedia, Oct. 2022, pp. 404–412.】论文，但是没有讲论文做的数据集与之前的区别。还可以这样吗，大为震撼。 2. 解决...
GeoChat : Grounded Large Vision-Language Model for Remote Sensing论文精读
2025-03-25 23:35

LiXiang like coding吗的博客是一个针对遥感场景的llm，提供支持多任务对话（对高分辨率遥感图像）。也造了个数据集。一些思考：文中提到的局限性：小物体和多框预测较难。小物体在图像中占比小，可能特征不足难以正确定位。模型可能倾向于预测...
【论文阅读】GeoChat : Grounded Large Vision-Language Model for Remote Sensing
2024-02-18 18:55

SWPU_Xian-Jia的博客目前的大型视觉语言模型（VLMs）虽然能用于对给定的自然图像内容进行对话，但是这种通用领域的...为了解决这些问题，本文提出了第一个多功能遥感模型Geo Chat，将多模态指令调整扩展到遥感领域以训练多任务会话助手。
遥感图像中的目标检测（OD）MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing
2025-04-13 16:23

Qing_er爱吃山竹的博客该模型包括：多分支网络：融合空间、视觉和类别特征，生成任务感知提议；3）背景：传统的目标检测（OD）方法通常在遥感图像中表现良好，但在视觉定位（VG）任务中缺乏直观的先验知识，且现有方法在处理复杂的遥感...
[Survey]Remote Sensing Temporal Vision-Language Models: A Comprehensive Survey
2025-05-06 18:03

Xy-unu的博客遥感变化视觉问答 Remote Sensing Change Visual Question Answering 遥感变化视觉问答（RS - CVQA）任务旨在根据多时相遥感图像生成自然语言用户响应，以回答特定问题。与变化检测和变化描述不同，RS - CVQA 需要...
【TGRS 2024】Language-Guided Progressive Attention for Visual Grounding in Remote Sensing Images
2025-10-30 20:09

Jerry~~京的博客 2.1 构建 OPT-RSVG 数据集在目前最大的数据集 DIOR-RSVG 中，很大一部分图像在固定的拍摄角度下只包含明显的物体，这使得这项任务变得简单。为了解决这个限制，我们合成了一个更难的数据集 OPT-RSVG，该数据集来自...
论文翻译：Falcon: A Remote Sensing Vision-Language Foundation Model
2025-07-12 21:14

溯源006的博客为训练模型，研究团队构建了包含7800万样本的Falcon_SFT数据集，覆盖560万幅多分辨率遥感图像，并通过人工验证确保质量。实验表明，仅7亿参数的Falcon在67个数据集上表现优异。模型代码、数据和权重已在GitHub开源。...
arXiv 2025：A Survey on Remote Sensing Foundation Models: From Vision to Multimodality
2025-08-22 06:35

practical_sharp的博客由于自然图像与遥感图像之间存在模态差异，在自然图像上训练的模型难以在遥感任务上取得满意的结果。此外，由于遥感任务的专业性，获取标注的遥感图像较为困难。除了使用标注数据进行训练外，受MOCO [204] 等自监督...
遥感大模型汇总
2024-02-05 17:15

Magic@的博客下游任务：Scene Classification、Visual Question Answering、Visual Grounding REMOTE SENSING VISION-LANGUAGE FOUNDATION MODELS WITHOUT ANNOTATIONS VIA GROUND REMOTE ALIGNMENT 发表时间：2023.12.12 论文...
IEEE GRSM 2025：Foundation Models for Remote Sensing and Earth Observation A Survey
2025-08-20 04:32

practical_sharp的博客遥感视觉基础模型（VFMs）的研究主要聚焦于预训练策略（包括监督与无监督学习），其中...此外，SAM的引入催生了大量针对遥感数据的适配研究，将其效用扩展至不同遥感特定场景、语义识别任务、跨模态迁移和多模态处理。
视觉定位（Visual Grounding）十年回顾与未来方向 | Towards Visual Grounding: A Survey
2025-10-19 16:53

JUST LOVE SMILE的博客视觉定位（VG）通过自然语言描述在图像中定位目标区域，是连接视觉与语言理解的关键任务，分为指代表达理解（REC）（单目标定位）和短语定位（PG）（多目标定位）。其发展受数据、算法与算力推动。这篇文章揭露了...
IEEE GRSM 2024：Vision-Language Models in Remote Sensing Current progress and future trends
2025-08-21 09:15

practical_sharp的博客这些模型提供了更接近人类思维的智能解决方案，使我们能够运用通用人工智能（AI）解决各类应用场景中的问题。然而在遥感（RS）领域，关于通用人工智能实现的学术文献仍相对匮乏。现有遥感领域与AI相关的研究主要集中...
【读点论文】The Segment Anything Model (SAM) for Remote Sensing Applications: ... 感觉行文、绘图不太行，方法介绍有点水
2024-07-23 16:22

羞儿的博客然而，随着先进的人工智能 (AI) 和深度学习方法的出现，分割过程已经变得更加自动化，尽管仍然面临挑战，特别是在以最少的人工输入对图像进行有效分割方面。 Meta AI 开发的 Segment Anything Model (SAM) 是一种...
遥感多模态基础大模型汇总-实时更新
2024-08-29 22:02

遥感-GIS的博客 Remote Sensing Vision-Location Foundation Models 遥感视觉定位基础模型 Remote Sensing Vision-Audio Foundation Models 遥感视觉视频基础模型 Remote Sensing Task-specific Foundation Models 遥感特定任务基础...
遥感大模型
2024-06-03 22:15

大奎帝国的博客随着高光谱遥感技术的迅猛发展，光谱成像数据呈爆炸式增长，现有的分析方法和解译手段已不能满足全要素精细地物感知的需求，人工智能大模型的出现，为解决高光谱遥感数据信息充分提取与挖掘、实现“吃干榨净”提供了...
深度学习视角计算机视觉任务层次关系图【202508深度学习视角】
2025-08-23 23:09

u013250861的博客 L3层：中间集成任务 (Intermediate Integration)L4层：高级应用任务 (Advanced Applications)L5层：专业领域应用 (Domain Applications)L2层：扩展基础任务 (Extended Foundation)L0层：底层特征 (Low-level ...
计算机视觉论文-2021-06-29
2021-06-30 12:28

SophiaCV的博客 J�r�me Riedi CATEGORY: cs.CV [cs.CV] HIGHLIGHT: The first issue relates the building new public datasets and benchmarks, which are hot priority of the remote sensing community. 29, TITLE: CLIPDraw...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 3月18日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月18日

Remote sensing 领域的 visual grounding任务

3条回答 默认 最新

问题事件

3条回答默认最新