学书才浅 2024-01-04 15:26 采纳率: 60%
浏览 24
已结题

openai的CLIP在图文检索中多结果和无结果怎么处理?

困惑1

个人理解,CLIP在图文检索中主要是依靠文本向量和图片的特征值的匹配度计算的,主要是匹配的过程。
但是无论搜索词是什么,最后的匹配结果都会且只会返回一系列”相似度“,即使搜索词跟图库完全无关。
那么问题随之而来:

以文搜图为例:

给定某一个图库,很可能搜索词对应图库中多结果或者搜索词在图库中无对应结果,此时该如何处理?
目前想到的一个方法是设置一个匹配度阈值,只采纳超过这个匹配度阈值的;但是这么做效果并不一定好,并且很取决于图库图像,不具有普适性

困惑2

By the way,网上的“图搜图”功能和“解释图片”功能是怎么实现的呢,和CLIP有关系吗?

  • 写回答

17条回答 默认 最新

  • 叫兽-郭老师 Java领域新星创作者 2024-01-04 15:43
    关注
    获得7.50元问题酬金

    困惑1:在使用CLIP进行图文检索时,的确,无论搜索词是什么,最后都可能返回一系列的“相似度”。但在实际的应用当中确实需要处理这个问题,其中一个最直接的方法就是设置一个阈值。这个阈值可以是静态的,也可以是动态的,具体取决于你的应用场景。当匹配度低于这个阈值,可以认为匹配失败,或者没有相关结果。当然,这个方法确实存在一些问题,比如阈值的设定往往取决于具体的图库,没有通用的设定方法,需要根据实际情况调整。

    另外一个取舍是返回结果的数量。你可以返回匹配度最高的一个结果,或者返回前N个结果。根据你的应用需要,如果是需要找到最佳匹配,返回一个;如果是需要提供用户多个选择,或者做进一步的筛选,可能就需要返回前N个结果。

    困惑2:“图搜图”和“解释图片”的功能也可以使用CLIP模型来实现,因为CLIP模型将图像和文本映射到同一语义空间,所以可以进行多种形式的检索:

    • “图搜图”:将输入图片使用CLIP模型生成特征向量,再与图库中的图片特征向量进行比较,返回最匹配的图片。
    • “解释图片”:是根据输入图片中的文本内容与某一预定义文本库进行对比,将最匹配的文字内容返回,这样文字内容可以作为图片内容的“解释”。
    评论

报告相同问题?

问题事件

  • 系统已结题 1月12日
  • 赞助了问题酬金15元 1月4日
  • 修改了问题 1月4日
  • 创建了问题 1月4日

悬赏问题

  • ¥15 is not in the mmseg::model registry。报错,模型注册表找不到自定义模块。
  • ¥15 安装quartus II18.1时弹出此error,怎么解决?
  • ¥15 keil官网下载psn序列号在哪
  • ¥15 想用adb命令做一个通话软件,播放录音
  • ¥30 Pytorch深度学习服务器跑不通问题解决?
  • ¥15 部分客户订单定位有误的问题
  • ¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
  • ¥15 Bug traq 数据包 大概什么价
  • ¥15 在anaconda上pytorch和paddle paddle下载报错
  • ¥25 自动填写QQ腾讯文档收集表