openai的CLIP在图文检索中多结果和无结果怎么处理？

困惑1

个人理解，CLIP在图文检索中主要是依靠文本向量和图片的特征值的匹配度计算的，主要是匹配的过程。
但是无论搜索词是什么，最后的匹配结果都会且只会返回一系列”相似度“，即使搜索词跟图库完全无关。
那么问题随之而来：

以文搜图为例：

给定某一个图库，很可能搜索词对应图库中多结果或者搜索词在图库中无对应结果，此时该如何处理？
目前想到的一个方法是设置一个匹配度阈值，只采纳超过这个匹配度阈值的；但是这么做效果并不一定好，并且很取决于图库图像，不具有普适性

困惑2

By the way，网上的“图搜图”功能和“解释图片”功能是怎么实现的呢，和CLIP有关系吗？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

17条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
叫兽-郭老师 Java领域新星创作者 2024-01-04 15:43
关注
获得7.50元问题酬金
困惑1：在使用CLIP进行图文检索时，的确，无论搜索词是什么，最后都可能返回一系列的“相似度”。但在实际的应用当中确实需要处理这个问题，其中一个最直接的方法就是设置一个阈值。这个阈值可以是静态的，也可以是动态的，具体取决于你的应用场景。当匹配度低于这个阈值，可以认为匹配失败，或者没有相关结果。当然，这个方法确实存在一些问题，比如阈值的设定往往取决于具体的图库，没有通用的设定方法，需要根据实际情况调整。

另外一个取舍是返回结果的数量。你可以返回匹配度最高的一个结果，或者返回前N个结果。根据你的应用需要，如果是需要找到最佳匹配，返回一个；如果是需要提供用户多个选择，或者做进一步的筛选，可能就需要返回前N个结果。

困惑2：“图搜图”和“解释图片”的功能也可以使用CLIP模型来实现，因为CLIP模型将图像和文本映射到同一语义空间，所以可以进行多种形式的检索：

“图搜图”：将输入图片使用CLIP模型生成特征向量，再与图库中的图片特征向量进行比较，返回最匹配的图片。
“解释图片”：是根据输入图片中的文本内容与某一预定义文本库进行对比，将最匹配的文字内容返回，这样文字内容可以作为图片内容的“解释”。
解决 2
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

用Chinese-CLIP模型在本地数据集上实现image captioning。 python pytorch 有问必答
2022-12-27 17:11

回答 2 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！这只是一个简单的思路，实际实现过程可能会有所不同。还有很多细节需要注意，包括如何处理图像数据，如何生成字幕等安装所需的库和工具，包括 PyTorc
这个阿里出的考题，怎么用算法编程去实现？
2018-11-24 06:14

回答 1 已采纳 https://blog.csdn.net/snayf/article/details/86584329
处理二进制数据和mb_function重载？ php
2017-11-09 17:00

回答 2 已采纳 MY SOLUTION TO THE WORRY I dislike answering my own questions... but I wanted to share what I hav
python源码计算机视觉课程设计-基于Chinese-CLIP的图文检索系统源码+文档说明+数据.rar
2024-05-19 19:26

2. Chinese-CLIP：基于OpenAI的CLIP模型，针对中文文本和图片进行优化，用于实现图文检索功能。 3. Flask：一个轻量级的Web框架，用于搭建系统的Web服务。 4. MySQL：关系型数据库，用于存储图片信息和用户上传的...
js生成字符串格式的样式如何加到标签中？ javascript react.js 有问必答
2022-04-12 14:22

回答 2 已采纳 style不支持@keyframes，直接放到style标签里面，要动态创建参考下面的参考动态创建style标签样式_折纸成鸢。的博客-CSDN博客_创建style标签
错误调用eq：Go模板中的比较类型无效
2018-08-20 00:58

回答 1 已采纳 Change your template/_layout.html to this <!DOCTYPE html> <html> <head> <tit
关于python 字符串find()和index()的疑问？ python
2021-04-07 09:15

回答 1 已采纳 https://blog.csdn.net/GXY1551705593/article/details/88057646
昆仑天工AIGC——基于Stable Diffusion的多语言AI作画大模型测评
2022-12-16 11:50

白水baishui的博客昆仑万维集团作为中国领先的互联网...在训练自编码器时，为了避免潜在表示空间出现高度的异化，作者使用了两种正则化方法，一种是KL-reg，另一种是VQ-reg，因此在官方发布的一阶段预训练模型中，会看到KL和VQ两种实现。
滚动切换式选关脚本报错，UnityException：Transform child of bounds，如何解决？(语言-c#) c# ui unity
2022-05-08 22:26

回答 1 已采纳猜测：MainCamera下面有子物体吗？这个：这个脚本路径应该可以精确到是哪行，针对性看一下就可以了
Canvas用clip裁剪之后填充的图有白边能解决吗 html5 javascript 有问必答
2021-06-23 14:56

回答 7 已采纳比如有一个10*10像素的矩形，如图需要按对角线裁剪成四个三角形分别绘出，如图对角线所占据的像素点（红色部分），无论在哪边的三角形中都不是完整的，从而无法绘出，形成透明毛边更改三角
如何在使用eluquent with vuejs时检索数据库列 javascript laravel php vue.js
2018-03-01 11:24

回答 1 已采纳 You have to load the words relationship (assuming that's the name): $dayOne = Content::where(['co
揭秘RAG多模态应用：Text2Image检索开源项目
2024-10-04 08:00

脱泥不tony的博客以文搜图（Text-to-Image Search）是一种利用文本描述来...基于CLIP（Contrastive Language-Image Pre-training）和Chinese-CLIP模型的以文搜图系统在近年来得到了广泛应用和研究。以下是对这两种模型及其应用的概述。
使用paddle框架部署深度学习在多块gpu上报错： AttributeError: module 'paddle.fluid.contrib' has no attribute 'reader' paddle python 深度学习
2022-08-31 14:54

回答 1 已采纳既然整的是动态图就抛弃fluid吧，这个应该是paddle2中逐步移除了。你改用paddle1.7，1.8等版本试一下吧。
【ChatGPT模型精调训练】AI 大模型精调 Fine-Tuning （微调）训练图文代码实战详解
2024-03-09 11:39

AI天才研究院的博客选择预训练模型：选择一个在类似任务上已经训练好的...预训练模型通常在大量无标签数据上进行训练，以学习通用的语言表示。通过 Fine-Tuning，我们可以在较小的标签数据集上训练模型，以便模型能够更好地解决特定任务。
大模型与LLM语言分析：如何利用LLM做多模态任务？
2024-10-03 07:15

人工智能MOS的博客大型语言模型LLM（Large Language Model）具有很强的通用知识理解以及较强的逻辑推理能力，但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力，但目前还未开放多模态输入接口并且不会透露任何模型上技术...
人工智能-开源大语言模型完整列表
2024-06-11 11:58

编程指南针的博客 Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。所谓"语言模型"，就是只用来处理语言文字（或者符号体系）...
开源大语言模型完整列表
2024-08-10 10:00

AI小白熊的博客 Large Language Model (LLM) 即大规模语言模型，是一种基于深度学习的自然语言处理模型，它能够学习到自然语言的语法和语义，从而可以生成人类可读的文本。所谓"语言模型"，就是只用来处理语言文字（或者符号体系）...
万字综述！从21篇最新论文看多模态预训练模型研究进展
2021-11-17 11:05

kaiyuan_sjtu的博客作者|杨浩单位|阿里达摩院研究方向|自然语言处理背景在传统的NLP单模态领域，表示学习的发展已经较为完善，而在多模态领域，由于高质量有标注多模态数据较少，因此人们希望能使用...
深度丨人大宋睿华：自然语言理解的重大突破为何是多模态？
2021-06-10 00:52

智源社区的博客智源导读：人是如何在一瞬间将语言理解成意义的？AI可以拥有这样制造意义的心智吗？在6月3日智源大会的视觉大模型论坛上，中国人民大学高瓴人工智能学院长聘副教授、悟道·文澜团队成员宋睿华作了题...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金15元 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 1月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月4日

悬赏问题

¥15 is not in the mmseg::model registry。报错，模型注册表找不到自定义模块。
¥15 安装quartus II18.1时弹出此error，怎么解决？
¥15 keil官网下载psn序列号在哪
¥15 想用adb命令做一个通话软件，播放录音
¥30 Pytorch深度学习服务器跑不通问题解决？
¥15 部分客户订单定位有误的问题
¥15 如何在maya程序中利用python编写领子和褶裥的模型的方法
¥15 Bug traq 数据包大概什么价
¥15 在anaconda上pytorch和paddle paddle下载报错
¥25 自动填写QQ腾讯文档收集表

openai的CLIP在图文检索中多结果和无结果怎么处理？

困惑1

以文搜图为例：

困惑2

17条回答 默认 最新

问题事件

悬赏问题

17条回答默认最新