困惑1
个人理解,CLIP在图文检索中主要是依靠文本向量和图片的特征值的匹配度计算的,主要是匹配的过程。
但是无论搜索词是什么,最后的匹配结果都会且只会返回一系列”相似度“,即使搜索词跟图库完全无关。
那么问题随之而来:
以文搜图为例:
给定某一个图库,很可能搜索词对应图库中多结果或者搜索词在图库中无对应结果,此时该如何处理?
目前想到的一个方法是设置一个匹配度阈值,只采纳超过这个匹配度阈值的;但是这么做效果并不一定好,并且很取决于图库图像,不具有普适性
困惑2
By the way,网上的“图搜图”功能和“解释图片”功能是怎么实现的呢,和CLIP有关系吗?