Chinese Clip是如何用Flickr30K-CN进行Text To Image检索进行召回率评测的

Flickr30K-CN只有一个图片5个文本，这在测试时可以用来召回率评估，可是一个文本没有多个图片如何进行文本检索图像的召回率呢

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-04-23 00:15
关注
引自免费微信小程序：皆我百晓生

为了进行基于Flickr30K-CN数据集的Text to Image检索并计算召回率，你需要遵循以下步骤：

数据预处理：
加载数据：从Flickr30K-CN数据集中加载图片和对应的五个描述。
文本编码：将每个文本描述转换为向量表示，例如使用预训练的词嵌入模型（如Word2Vec、GloVe或BERT）。
图像编码：对每张图片执行特征提取，通常使用预训练的深度学习模型（如ResNet、VGG或CLIP的视觉部分）。

这里我们使用PyTorch库，并假设已经有一个预训练的文本编码器（text_encoder）和一个预训练的图像编码器（image_encoder）。假设你已经有了这两个模型，以及相应的加载数据的方法（load_data）。

import torch from transformers import AutoTokenizer, AutoModel # 加载预训练的文本编码器（例如BERT） tokenizer = AutoTokenizer.from_pretrained("bert-base-chinese") model = AutoModel.from_pretrained("bert-base-chinese") # 假设 load_data 返回一个包含图片路径和对应描述列表的数据结构 data = load_data() # 预处理文本 def encode_text(texts): input_ids = [tokenizer.encode(t, padding="max_length", truncation=True) for t in texts] return torch.tensor(input_ids) texts = data["descriptions"] encoded_texts = encode_text(texts)

图像编码：
读取图片并将其转换为适当的形状。
使用图像编码器获取每个图片的向量表示。

# 假设 image_encoder 是一个已训练好的模型，如 ResNet 或 CLIP 的视觉部分 images = [plt.imread(path) for path in data["image_paths"]] images = preprocess_images(images) # 将图片调整到适当大小并归一化 encoded_images = image_encoder(images)

回归率计算：
对于每一个文本描述，找到与之最相似的图片。
计算正确匹配的数量（召回），然后除以总样本数得到召回率。

from sklearn.metrics.pairwise import cosine_similarity # 计算文本与图像之间的余弦相似度 similarity_matrix = cosine_similarity(encoded_texts, encoded_images.T) # 找到每个文本描述的最佳匹配索引 best_match_indices = similarity_matrix.argmax(axis=1) # 计算召回率 true_positives = (best_match_indices == torch.arange(len(data))).sum() recall_rate = true_positives / len(data) print(f"Recall rate: {recall_rate.item():.4f}")

这样，你就完成了基于Flickr30K-CN数据集的Text to Image检索，并计算了召回率。注意，由于这个数据集中的每个文本都只与单个图片相关联，因此召回率实际上就是准确率。在实际应用中，如果你想要评估更复杂的检索场景，可能需要使用不同的数据集，其中每个文本描述关联多个相关的图片。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

用Chinese-CLIP模型在本地数据集上实现image captioning。 python pytorch 有问必答
2022-12-27 17:11

回答 2 已采纳望采纳！点击该回答右侧的“采纳”按钮即可采纳！！！这只是一个简单的思路，实际实现过程可能会有所不同。还有很多细节需要注意，包括如何处理图像数据，如何生成字幕等安装所需的库和工具，包括 PyTorc
S7706 设置语言language-mode Chinese后显示黑框什么问题中文分词华为网络协议
2022-08-07 11:06

回答 2 已采纳登录的终端软件换换试试
这个用不同的对象调用同样的方法行为完全不同。所以这算不算多态？(语言-java) java 开发语言
2022-05-09 01:00

回答 2 已采纳你的person是父类，你或许可以这样写。person c=new chinese()C.eat()好像这样才叫多态，我一般这么写，仅供参考。
Chinese-CLIP使用教程
2024-04-27 15:01

好难怎么办的博客 1.用Make_json.py将xlsx里的文本转换成json格式（对于测试集只有文本，不知道图文对匹配关系的情况，每行的image_ids字段处理为空列表即可，即"image_ids": []）；用Img2base64将图片编码成base64格式（.tsv文件）2....
GPT2--Chinese生成文本报错 github python 深度学习
2022-01-08 09:37

回答 1 已采纳你下的项目，保存到什么位置。要先确认 generate.py 所在目录。看你的运行命令，貌似在这个地方 F:/GTP/GPT-Chinese/GPT2-Chinese-old_gpt_2_chin
jieba分词后，想要对分词进行词频统计和排序，使用print函数输出的是分词遍历的结果 python
2022-01-27 17:20

回答 1 已采纳 h_txt = getText() words = h_txt.split() counts = {} for word in words: counts[word] = counts.ge
函数可以访问同类中另一成员函数用new创建的对象吗？(语言-c++) c++ c语言
2022-05-08 16:08

回答 1 已采纳如果是另一成员函数里面定义的局部变量，那当然不可以
多模态表征—CLIP及中文版Chinese-CLIP：理论讲解、代码微调与论文阅读
2024-02-26 11:51

小小帅AIGC的博客 1.讲解CLIP的主要内容；2.讲解Chinese-CLIP的主要内容；3.CLIP/Chinese-CLIP代码微调；4.CLIP/Chinese-CLIP论文重点阅读
Google Sheets上用Openai API进行翻译的代码问题 javascript 前端机器学习
2023-03-13 09:14

回答 3 已采纳以下答案由GPT-3.5大模型与博主波罗歌共同编写：这里有几个问题需要修复： API请求中的payload格式不正确，应该使用params参数传递; 不应该在for循环里打log，因为这样的话，如果有
vs里出现不知如何解决的错误(语言-c语言) c++ c语言
2023-02-19 09:33

回答 2 已采纳您好，这个错误的原因是在使用 fopen() 函数时，使用了一个字符串字面量作为文件名，而该字符串字面量包含非法字符（在这个错误中，是反斜杠）。要解决这个错误，您可以使用两种方法之一： 1.将文件路
需求sphinx4-chinese模型训练教程 java sphinx 语音识别
2022-03-05 15:43

回答 5 已采纳 1.既然你已经有了chinese文档，那么只需要把.tic文件按照格式添加自己的音词就可以了。2.那个lm文档需要下载一个cmuclmtk进行转换，我这边看了演示使用文档（超级简单）。3.把修改后的t
VLM 系列——中文CLIP——论文解读
2024-01-23 20:19

TigerZ*的博客 CLIP 的中文版，训练使用2亿图-文对的分两阶段训练的对比学习（不是LLM的预测下一个token），是一个双塔模型（图像和文本各子拥有一个编码器）。由于对齐了图像和文本特征，可以用来做：图-图（文章中没有相关测试...
【AI视野·今日CV 计算机视觉论文速览第248期】Mon, 18 Sep 2023
2023-09-18 22:26

hitrjj的博客通过视觉语言预训练策略，我们在两个广泛使用的基准数据库 COCO 和 Flickr8k 上设置了最先进的 Im2Sp 性能。然后，我们进一步提高了 Im2Sp 模型的效率。与语音单元的情况类似，我们将原始图像转换为图像单元，这些...
【AI视野·今日NLP 自然语言处理论文速览第六十三期】Thu, 26 Oct 2023
2023-11-16 20:54

hitrjj的博客 AI视野·今日CS.NLP 自然语言处理论文速览 Thu, 26 Oct 2023 Totally 89 papers 上期速览✈更多精彩请移步主页 Daily Computation and Language Papers LLM-FP4: 4-Bit Floating-Point Quantized Transformers ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 5月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 4月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月23日

悬赏问题

¥15 想咨询点问题，与算法转换，负荷预测，数字孪生有关
¥15 C#中的编译平台的区别影响
¥15 软件供应链安全是跟可靠性有关还是跟安全性有关？
¥15 电脑蓝屏logfilessrtsrttrail问题
¥20 关于wordpress建站遇到的问题！(语言-php)（相关搜索：云服务器）
¥15 【求职】怎么找到一个周围人素质都很高不会欺负他人，并且未来月薪能够达到一万以上（技术岗）的工作？希望可以收到写有具体，可靠，已经实践过了的路径的回答？
¥15 Java+vue部署版本反编译
¥100 对反编译和ai熟悉的开发者。
¥15 带序列特征的多输出预测模型
¥15 Python 如何安装 distutils模块

Chinese Clip是如何用Flickr30K-CN进行Text To Image检索进行召回率评测的

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新