关于图文检索模型（ResNet50权重到底怎么解决T T

刚接触相关的一个图文检索问题真的解决不了ResNet权重T T请问有什么办法解决吗？？
然后图像检索和文本检索也有好多问题试图叫GPT改一下改的我自己看不明白了T T
用VS Code和Jupyter Notebook跑的
可以帮忙看一下嘛可能后续也会有问题T T


import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import os
import tensorflow as tf
from tensorflow.keras.applications import ResNet50
from tensorflow.keras.applications.resnet50 import preprocess_input
from tensorflow.keras.preprocessing import image

# 读取word_test.csv文件
file_path = "此处我害怕报错写了绝对路径"
word_test = pd.read_csv(file_path, encoding='utf-8')

# 图像路径
image_path = "此处我害怕报错写了绝对路径"

# 图像特征提取
model = ResNet50(weights='imagenet', include_top=False)
def image_feature_extraction(image_path):
    img = image.load_img(image_path, target_size=(224, 224))
    img_array = image.img_to_array(img)
    img_array = np.expand_dims(img_array, axis=0)
    img_array = preprocess_input(img_array)

    features = model.predict(img_array)
    return features.flatten()

# 文本特征提取
tfidf = TfidfVectorizer()
word_embeddings = tfidf.fit_transform(word_test['caption'])

# 多模态特征融合
image_features = np.array([image_feature_extraction(os.path.join(image_path, img)) for img in os.listdir(image_path)])
combined_features = np.hstack((image_features, word_embeddings.toarray()))

# 图像检索
result1 = []
for text in word_test['caption']:
    text_embedding = tfidf.transform([text])
    similarities = []
    for i, feature in enumerate(combined_features):
        similarity = cosine_similarity([feature], text_embedding)
        similarities.append((i, similarity))

    similarities.sort(key=lambda x: x[1], reverse=True)
    top_five_images = [os.path.basename(os.listdir(image_path)[i]) for i, _ in similarities[:5]]
    result1.append(top_five_images)

result1_df = pd.DataFrame(result1, columns=['image1', 'image2', 'image3', 'image4', 'image5'])
result1_df.to_csv('result1.csv', index=False)

# 文本检索
result2 = []
for image_id in image_test['image_id']:
    image_text = image_data.loc[image_data['image_id'] == image_id, 'caption'].values[0]
    image_text_embedding = tfidf.transform([image_text])
    similarities = []
    for i, feature in enumerate(combined_features):
        similarity = cosine_similarity([feature], image_text_embedding)
        similarities.append((i, similarity))

    similarities.sort(key=lambda x: x[1], reverse=True)
    top_five_texts = [word_test['text_id'][i] for i, _ in similarities[:5]]
    result2.append(top_five_texts)

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

5条回答默认最新

专家-赤兔[在线] 优质创作者: 编程框架技术领域 2024-04-22 22:16

关注

引自免费微信小程序：皆我百晓生

看起来你在尝试构建一个简单的图文检索系统，其中包含两个主要部分：图像检索和文本检索。目前遇到的问题是关于ResNet50权重的处理以及整个代码的理解。我会为你提供详细的解释，并修复代码中的错误。

首先，对于ResNet50权重，你已经正确地在导入时设置了weights='imagenet'，这表示模型会加载预训练在ImageNet数据集上的权重。这意味着模型已经在大量图像上进行了训练，对图像有了一定的理解。不需要额外处理这些权重，它们会在模型运行时自动应用。

接下来，让我们逐步检查和修复代码中的问题：

避免使用绝对路径，将文件路径替换为相对路径，这样代码更易于移植。
修复图像检索和文本检索的部分逻辑错误。
对于word_test和image_test、image_data变量，看起来你在代码中没有定义它们，确保你已正确加载了这些数据。
使用Pandas进行CSV文件的写入操作，简化代码。

下面是修改后的代码：

import os
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import tensorflow as tf
from tensorflow.keras.applications import ResNet50
from tensorflow.keras.applications.resnet50 import preprocess_input
from tensorflow.keras.preprocessing import image

# 读取word_test.csv文件
# 假设文件在同一目录下
word_test = pd.read_csv("word_test.csv", encoding='utf-8')

# 图像路径
image_path = "images"  # 假设图像文件夹在同一目录下

# 图像特征提取
model = ResNet50(weights='imagenet', include_top=False)

def image_feature_extraction(image_path):
    img = image.load_img(image_path, target_size=(224, 224))
    img_array = image.img_to_array(img)
    img_array = np.expand_dims(img_array, axis=0)
    img_array = preprocess_input(img_array)

    features = model.predict(img_array)
    return features.flatten()

# 文本特征提取
tfidf = TfidfVectorizer()
word_embeddings = tfidf.fit_transform(word_test['caption'])

# 多模态特征融合
image_features = np.array([image_feature_extraction(os.path.join(image_path, img)) for img in os.listdir(image_path)])
combined_features = np.hstack((image_features, word_embeddings.toarray()))

# 图像检索
result1 = []
for i, text in enumerate(word_test['caption']):
    text_embedding = tfidf.transform([text])
    similarities = []

    for feature in combined_features:
        similarity = cosine_similarity([feature], text_embedding)
        similarities.append(similarity[0][0])

    result1.append(np.argsort(-similarities)[:5])

result1_df = pd.DataFrame(result1, columns=['image1', 'image2', 'image3', 'image4', 'image5'])
result1_df.to_csv('result1.csv', index=False)

# 文本检索
result2 = []
for image_id in word_test['image_id']:
    image_text = word_test.loc[word_test['image_id'] == image_id, 'caption'].values[0]
    image_text_embedding = tfidf.transform([image_text])
    similarities = []

    for i, feature in enumerate(combined_features):
        similarity = cosine_similarity([feature], image_text_embedding)
        similarities.append(similarity[0][0])

    result2.append(np.argsort(-similarities)[:5])

result2_df = pd.DataFrame(result2, columns=['text1', 'text2', 'text3', 'text4', 'text5'])
result2_df.to_csv('result2.csv', index=False)

这段代码应该能正常运行并输出结果到两个CSV文件中。如果你在运行过程中遇到任何其他问题，比如找不到文件路径或缺少数据，确保检查文件结构和数据是否正确加载。此外，根据实际情况调整路径和数据加载方式。

编辑记录

报告相同问题？

关注问题

PaddlePaddle CLIP模型应用：中文图文检索系统构建
2025-12-27 01:40

乾泽的博客利用PaddlePaddle优化的中文CLIP模型，构建高效图文跨模态检索系统。通过双编码器将文本与图像映射至统一语义空间，结合FAISS或Milvus实现快速相似匹配，支持以文搜图、以图搜文等应用，已在电商、内容平台等多个...
大语言模型原理基础与前沿检索增强视觉语言模型
2024-06-17 00:43

光子AI的博客近年来,人工智能领域取得了突飞猛进的发展,其中最引人注目的就是大语言模型(Large Language Models, LLMs)的崛起。从GPT系列到BERT,再到最新的ChatGPT,大语言模型在自然语言处理(NLP)领域展现出了惊人的能力。然而,...
PaddlePaddle图文检索Image-Text Retrieval应用
2025-12-26 12:13

Zeldovich Yakov的博客基于PaddlePaddle构建高效图文检索系统，涵盖双塔模型设计、PaddleHub快速接入、向量数据库集成与生产级部署方案。针对中文场景优化，支持电商搜索、内容推荐等应用，提供从训练到上线的完整路径，兼顾性能与落地...
多模态模型排行榜：图文理解能力哪家强？
2026-01-01 09:02

大思兄的视界的博客面对多模态模型的复杂训练与部署难题，ms-swift 提供了一站式解决方案，覆盖从模型下载、轻量微调、偏好对齐到高效推理的完整链路。通过集成LoRA、QLoRA、DPO等技术，显著降低资源消耗与工程成本，助力开发者快速...
多模态大语言模型（MMLLM）的现状、发展和潜力
2024-08-08 00:54

_冷眸_的博客近年来，基于Transformer的大模型，如Swin ...在单纯的语言理解能力上，BLIP 比大语言模型和后续的 BLIP2.0 要弱很多，而如果只是用基本的图文对齐能力，BLIP 又显得非常笨重，因此在工业界，BLIP1.0 的使用并不多。
视觉Token如何注入语言模型？VLM拆解
2025-08-20 16:58

赤壁淘沙的博客视觉-语言大模型（VLM）是视觉与语言大模型的融合，旨在实现多模态理解与交互。核心架构包含视觉编码器（如ViT）、投影器（对齐视觉与文本特征）和LLM（生成自然语言响应）。VLM通过预训练和零样本预测实现跨模态...
VLM（视觉语言模型）综述
2024-08-30 14:18

夏日的盒盒的博客对视觉语言多模态的模型进行介绍，涉及CLIP、GLIP、VLMo、Flamingo、BLIP等等。 VLMs的分类：根据VLM的输入处理和输出生成能力将其分为三个不同的组：视觉语言理解模型：专门为视觉信息与语言的解释和理解而设计的...
小红书开源多模态视觉语言模型DOTS-VLM1
2025-08-07 22:30

kakaZhui的博客 DOTS-VLM1是由小红书希实验室...支持多模态输入（图片+文本），具备强大的视觉语言理解与生成能力兼容主流视觉编码器（如 ViT、ResNet）与语言模型（如 LLM、BERT）开源训练代码与模型权重，易于复现与二次开发。
深度解读 Chinese CLIP 论文：开启中文视觉对比语言预训练
2025-02-27 21:38

Asia-Lee的博客本文提出了 Chinese CLIP，这是一个专为中文设计的视觉 - 语言基础模型。构建了一个包含约 2 亿个样本的预训练数据集，并使用所提出的两阶段预训练方法对一系列 Chinese CLIP 模型进行预训练，提高了预训练的效率和...
【ChatGPT模型精调训练】AI 大模型精调 Fine-Tuning （微调）训练图文代码实战详解
2024-03-09 11:39

光子AI的博客微调：在你的特定数据集上继续训练模型，调整模型的权重。评估：评估微调后模型的性能。应用：将微调后的模型部署到实际应用中。Fine-Tuning（精调）是指在预训练模型的基础上，对模型进行微调，使其适应特定任务。...
基于大语言模型的端到端多智能体机器学习自动化系统--AutoML Agent 开发：MLZero & AutoGluon Assistant 技术报告
2025-12-09 20:04

shiter的博客本报告综合分析了 MLZero 研究论文及其通过 AutoGluon ...92.0% 成功率在多模态 AutoML 智能体基准测试中，超越竞争对手263.6%MLE-Bench Lite 获得 6 枚金牌，在解决方案质量和效率上全面领先即使使用8B 参数的小模型。
一、LLM 大语言模型初窥：起源、概念与核心原理
2025-04-12 12:34

耿雨飞的博客大模型通过参数规模、模态融合与训练效率的突破，重构了技术范式、产业生态与人机关系。未来，AI将不仅是效率工具，更是推动社会生产力跃迁的核心引擎，其发展需在技术创新与伦理治理间寻求动态平衡。生成式模型是一...
多模态学习实战：CLIP实现以图搜文跨模态检索系统（人工智能丨深度学习丨计算机视觉丨自然语言处理丨大模型丨pytorch）
2025-05-16 17:38

AI规划师-南木的博客 CLIP通过对比学习实现的跨模态特征对齐，不仅革新了传统检索技术，更开启了"以语言为中心"的多模态学习范式。大规模弱监督数据与高效对比学习的结合，能够突破模态壁垒，生成具有泛化能力的通用特征表示。
从零开始搭建CLIP模型实现基于文本的图像检索
2025-04-19 19:30

负不负正的博客论文链接源码链接CLIP模型由OpenAI在2021年...CLIP是一个预训练模型(Pre-trained Model)，在学习到图像–文本特征之间的关联后可以迁移到各种下游任务中，如图像分类，文本引导图像分割和目标检测，图像文本检索等。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月22日

关于图文检索模型（ResNet50权重到底怎么解决T T

5条回答 默认 最新

问题事件

5条回答默认最新