chromadb向量数据库一直存不进去embedding

我这里get了一下id0和id1，但是embeddings显示是None

我是这样创建的collection

self.collection = chroma_client.get_or_create_collection(name=collection_name,embedding_function=MyEmbeddingFunction())

EMBEDDING_MODEL用的是bge-large-zh

class MyEmbeddingFunction(EmbeddingFunction):
    def __call__(self, texts:Documents)->Embeddings:
        embeddings = [EMBEDDING_MODEL.encode(x).tolist() for x in texts]
        return embeddings

想问问大家到底是怎么回事

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-05-23 09:45
关注
引自免费微信小程序：皆我百晓生

看起来你在尝试将文本嵌入到Chromadex数据库中，并遇到了问题。首先，我们需要确认几个关键点：确保Bert模型（bge-large-zh）已经正确安装并且可用，其次，检查MyEmbeddingFunction类中的编码函数是否正常工作，以及在插入数据时是否正确传递了ID和嵌入向量。

为了更好地帮助你，我需要更多的上下文信息，比如错误信息、你尝试插入数据的部分代码等。然而，我可以给你一个例子，展示如何创建并使用ChromaDB集合以及如何插入数据。假设你已经在环境中安装了必要的库（包括chord和transformers）。

首先，确保你已经安装了所需的库：

pip install chord transformers

接下来，根据你的描述，我会提供一个完整的示例代码，用于设置ChromaDB集合，定义嵌入函数，然后插入数据。请替换your_api_key为你的实际API密钥，并确保你已经下载并安装了bge-large-zh模型。

import json from typing import List, Dict from chord.client import ChromaClient from chord.types import Documents, Embeddings from transformers import BertTokenizerFast, BertModel # 初始化Chroma客户端 chroma_client = ChromaClient(api_key="your_api_key") # 定义嵌入函数 class MyEmbeddingFunction(EmbeddingFunction): def __init__(self): self.tokenizer = BertTokenizerFast.from_pretrained("bge-large-zh") self.model = BertModel.from_pretrained("bge-large-zh").eval() def __call__(self, texts: Documents) -> Embeddings: inputs = self.tokenizer(texts, padding=True, truncation=True, max_length=512, return_tensors="pt") with torch.no_grad(): outputs = self.model(**inputs) last_hidden_states = outputs.last_hidden_state[:, 0] # Take <s> token embedding embeddings = last_hidden_states.detach().numpy() return [[emb.tolist()] for emb in embeddings] # 创建或获取集合 collection_name = "my_embedding_collection" embedding_function = MyEmbeddingFunction() self.collection = chroma_client.get_or_create_collection(name=collection_name, embedding_function=embedding_function) # 示例文本 texts = ["ide", "another text example"] # 获取嵌入向量 embeddings = self.collection.embed(texts) # 插入数据 data_to_insert = [{"id": f"id{i}", "text": t, "embedding": e} for i, (t, e) in enumerate(zip(texts, embeddings))] insert_result = self.collection.insert(data_to_insert) print(insert_result)

这个示例代码应该能帮你解决这个问题。如果你仍然遇到问题，请提供详细的错误信息或者插入数据部分的代码，以便我能更准确地定位问题。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

embedding 矩阵是根据什么来生成的呢 word2vec 自然语言处理
2022-07-20 15:03

回答 1 已采纳这个问题我以前也困扰过，研究半天发现结果其实特别简单，embedding 层就是一个查找表。这就是说，如果你有 10 个 token，也就是有 10 种 one-hot 编码，那么每一个 one-ho
Vgg16模型分析图片输出的向量维度可以改变吗？机器学习深度学习自然语言处理
2023-03-18 02:20

回答 5 已采纳参考GPT和自己的思路： Vgg16模型是一个预训练的深度卷积神经网络，它由若干个卷积层和池化层构成。在输入一张图片后，模型会输出一个特征向量，该向量的维度通常为1000，用来表示该图片的分类信息。这
文本数据为阿拉伯数字和运算符号怎么做embedding呢 nlp word2vec 语言模型
2023-03-30 10:43

回答 1 已采纳文章：深度学习中，embedding如何理解？中也许有你想要的答案，请看下吧
ChromaDB 开源向量数据库介绍及Python langchain问答系统应用示例
2024-08-11 18:49

学亮编程手记的博客 ChromaDB 是一个开源的向量数据库，专门设计用于存储和检索高维向量数据。它非常适合用于构建基于向量搜索的应用程序，如语义搜索、推荐系统或问答系统。ChromaDB 可以高效地处理大规模的数据集，并支持多种索引类型...
embedding的原理 matlab python 深度学习
2022-08-14 21:34

回答 2 已采纳 embedding的原理你可以去搜cbow和skip-gram，说白了就是用两边的字或词预测中间的，或者用中间的字或词预测两边的。第一，每个文本，我们可以取字也可以取词，以字为例，先生成字典{"以":
请问命名实体识别任务中如何在bilstm前加入embedding？ lstm nlp 自然语言处理
2022-01-17 21:39

回答 1 已采纳可以把BERT的Embedding层拿来用，也可以把BEET的输出视为embedding，也可以自己使用NN..Embedding定义一层Embedding层，自己进行训练
tensorflow 怎么进行变长序列的embedding？ tensorflow 数据挖掘深度学习神经网络自然语言处理
2020-09-11 16:23

回答 1 已采纳 https://blog.csdn.net/qq_27825451/article/details/88991529
LangChain教程 - 支持的向量数据库列举
2024-09-22 14:25

花千树-010的博客本地部署：FAISS、Chroma、Milvus 适合需要在本地进行开发和测试的项目。云托管解决方案：Pinecone、Weaviate、Zilliz Cloud 等...根据你的需求选择合适的向量数据库，与 LangChain 集成构建高效的检索增强生成系统。
输入和隐藏层不在同一设备上怎么处理！Input and hidden tensors are not at the same device pytorch 深度学习自然语言处理
2022-02-18 13:11

回答 2 已采纳 def init_hidden(self): return (torch.randn(2, self.batch, self.hidden_dim // 2)).to(self.device)
为什么浏览器不能解释更多编程语言？ [关闭] javascript php
2014-04-08 20:31

回答 2 已采纳 Most browsers interpret one programming language: JavaScript. Internet Explorer also supports (o
word embedding区分大小写吗，尤其是首字母 actionscript c语言 typescript
2023-03-09 21:07

回答 1 已采纳该回答引用ChatGPT 在 Word embedding 中，通常会将单词的大小写视为不同的单词，并分别对其进行编码，即大小写形式不同的单词会被视为不同的词汇，这是因为同一个单词的不同大小写形式可
LangChain实践-Data Connection（数据连接）之Vector Store(向量数据库）
2024-08-02 07:30

AI大模型 lose and dream的博客向量数据库是一种将数据存储为高维向量的数据库，高维向量是特征或属性的数学表示。每个向量都有一定数量的维度，根据数据的复杂性和粒度，可以从数十到数千不等。向量通常是通过对原始数据(如文本、图像、音频、...
【R】Error in as.data.frame.default(data, optional = TRUE) r语言有问必答
2022-03-09 20:32

回答 2 已采纳代码中这句：Model.1<-gls(dts~1,data=glm,na.action=na.omit)应该是data=lgm，不是glm,data参数需要是一个数据框，而不是一个函数。改一下即
基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型
2024-07-02 08:00

汀、人工智能的博客基于LangChain-Chatchat实现的RAG-本地知识库的问答应用[6]-实现Milvus向量检索+实现自定义关键词调整Embedding模型
向量数据库与LLM的集成：实践指南
2024-10-01 09:45

AI-智能的博客本文将了解到什么是向量数据库，以及如何与LLMs进行集成。通过LLMs和向量数据库的结合，可以节省微调带来的开销和时间。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月23日

悬赏问题

¥15 druid（相关搜索：数据库|防火墙）
¥15 大一python作业
¥15 preLaunchTask"C/C++: aarch64- apple-darwin22-g++-14 生成活动文件”已终止，退出代码为-1。
¥60 如何鉴定微信小程序数据被篡改过
¥18 关于#贝叶斯概率#的问题：这篇文章中利用em算法求出了对数似然值作为概率表参数，然后进行概率表计算，这个概率表是怎样计算的呀
¥20 C#上传XML格式数据
¥15 elementui上传结合oss接口断点续传，现在只差停止上传和继续上传，各大精英看下
¥20 手机截图相片分辨率降低一半
¥15 速求，对多种商品的购买力优化问题（用遗传算法、枚举法、粒子群算法、模拟退火算法等方法求解）
¥100 速求！商品购买力最优化问题（用遗传算法求解，给出python代码）

chromadb向量数据库一直存不进去embedding

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新