基于检索增强的大语言模型

我想建立一个基于RAG的大型语言模型。我知道通常首先加载文档，然后将文档分块，向量化并存储在向量数据库中，最后检索向量数据库的内容。我现在不明白的是，文档在分块后存储在向量数据库中，所以检索的不是块的向量吗？怎么才能返回整个文档的向量呢？

我想要的最终的答案是基于检索到的块的原始文档信息来组合LLM，但不确定如何实现。另一件让我困惑的事情是，我想要做的事基于多个文档的，如果我检索这些块，我可能会得到多个来自于不同文档的分块。但其他组块不满足我提出的问题，请问如何处理这种情况？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

4条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-05-21 20:10
关注
引自免费微信小程序：皆我百晓生

要构建一个基于检索增强的大型语言模型（例如RAG），你需要执行以下几个步骤：

文档预处理和分块：
加载文档：将文本数据集加载到内存中。
分块：将每个文档分割成较小的段落或句子。这可以按照固定长度（例如，每块256个单词）或按自然段落进行。

import re def split_into_blocks(text, block_size): return [text[i:i+block_size] for i in range(0, len(text), block_size)] documents = [...] # List of documents as strings block_size = 256 blocks = [] for doc in documents: blocks.extend(split_into_blocks(doc, block_size))

向量化：
使用预训练的嵌入模型（如BERT、RoBERTa等）将文本块转换为向量表示。
这里可以使用transformers库中的encode_plus方法。

from transformers import BertTokenizerFast, BertModel tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased') model = BertModel.from_pretrained('bert-base-uncased') encoded_blocks = [] for block in blocks: inputs = tokenizer.encode_plus(block, add_special_tokens=True) encoded_block = model(**inputs)[0].mean(dim=1) # Mean pooling over tokens encoded_blocks.append(encoded_block)

存储向量数据库：
将向量化后的块存储在一个可快速检索的数据结构中，如Faiss或Annoy。

from annoy import AnnoyIndex index = AnnoyIndex(encoded_blocks[0].shape[0], 'euclidean') # Choose an appropriate metric for i, vector in enumerate(encoded_blocks): index.add_item(i, vector.cpu().numpy()) # Assuming you're using PyTorch; use .numpy() for TensorFlow index.build(n_trees=10) # Tune this parameter for better performance

检索与组合：
当用户输入查询时，计算查询的向量表示，然后从向量数据库中找到最相关的文档块。
对于每个匹配的文档块，提取其原始文本，并将其传递给大型语言模型（LLM，如GPT-3）进行解码和答案生成。
可能会出现来自不同文档的块组合在一起的情况。为了处理这个问题，一种可能的方法是在组合时考虑块之间的语义连贯性，或者在生成答案时添加一些上下文提示。

query = "Your question here" query_encoded = encode_query(query, tokenizer, model) # Perform retrieval from the index relevant_indices = index.get_nns_by_vector(query_encoded.cpu().numpy(), k=10) # k is the number of top matches to retrieve # Retrieve original text and feed it into LLM retrieved_text = [blocks[i] for i in relevant_indices] llm_input = "Question: " + query + "\n" + "\n".join(retrieved_text) answer = generate_answer(llm_input, lmm_model) # Replace with your LLM generation function

注意：这里的代码片段仅作为示例，实际应用中可能需要根据具体需求进行调整。例如，编码和检索部分可能需要优化，以适应不同的模型和数据集规模。同时，generate_answer函数需要你自己实现，它应该调用一个预训练的语言模型（如Hugging Face Transformers中的GPT-3接口）来生成答案。如果你有多个文档来源，那么在检索阶段，确保你对每个来源都创建了一个独立的索引，以便正确地检索和组合结果。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

通过pivot检索所有与其他模型无关的模型 laravel php
2017-04-29 19:21

回答 1 已采纳 You are never actually executing the query. You need to call get() at the end of the query build
从laravel模型中检索记录 laravel php
2016-11-08 14:39

回答 2 已采纳 When you do Model::all()->take(30)->get();, you're actually saying "retrieve all of the data
检索模型时添加自定义属性 laravel php
2018-10-03 12:09

回答 2 已采纳 class User extends Model { public function getFooBarAttribute() { return "foobar";
陈丹琦 ACL'23 Tutorial - 基于检索的大语言模型学习笔记
2023-08-20 10:40

zenRRan的博客奔跑的柴原文：见文末阅读原文编辑：深度学习自然语言处理公众号本篇内容是对于ACL‘23会议上陈丹琦团队带来的Tutorial所进行的学习记录，以此从问题设置、架构、应用、挑战等角度全面了解检索增强的语言模型，作为...
检索Laravel中的相关模型 laravel php
2014-04-22 16:33

回答 1 已采纳 It's as simple as this: foreach ($campaigns as $campaign) { $campaign->name; // campaign mod
检索两个模型并按日期排序 laravel php
2017-03-11 10:08

回答 2 已采纳 The merge method was the answer : $posts = \App\Models\Post::where('draft', false)->orderBy('c
使用gorm检索没有模型的记录 postgresql
2018-07-05 19:56

回答 1 已采纳 As mentioned in the comments for this case there is no need to use gorm, you can retrieve the data
大语言模型在研究领域的应用——信息检索中的大语言模型
2024-04-22 17:12

什么都不太懂的程序员的博客大语言模型对于传统信息检索技术与应用范式带来了重要影响。这两者在技术路径上具有紧密的互补性。大语言模型拥有强大的语言理解、...本部分将概要介绍如何利用大语言模型提升信息检索效果，以及检索增强的大语言模型。
基于foreignKey Laravel从表中检索数据 laravel php
2019-04-18 09:15

回答 1 已采纳 According to the code you have posted it should be something like Soucategories::where('title', '
用大猩猩mux检索可选查询变量？
2017-09-05 01:20

回答 1 已采纳 As reflected in a comment, the basic answer is "that's not what mux is for". mux is great at picki
matlab中时间如何以月为单位开始检索？ matlab 开发语言
2023-03-15 19:37

回答 2 已采纳在MATLAB中，要创建一个以月为单位的日期范围，可以使用datetime对象的'months'参数。这是一个示例，展示了如何修改你的代码： date_start = datetime(1890, 1
《AI大模型应用》--基于BM25、BGE、OpenAI Embedding检索算法的检索增强生成RAG.zip
2024-07-19 17:15

个人深耕AI大模型应用领域积累的成果，希望对您有所帮助。有大模型账号、环境问题、AI大模型技术应用落地方案等相关问题，欢迎详聊，能为您解决问题是我的荣幸！个人深耕AI大模型应用领域积累的成果，希望对您有所...
R语言入门级问题，数据框的行删除，行设置为表头，检索不同类型的值，并修复相同的列 r语言
2020-08-20 17:28

回答 1 已采纳 https://blog.csdn.net/tandelin/article/details/100580996
基于大语言模型的专属知识库.zip
2024-03-14 22:55

在当前的数字化时代，人工智能（AI）已经成为科技发展的重要推动力，特别是在自然语言处理领域，大语言模型的应用正日益广泛。"基于大语言模型的专属知识库.zip"这个压缩包文件，显然旨在提供一个关于这一领域的专业...
RAG 与 LLM 相遇：面向检索增强大语言模型的技术综述
2024-05-26 06:29

硅谷秋水的博客作为人工智能领域最先进的技术之一，检索增强生成 (RAG) 技术可以提供可靠且最新的外部知识，为众多任务带来极大便利。特别是在人工智能生成内容 (AIGC) 时代，RAG 中强大的检索能力能够提供额外的知识，使得检索...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月21日

悬赏问题

¥15 关于#c语言#的问题，请各位专家解答！
¥15 这个如何解决详细步骤
¥15 在微信h5支付申请中，别人给钱就能用我的软件，这个的所属行业是啥？
¥30 靶向捕获探针设计软件包
¥15 别人给钱就能用我的软件，这个的经营场景是啥？
¥15 react-diff-viewer组件，如何解决数据量过大卡顿问题
¥20 遥感植被物候指数空间分布图制作
¥15 安装了xlrd库但是import不了…
¥20 Github上传代码没有contribution和activity记录
¥20 SNETCracker

基于检索增强的大语言模型

4条回答 默认 最新

问题事件

悬赏问题

4条回答默认最新