关于python加载模型的问题

这是我们的模型加载，以及调用的代码

def early_reply_model():
    """
    function：得到的是加载后的模型，这里是一个生存器
    """
    chat_model = ChatModel(dict(
        model_name_or_path=model_name_or_path,
        adapter_name_or_path=adapter_name_or_path,
        finetuning_type="lora",
        template="Testing",
    ))

    return chat_model


```  #下面是调用模型的代码，通过遍历生存器获取回复
        messages = []
        messages.append({"role": "user", "content": issue})
        response = ""
        for new_text in chat_model.stream_chat(messages):
            response += new_text

问题：
我们的模型加载和调用，都是通过这种方式，
现在当我同时加载两个模型时，会报错gpu显存不足，请问怎么解决这个问题呢
支持同时加载，同时调用

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-05-23 09:55
关注
引自免费微信小程序：皆我百晓生

为了解决在单个GPU上加载多个模型导致的显存不足问题，可以采取以下几种策略：

模型融合（如果有条件）：如果两个模型的任务相似，可以尝试将它们融合成一个模型，以减少内存占用。

动态加载：仅在需要时加载模型，用完后立即卸载。这可以通过使用Python的垃圾回收机制或者自定义上下文管理器来实现。

模型量化与剪枝：对模型进行量化（从浮点数到整数转换）和剪枝（删除不重要的权重），可以降低模型大小。

数据并行性：如果您的GPU支持，可以考虑使用DataParallel进行多进程处理。然而，这通常只适用于训练，且对推理阶段帮助有限。

使用CPU：如果可能的话，在CPU上运行部分或全部模型。

增加硬件资源：购买具有更多GPU的服务器，或者使用GPU云服务。

对于Python代码，我们可以尝试采用动态加载的方法。首先确保每个模型都在独立的函数中加载，然后在需要的时候再调用这些函数。下面是一个例子，展示了如何使用上下文管理器来自动加载和卸载模型：

import torch from torch.cuda import max_memory_allocated, memory_allocated class ModelLoader: def __init__(self, model_func): self.model_func = model_func self.model = None def __enter__(self): if torch.cuda.is_available(): print("Loading model onto GPU") self.model = self.model_func() self.model.to('cuda') else: print("No CUDA available, loading on CPU") self.model = self.model_func() return self.model def __exit__(self, exc_type, exc_value, traceback): if torch.cuda.is_available(): print("Unloading model from GPU") del self.model torch.cuda.empty_cache() else: print("Unloading model from CPU") del self.model # 假设我们有两个模型加载函数 def load_model_1(): return torch.nn.Linear(10, 10) def load_model_2(): return torch.nn.Conv2d(1, 1, kernel_size=3) # 使用示例 with ModelLoader(load_model_1) as model1: # 在这里使用model1 pass print(f"Memory used after model1: {memory_allocated()}") with ModelLoader(load_model_2) as model2: # 在这里使用model2 pass print(f"Memory used after model2: {memory_allocated()}")

这种方法有助于在不同时间点加载不同的模型，并在使用完毕后释放内存。但是，需要注意的是，这并不保证绝对的内存释放，因为Python的垃圾回收机制可能会延迟释放内存。在实际应用中，你可能需要根据具体情况进行调整。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python编程解决问题 python 有问必答
2021-06-09 20:56

回答 2 已采纳 import random a=[] sum=0 max=0 min=1000 for i in range(20): a.append(random.randint(1,999))
Python编程语言中:f的含义 python 开发语言
2021-11-05 17:43

回答 3 已采纳 f-string采用 {content:format} 设置字符串格式，其中 content 是替换并填入字符串的内容，可以是变量、表达式或函数等，format 是格式描述符.具体函数可以参考看
Python编程语言 list python 有问必答
2021-12-29 11:00

回答 2 已采纳 import random n=int(input()) list=[] for i in range(n): list.append(random.randint(1,200)) print
python训练好的模型保存与加载
2021-01-07 03:19

python训练好的模型保存与加载当我们训练好一个模型model后，如果在其他程序中或者下次想继续使用这个model，我们就需要把这个model保存下来，下次使用时直接导入就好了，不需要重新训练。方式一：采用joblib模块...
Python大学编程问题(竖向输出) python
2022-05-23 20:37

回答 1 已采纳 a = int(input()) for i in str(a): b = [i]*9 print("\t\t".join(b))
python存款买房1问题解答 python 开发语言
2022-10-26 17:29

回答 1 已采纳 total_cost = float(input("请输入总房价: ")) # total_cost为当前房价 annual_salary = float(input("请输入年薪: ")) #
关于使用预训练模型训练CycleGAN模型的问题(语言-python) python pytorch 机器学习
2022-03-06 21:46

回答 1 已采纳 ./checkpoints/{xXx}/这些需要自己创建的，xxx为模型的名称，建好之后把模型放在这里面就行
Python-大规模transformer语言模型包括BERT
2019-08-10 05:49

标题中的“Python-大规模transformer语言模型包括BERT”指出我们将探讨使用Python编程语言构建和训练大规模Transformer语言模型，其中特别提到了BERT模型。Transformer模型是由Google在2017年提出的一种深度学习架构...
Python能做probit模型吗？ python
2022-05-01 21:54

回答 1 已采纳 python可以做probithttps://www.cnpython.com/qa/212857https://wenku.baidu.com/view/1bdfdf34cf7931b765ce05
vs2022怎么补充编程语言 c++ c语言 python
2022-06-10 21:50

回答 2 已采纳开始菜单中可以找到visualstudio，打开installer，修改就行了
Python编程填空 python
2021-06-16 10:45

回答 1 已采纳 1、mstr
python保存和加载模型.rar
2024-01-27 23:03

Python是一种高级编程语言，也是一种解释型脚本语言，由Guido van Rossum于1991年创造。它的设计目标是提供一种简单易学、可读性强的编程语言，适用于多种应用场景。 Python具有以下特点： 1. 简洁易读：Python的...
Python IPO模型 python 有问必答
2021-07-03 10:36

回答 1 已采纳 import math def quadratic(a, b, c): if (b * b - 4 * a * c) < 0: return 'None' D
Python-使用预训练语言模型BERT做中文NER
2019-08-10 06:35

"Python开发-自然语言处理" 标签表明我们将使用Python编程语言，并专注于自然语言处理领域的应用。Python因其丰富的库和易读性而成为NLP任务的首选语言，而在这个项目中，我们可能会用到如Hugging Face的...
基于大语言模型的交互式视频检索引擎，使用python+Django框架实现的
2024-02-26 15:07

2. **模型集成**：将大语言模型整合到Python环境中，通过API调用或直接加载模型权重，使其能够处理用户输入的自然语言查询。 3. **查询处理**：用户输入查询后，大语言模型会对其进行解析，生成与视频特征相匹配的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月23日

悬赏问题

¥15 远程访问linux主机超时
¥15 odoo17存货管理优势于中国国内该行业传统ERP或MES的详细解读和举例
¥15 CPU卡指令整合指令数据都在图片上
¥15 火车票关联12306问题
¥15 odoo17处理受托加工产品
¥15 如何用MATLAB编码图三的积分
¥15 圆孔衍射光强随孔径变化
¥15 MacBook pro m3max上用vscode运行c语言没有反应
¥15 ESP-PROG配置错误，ALL ONES
¥15 结构功能耦合指标计算

关于python加载模型的问题

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新