给Chat with RTX添加语言模型时遇到问题

给Chat with RTX添加语言模型时遇到问题
开始量化时报错

点击确定后开始编译
最后报错

生成文件

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

16条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2024-02-28 17:35
关注
引自免费微信小程序：皆我百晓生：

在给Chat with RTX添加语言模型时遇到的问题，您提供的错误信息显示了几个关键点：

GPU内存不足：TensorRT（TRT）尝试分配超过当前GPU可用显存的内存。根据日志，TRT请求分配大约10256121856字节的GPU内存，但未能成功，并且GPTAttention插件需要额外的大约24182729088字节的临时空间（scratch space），而当前仅提供了约12884377600字节。

Error Code 2: OutofMemory (no further information) Requested amount of GPU memory (10256121856 bytes) could not be allocated. ... Internal error: plugin node PLUGIN_V2_GPTAttention_1 requires 24182729088 bytes of scratch space, but only 12884377600 is available.

解决方案建议：日志提示可以通过增加workspace size来解决这个问题，即通过IBuilderConfig::setMemoryPoolLimit()来增大TensorRT引擎构建时使用的显存池大小。

Try increasing the workspace size with IBuilderConfig:: setMemoryPoolLimit().

为了修正这个错误，请在构建TensorRT引擎时调整workspace大小以适应模型的需求。在您的Python脚本中，找到创建TensorRT IBuilderConfig 对象的部分，并设置合适的内存限制。例如：

# 假设builder是已创建的nvinfer1.IBuilder对象 config = builder.create_builder_config() config.set_flag(nvinfer1.BuilderFlag.GPU_FALLBACK) config.max_workspace_size = some_large_enough_value_in_bytes # 设置足够大的workspace大小 # 然后用配置来构建引擎 engine = builder.build_engine(network, config) # 检查引擎是否成功构建 assert engine is not None, f"Failed to build engine for rank {cur_rank}"

请确保您为workspace size设置了一个大于GPTAttention所需空间的值，并且不超过实际GPU显存总量。如果GPU显存不足以容纳模型，则可能需要考虑使用较小批次大小、减少模型规模或在具有更大显存的GPU上运行。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(15条)

报告相同问题？

关注问题

在做人工智能检测印章时遇到了问题 python 开发语言有问必答
2023-04-11 14:57

回答 9 已采纳编码成2进制后用base64转下 import json import base64 #yolo_res_list = yolo_res.pandas().xyxy[0].values.tolist
深度学习选择Rtx 3090还是Rtx A6000 人工智能机器学习深度学习
2021-06-04 14:38

回答 2 已采纳当然是两个3090，3090两张可以交火使用。另外折旧费用还低。我看过好多测评都算了3090性价比高。如果一个模型大于24G，3090直接放弃买A6000。防止并发性能受影响
NVIDIA的rtx2050显卡能干什么呢？人工智能深度学习神经网络
2022-05-29 17:29

回答 1 已采纳可以的，但是一些大的网络最好还是用服务器比如yolo之类的
Chat With RTX安装及中文大语言模型配置与使用体验
2024-03-27 12:02

sheex2012的博客 Chat with RTX是Nvidia发布的一款运行在PC或工作站上本地应用程序，它基于Mistral/Llama2等先进大语言模型，借助检索增强生成、NVIDIA TensorRT-LLM 软件及NVIDIA RTX加速技术，使模型与Nvidia Tensor核心的计算能力...
使用Pycharm运行以下LeNet5的模型进行mnist的训练时报错且不运行 keras python 人工智能
2022-07-18 18:32

回答 2 已采纳严重怀疑是你 TF 装的过程出了问题，建议重新安装或者使用 conda 隔离环境，可以参考 https://tf.wiki/zh_hans/basic/installation.html 的教程，安装
yolov5模型训练问题 pytorch 机器学习目标检测
2022-10-11 21:09

回答 3 已采纳你的pytorch的cuda版本选错了，torch1.7.0是支持cuda11.x的，但是你下载的是cu101,这个就表示支持的cuda是10.1。但是你环境里面的cuda是11.x（30系显卡不支持
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
Chat With RTX安装遇到的问题记录
2024-02-15 00:41

不要太复杂的博客安装完ChatWithRTX后初次运行时出现错误ModuleNotFoundError: No module named ‘llama_index’
RTX 3080 Ubuntu 18.04 cuda11.1 安装pytorch1.7.1出错人工智能机器学习深度学习神经网络
2021-01-17 23:48

回答 1 已采纳安装高版本的pytorch后问题解决。
rtx3060和3070区别大吗其他
2022-12-08 14:30

回答 1 已采纳 RTX3070在显存容量、位宽，流处理器、功耗等方面更有优势，有人测试过，RTX3060和RTX3070都是满功耗情况，在1080p下，玩游戏的帧数和画质跑分方面，相差10%-15%左右，如果是科研跑
测试tensorflow时gpu启动没有结果，如何解决？(语言-python) python tensorflow 深度学习
2022-08-06 18:22

回答 2 已采纳看起来你没有装cuda，cudnn这些包吧，运行时理论上cuda，cudnn如果被加载是会打印的。
NVIDIA Chat With RTX安装使用教程
2024-02-23 05:16

扫地的小何尚的博客世界各地每天有数百万人使用聊天...Chat with RTX 是一个技术演示，现已免费下载，可让用户使用自己的内容个性化聊天机器人，并由本地 NVIDIA GeForce RTX 30 系列 GPU 或更高版本（具有至少 8GB 显存和 VRAM）加速。
cuda与torch匹配问题 python pytorch
2022-09-23 18:53

回答 2 已采纳应该是RTX3050Ti是版本比较新，所以cuda需要11.X 可以参考https://blog.csdn.net/zc19981224/article/details/119705267?ops_
Chat with RTX安装教程 | 老黄新品：推出本地部署Chat with RTX,人人都能运行大模型！
2024-02-17 12:20

小泥人Hyper的博客 NVIDIA几天前“深夜放大”发布，这项技术只须要求你拥有配备8GB显存的NVIDIA RTX 30或40系列显卡。用户可以向其提供txt、doc、pdf文件或视频链接，定制模型以获取回答。值得一提的是，所有的索引工作都在本地进行，...
Nvidia Chat With RTX安装及疑难杂症
2024-02-19 23:41

汤姆懒猫的博客本人由于中间多次安装问题，并没有一键安装成功，所以后续步骤可个人视觉情况，而且只要满足关杀毒、不修改默认路劲，合理使用梯子，避免任何中文字段，应该可以一次搞定。C盘空间不足的，建议就不用折腾了（安装完...
安装 NVIDIA Chat with RTX
2024-02-14 13:08

engchina的博客安装 NVIDIA Chat with RTX
《英伟达-本地AI》--NVIDIA Chat with RTX-本机部署
2024-02-19 17:46

一单成的博客突然发现公司给配置的电脑是NVIDIA RTX 4060的显卡，这不搞一搞本地部署的大模型玩一玩？？？从0-》1记录一下本地部署的全过程。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 3月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月28日

悬赏问题

¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？

给Chat with RTX添加语言模型时遇到问题

16条回答 默认 最新

问题事件

悬赏问题

16条回答默认最新