不肯认输 2024-01-22 03:51 采纳率: 100%
浏览 39
已结题

tesla m40跑AI报错 CUDA kernel errors

使用tesla m40跑AI报错 CUDA kernel errors
环境:win10 专业版
本人不懂英文,玩不转Linux
硬件:
英特尔 Xeon(至强) E5-2673 v3 @ 2.40GHz
主板 精粤 X99M-PLUS D3
显卡 AMD HD 6450 1 GB,接在PCIE1X转16X 转接板上
算力 Tesla M40 24G 大师跑分21万+
内存 48 GB ( 三星 DDR3 1866MHz 16GB x 3 )
AI程序:magicanimate 下载来源:github
python版本:3.10 之前还装了一个python 3.8没卸载

场景:杨丽萍孔雀舞视频+奥特曼图片=奥特曼跳孔雀舞视频,用来做娱乐直播素材
当前问题:用Tesla M40做算力卡,提示:
RuntimeError: CUDA error: the launch timed out and was terminated
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.
之前用2060显卡来跑,12G显存,能成功转换4秒视频不报错。4S视频太短了,一个视频要切成无数个4秒,太浪费生命了,所以尝试大显存的M40卡。

解决过程:
Above 4G memory/Crypto Currency mining 已开启
BIOS UEFI 模式,已开启
WDDM模式 已开启
CSM 已关闭

Tesla M40 驱动包:
538.15-data-center-tesla-desktop-win10-win11-64bit-dch-international.exe
文件版本:1.0.14.0 大小:495M 来源: N卡官网
WIN10系统设备管理器里看到的M40卡驱动版本:31.0.15.3815

CUDA版本 12.2 已安装,之前安装过CUDA10.1 报错信息一样,以为换成12.2能解决。结果一样报错。

本机因为只有一个PCIE16,插了M40后,亮机卡没地方插,所以用了1X转16X转接板。
即使不使用这张转接板,不接亮机卡,用远程桌面来连接,跑上面的AI,还是同样的报错。所以报错和亮机卡无关。

没有装:cudnn,没有装pytorch,因为magicanimate是WIN版本的,包里有自带的虚拟化功能。
之前用2060显卡是能正常跑不报错的。

现在想找人远程协助解决。总酬谢费80元。这个页面里写20元,只是因为是怕万一没人应答打水漂。
如果需要下载大文件,请提前告诉我,下载好了再远程。
谢谢!加我VX: V52595264

麻烦后面的人不要用AI来回答了,没用的,我通过度娘找了上百个链接,都是别人实操的案例写的文章,都没有解决掉我的问题哈!

展开全部

  • 写回答

12条回答 默认 最新

  • 叫兽-郭老师 Java领域新星创作者 2024-01-22 03:59
    关注

    这个报错信息认为是 CUDA 的内核执行超时了,也就是在GPU上进行的计算因为时间过长而被操作系统强行打断。在Windows的设备驱动模型(WDDM)中,GPU上的计算任务不能执行超过2秒,否则就会被操作系统重置,其目的是保证图形界面的响应性。

    理论上,你的程序可能已经正确地调用了GPU计算,但是由于GPU计算执行时间过长超过了2秒,导致了操作系统的强制中断。在使用训练过的深度网络处理大密度数据时,运行时间常常会超过这个限制。

    根据你的描述,你使用的Tesla M40显卡和CUDA应该是没有问题的,问题可能更多的在与你运行的AI应用程序。AI应用程序执行的计算任务可能是一个耗时较长的任务,以至于被操作系统中断了。

    对于这个问题,首先在你的程序或者运行环境中,尝试使用更小的批次大小来减少每个GPU任务的运行时间。另外,当使用GPU处理大规模的数据或者模型时,确保你的GPU有足够的内存是非常重要的。当GPU内存不足时,CUDA可能会试图把一部分数据在主机内存和设备内存之间移动,这可能导致额外的耗时,使得GPU任务超时。

    除此之外,尽管你的系统中的驱动应当不影响任务执行,但是一个好的驱动版本也可能帮助减少问题。你可以尝试更新到最新的驱动版本,或者尝试使用一下不同版本的驱动。

    如果完全无法解决问题,建议试试Linux环境,因为Windows环境下的这个2秒限制,在Linux环境下是不存在的。

    需要注意的是,这些只是我个人的一些想法,具体的情况还是需要你根据自己的环境进行适当的尝试和调试。希望这些信息对你有所帮助!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(11条)
编辑
预览

报告相同问题?

问题事件

  • 系统已结题 2月1日
  • 已采纳回答 1月25日
  • 修改了问题 1月22日
  • 修改了问题 1月22日
  • 展开全部

悬赏问题

  • ¥15 全志t113i启动qt应用程序提示internal error
  • ¥15 ensp可以看看嘛.
  • ¥80 51单片机C语言代码解决单片机为AT89C52是清翔单片机
  • ¥60 优博讯DT50高通安卓11系统刷完机自动进去fastboot模式
  • ¥15 minist数字识别
  • ¥15 在安装gym库的pygame时遇到问题,不知道如何解决
  • ¥20 uniapp中的webview 使用的是本地的vue页面,在模拟器上显示无法打开
  • ¥15 网上下载的3DMAX模型,不显示贴图怎么办
  • ¥15 关于#stm32#的问题:寻找一块开发版,作为智能化割草机的控制模块和树莓派主板相连,要求:最低可控制 3 个电机(两个驱动电机,1 个割草电机),其次可以与树莓派主板相连电机照片如下:
  • ¥15 潜在扩散模型的Unet特征提取
手机看
程序员都在用的中文IT技术交流社区

程序员都在用的中文IT技术交流社区

专业的中文 IT 技术社区,与千万技术人共成长

专业的中文 IT 技术社区,与千万技术人共成长

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

关注【CSDN】视频号,行业资讯、技术分享精彩不断,直播好礼送不停!

客服 返回
顶部