不肯认输 2024-01-22 11:51 采纳率: 100%
浏览 38
已结题

tesla m40跑AI报错 CUDA kernel errors

使用tesla m40跑AI报错 CUDA kernel errors
环境:win10 专业版
本人不懂英文,玩不转Linux
硬件:
英特尔 Xeon(至强) E5-2673 v3 @ 2.40GHz
主板 精粤 X99M-PLUS D3
显卡 AMD HD 6450 1 GB,接在PCIE1X转16X 转接板上
算力 Tesla M40 24G 大师跑分21万+
内存 48 GB ( 三星 DDR3 1866MHz 16GB x 3 )
AI程序:magicanimate 下载来源:github
python版本:3.10 之前还装了一个python 3.8没卸载

场景:杨丽萍孔雀舞视频+奥特曼图片=奥特曼跳孔雀舞视频,用来做娱乐直播素材
当前问题:用Tesla M40做算力卡,提示:
RuntimeError: CUDA error: the launch timed out and was terminated
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.
Compile with TORCH_USE_CUDA_DSA to enable device-side assertions.
之前用2060显卡来跑,12G显存,能成功转换4秒视频不报错。4S视频太短了,一个视频要切成无数个4秒,太浪费生命了,所以尝试大显存的M40卡。

解决过程:
Above 4G memory/Crypto Currency mining 已开启
BIOS UEFI 模式,已开启
WDDM模式 已开启
CSM 已关闭

Tesla M40 驱动包:
538.15-data-center-tesla-desktop-win10-win11-64bit-dch-international.exe
文件版本:1.0.14.0 大小:495M 来源: N卡官网
WIN10系统设备管理器里看到的M40卡驱动版本:31.0.15.3815

CUDA版本 12.2 已安装,之前安装过CUDA10.1 报错信息一样,以为换成12.2能解决。结果一样报错。

本机因为只有一个PCIE16,插了M40后,亮机卡没地方插,所以用了1X转16X转接板。
即使不使用这张转接板,不接亮机卡,用远程桌面来连接,跑上面的AI,还是同样的报错。所以报错和亮机卡无关。

没有装:cudnn,没有装pytorch,因为magicanimate是WIN版本的,包里有自带的虚拟化功能。
之前用2060显卡是能正常跑不报错的。

现在想找人远程协助解决。总酬谢费80元。这个页面里写20元,只是因为是怕万一没人应答打水漂。
如果需要下载大文件,请提前告诉我,下载好了再远程。
谢谢!加我VX: V52595264

麻烦后面的人不要用AI来回答了,没用的,我通过度娘找了上百个链接,都是别人实操的案例写的文章,都没有解决掉我的问题哈!

  • 写回答

12条回答 默认 最新

  • 叫兽-郭老师 Java领域新星创作者 2024-01-22 11:59
    关注

    这个报错信息认为是 CUDA 的内核执行超时了,也就是在GPU上进行的计算因为时间过长而被操作系统强行打断。在Windows的设备驱动模型(WDDM)中,GPU上的计算任务不能执行超过2秒,否则就会被操作系统重置,其目的是保证图形界面的响应性。

    理论上,你的程序可能已经正确地调用了GPU计算,但是由于GPU计算执行时间过长超过了2秒,导致了操作系统的强制中断。在使用训练过的深度网络处理大密度数据时,运行时间常常会超过这个限制。

    根据你的描述,你使用的Tesla M40显卡和CUDA应该是没有问题的,问题可能更多的在与你运行的AI应用程序。AI应用程序执行的计算任务可能是一个耗时较长的任务,以至于被操作系统中断了。

    对于这个问题,首先在你的程序或者运行环境中,尝试使用更小的批次大小来减少每个GPU任务的运行时间。另外,当使用GPU处理大规模的数据或者模型时,确保你的GPU有足够的内存是非常重要的。当GPU内存不足时,CUDA可能会试图把一部分数据在主机内存和设备内存之间移动,这可能导致额外的耗时,使得GPU任务超时。

    除此之外,尽管你的系统中的驱动应当不影响任务执行,但是一个好的驱动版本也可能帮助减少问题。你可以尝试更新到最新的驱动版本,或者尝试使用一下不同版本的驱动。

    如果完全无法解决问题,建议试试Linux环境,因为Windows环境下的这个2秒限制,在Linux环境下是不存在的。

    需要注意的是,这些只是我个人的一些想法,具体的情况还是需要你根据自己的环境进行适当的尝试和调试。希望这些信息对你有所帮助!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(11条)

报告相同问题?

问题事件

  • 系统已结题 2月2日
  • 已采纳回答 1月25日
  • 修改了问题 1月22日
  • 修改了问题 1月22日
  • 展开全部

悬赏问题

  • ¥15 问题遇到的现象和发生背景 360导航页面千次ip是20元,但是我们是刷量的 超过100ip就不算量了,假量超过100就不算了 这是什么逻辑呢 有没有人能懂的 1000元红包感谢费
  • ¥30 计算机硬件实验报告寻代
  • ¥15 51单片机写代码,要求是图片上的要求,请大家积极参与,设计一个时钟,时间从12:00开始计时,液晶屏第一行显示time,第二行显示时间
  • ¥15 用C语言判断命题逻辑关系
  • ¥15 原子操作+O3编译,程序挂住
  • ¥15 使用STM32F103C6微控制器设计两个从0到F计数的一位数计数器(数字),同时,有一个控制按钮,可以选择哪个计数器工作:需要两个七段显示器和一个按钮。
  • ¥15 在yolo1到yolo11网络模型中,具体有哪些模型可以用作图像分类?
  • ¥15 AD9910输出波形向上偏移,波谷不为0V
  • ¥15 淘宝自动下单XPath自动点击插件无法点击特定<span>元素,如何解决?
  • ¥15 曙光1620-g30服务器安装硬盘后 看不到硬盘