练习了一个矩阵乘法的例子,每个block配置16×16个thread,
当做5000×5000的矩阵乘法时,结果就全为0,核函数不执行不知道原因是什么?
每个grid每一维可以包含至少65535个block,算了下没有超出但是核函数没执行。。。

cuda核函数不执行的可能原因?
- 写回答
- 好问题 0 提建议
- 关注问题
- 邀请回答
-
5条回答 默认 最新
- threenewbee 2018-07-15 09:00关注
代码是在设备上运行的么,没有使用主机变量吧,没有爆内存吧,还有驱动程序对不对。你可以先测试自带的例子程序,排除环境问题。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决评论 打赏 举报无用 2