练习了一个矩阵乘法的例子,每个block配置16×16个thread,
当做5000×5000的矩阵乘法时,结果就全为0,核函数不执行不知道原因是什么?
每个grid每一维可以包含至少65535个block,算了下没有超出但是核函数没执行。。。
cuda核函数不执行的可能原因?
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
5条回答 默认 最新
- threenewbee 2018-07-15 09:00关注
代码是在设备上运行的么,没有使用主机变量吧,没有爆内存吧,还有驱动程序对不对。你可以先测试自带的例子程序,排除环境问题。
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决评论 打赏 举报无用 2
悬赏问题
- ¥60 版本过低apk如何修改可以兼容新的安卓系统
- ¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
- ¥50 有数据,怎么建立模型求影响全要素生产率的因素
- ¥50 有数据,怎么用matlab求全要素生产率
- ¥15 TI的insta-spin例程
- ¥15 完成下列问题完成下列问题
- ¥15 C#算法问题, 不知道怎么处理这个数据的转换
- ¥15 YoloV5 第三方库的版本对照问题
- ¥15 请完成下列相关问题!
- ¥15 drone 推送镜像时候 purge: true 推送完毕后没有删除对应的镜像,手动拷贝到服务器执行结果正确在样才能让指令自动执行成功删除对应镜像,如何解决?