CUDA编程中如何使用双精度FP64单元，计算单精度FP32指令

我的CUDA核函数中只使用了INT32和FP32的数据类型，可是在用NVprofiler拿到的profiling中：
图片说明
却看到使用了FP64执行单元。

请问，这是什么原因呢？
另外，如何在kernel里面显式指定计算单元，比如指定使用FP64单元计算FP32指令？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2018-06-10 15:49
关注
https://blog.csdn.net/haima1998/article/details/78250143

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

在cuda编程中，一个核函数最多可以用多少个线程？ c++ c语言有问必答
2022-04-24 20:17

回答 2 已采纳调用核函数的时候，可以有多个block，，每个block所能容纳的最大线程数也是有限的。其实在硬件上，每个block里面的所有thread会共用一个处理器核心，而且它们共享的shared memory
cuda编程中，一个核函数可以最多运行多少个thread c++ 有问必答
2022-04-24 19:06

回答 2 已采纳 CUDA-Threadhttps://wenku.baidu.com/view/c3da123e2179168884868762caaedd3383c4b57a.html
pytorch训练完一个epoch计算验证集精度时怎样释放显存深度学习神经网络计算机视觉
2023-02-18 15:36

回答 2 已采纳基于Monster 组和GPT的调写：使用torch.cuda.empty_cache()函数手动释放显存。如果想要在每个epoch的训练结束后释放训练集显存，可以在每个epoch结束时调用该函数。
Nvidia GPU的浮点计算能力(FP64/FP32/FP16)
2019-10-11 11:26

john春风的博客其实说到浮点计算能力，首先得区分不同精度的浮点数，虽然Linpack测试里只关心双精度的浮点计算能力，但在其他领域，有时候反而会更加关注单精度甚至是半精度的浮点计算能力。半精度、单精度、双精度这些概念...
cuda编程数据传输 c++ 有问必答
2022-07-13 15:45

回答 2 已采纳可以看一下下面这篇文章： CUDA编程记之一基本使用及线程、同步、存储器_辜易的博客-CSDN博客_cuda 线程同步欢迎大家一起来观摩我
cuda编程困惑cudaMemcopy
2017-10-18 06:30

回答 2 已采纳 cudaMemcopy是CPU和GPU两者共同作用的结果。 GPU编程就是八股文，共分三个步骤： 1、在启动GPU计算前使用cudaMemcopy将计算机内存的数据拷贝入GPU内存中， 2、启动
Nvida GEforce GTX 1650支不支持CUDA编程吗？ c++
2019-07-17 11:27

回答 6 已采纳经过自己测试（可以在visual studio上编写CUDA程序），确实是支持的。
float-float 模拟CPU和GPU上double双精度计算
2022-06-08 09:31

weixin_42849849的博客混合精度数值计算
显示驱动显示 CUDA Version: 12.0可以安装 CUDA 11.7吗？人工智能深度学习计算机视觉
2023-02-20 19:11

回答 4 已采纳你这个是驱动能支持的cuda最大版本，也就是说你目前的这个驱动可以支持到cuda12.0，如果有cuda12.1你这个驱动就用不了了，所以是可以安装cuda11.7的，只要不高于这个12.0版本就行
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
cuda安装失败（使用pip install cuda） python 机器学习自然语言处理
2021-05-07 09:12

回答 4 已采纳你是要安装cuda工具包吗？不能直接使用pip安装，你需要到这个地址：https://developer.nvidia.com/cuda-toolkit-archive 上面找到对应版本（如使用的系统
双精度数举例_CUDA 8的混合精度编程
2020-12-30 18:06

weixin_39561179的博客 CUDA 8的混合精度编程Volta和Turing GPU包含 Tensor Cores，可加速某些类型的FP16矩阵数学运算。这样可以在流行的AI框架内更快，更轻松地进行混合精度计算。要使用Tensor Core，需要使用 CUDA 9 或更高版本。NVIDIA...
关于opencv+cuda混合编程遇到结果图横向重复四个块的问题！(语言-c++) c++ opencv 有问必答计算机视觉
2021-12-21 14:17

回答 4 已采纳你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为
大模型涉及到的精度是啥？FP32、TF32、FP16、BF16、FP8、FP4、NF4、INT8区别
2024-08-09 09:13

seetimee的博客浮点数精度：双精度（FP64）、单精度（FP32、TF32）、半精度（FP16、BF16）、8位精度（FP8）、4位精度（FP4、NF4）量化精度：INT8、INT4 （也有INT3/INT5/INT6的）另外，实际使用场景中，还有多精度和混合精度的概念...
双精度数举例_CUDA 8混合精度编程
2021-01-01 08:48

AcFun弹幕视频网的博客 CUDA 8混合精度编程Mixed-Precision Programming with CUDA 8论文地址：https://devblogs.nvidia.com/mixed-precision-programming-cuda-8/更新，2019年3月25日：最新的Volta和Turing GPU现在加入了张量核，加速了...
没有解决我的问题, 去提问

悬赏问题

¥30 关于#算法#的问题：运用EViews第九版本进行一系列计量经济学的时间数列数据回归分析预测问题求各位帮我解答一下
¥15 setInterval 页面闪烁，怎么解决
¥15 如何让企业微信机器人实现消息汇总整合
¥50 关于#ui#的问题：做yolov8的ui界面出现的问题
¥15 如何用Python爬取各高校教师公开的教育和工作经历
¥15 TLE9879QXA40 电机驱动
¥20 对于工程问题的非线性数学模型进行线性化
¥15 Mirare PLUS 进行密钥认证？（详解）
¥15 物体双站RCS和其组成阵列后的双站RCS关系验证
¥20 想用ollama做一个自己的AI数据库

CUDA编程中如何使用双精度FP64单元，计算单精度FP32指令

1条回答 默认 最新

悬赏问题

1条回答默认最新