我想使用半精度计算,目前运行环境是win7 64位,gpu是泰坦x,我想尝试调用 cuda_fp16.h 里的__hisnan()、__hadd()等函数。
调用:
const half KZero = float2half(0.0);
const half aa = __float2half(1.0);
const half bb =hadd(KZero, aa);
提示:
error : no suitable conversion function from "const half" to "int" exists。
我发现__hadd()函数不仅在cuda_fp16.h里有声明,在device_functions.h里也有声明,当我调用这个函数的时候我感觉总是调用device_functions.h里的这些函数。
请教:
请问有人知道问题所在吗?我怎么才能正确使用这些api函数呢?
关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率

首页/
cuda-fp16 api调用问题
收起
- 写回答
- 好问题 0 提建议
- 关注问题
微信扫一扫
点击复制链接分享
- 邀请回答
- 编辑 收藏 删除 结题
- 收藏 举报
1条回答 默认 最新
- 关注
码龄 粉丝数 原力等级 --
- 被采纳
- 被点赞
- 采纳率
dabocaiqq 2017-03-13 15:19关注本回答被题主选为最佳回答 , 对您是否有帮助呢? 本回答被专家选为最佳回答 , 对您是否有帮助呢? 本回答被题主和专家选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏举报微信扫一扫
点击复制链接分享
编辑预览轻敲空格完成输入- 显示为
- 卡片
- 标题
- 链接
评论按下Enter换行,Ctrl+Enter发表内容
编辑
预览

轻敲空格完成输入
- 显示为
- 卡片
- 标题
- 链接
报告相同问题?
提交
- 2018-01-13 13:10lalalala256的博客 1、关于fp16定义CUDA 7.5 新特性介绍 -- FP16(即fp16是cuda7.5引入的,需要计算能力达到5.3或以上)16-bit Floating Point (半精度浮点)从 Tegra X1 开始,NVIDIA 的 GPU 将支持原生的 FP16 计算...
- 2023-03-29 13:443. **模型优化**:TensorRT 提供了一系列 API,允许开发者对模型进行配置,如选择不同的操作精度(如 INT8、FP16 或 FP32),进行量化和剪枝,以达到性能和精度的最佳平衡。 4. **构建执行图**:优化后的模型会被...
- 2025-03-10 07:30油泼辣子多加的博客 是由中国人工智能公司深度求索(DeepSeek)开发的轻量化大语言模型,基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后,我们可以将其部署,使用API方式进行本地调用。
- 2024-04-16 23:28FL1623863129的博客 code=True允许加载远程代码 model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map='cuda', trust_remote_code=True) model.eval() # 设置模型为评估模式 # 启动FastAPI应用 ...
- 2024-08-19 11:42just_sort的博客 CUDA Occupancy calculator工具可以帮我们自动计算达到更好Occupancy的kernel启动参数,在上一节合并访存的.cu中调用这个Api结果显示,对于T4 GPU,最优的配置是网格大小为40,块大小为1024。代码见:...
- 2022-05-09 03:40Irving.Gao的博客 将CUDA库的路径加入系统环境变量即可: export CPATH=/usr/local/cuda-11.2/targets/x86_64-linux/include:$CPATH export LD_LIBRARY_PATH=/usr/local/cuda-11.2/targets/x86_64-linux/lib:$LD_LIBRARY_PATH export ...
- 2025-02-20 09:32吃熊的鱼的博客 API调用 Flux版本介绍 Flux结构 版本差异在于: ●FP8量化 / GGUF量化 / schnell 4步快速出图 / VAE+CLIP是否融合在一个权重文件里 model size GPU note Flux-Dev 23.8G(UNet) + 168M(VAE)+246M(CLIP)+9.79G(T5) ...
- 2022-11-09 06:34- **多精度计算**:除了INT8,还支持FP16和FP32等不同精度的计算,以平衡性能与精度。 2. **CUDA 10.2**: - **提升GPU计算性能**:CUDA 10.2提供了更多GPU编程接口,优化了并行计算性能。 - **库更新**:包括...
- 2024-06-27 05:55小锋学长生活大爆炸的博客 fp16ScalarProduct 计算两个 FP16 数字向量的标量积。 matrixMul 这个示例实现了矩阵乘法,与编程指南第 6 章完全相同。它是为了清晰地说明各种 CUDA 编程原则,而不是为了提供最通用的高性能矩阵乘法内核。为了...
- 2024-03-08 02:04LLM教程的博客 GPT-SoVITS是一个非常棒的少样本中文声音克隆项目,之前有一篇文章详细介绍过如何部署和训练自己的模型,并使用该模型在web界面中合成声音,可惜它自带的 api 在调用方面支持比较差,比如不能中英混合、无法按标点...
- 没有解决我的问题, 去提问
联系我们(工作时间:8:30-22:00)
400-660-0108kefu@csdn.net在线客服
- 京ICP备19004658号
- 经营性网站备案信息
公安备案号11010502030143
- 营业执照
- 北京互联网违法和不良信息举报中心
- 家长监护
- 中国互联网举报中心
- 网络110报警服务
- Chrome商店下载
- 账号管理规范
- 版权与免责声明
- 版权申诉
- 出版物许可证
- ©1999-2025北京创新乐知网络技术有限公司