cuda-fp16 api调用问题

我想使用半精度计算，目前运行环境是win7 64位，gpu是泰坦x，我想尝试调用 cuda_fp16.h 里的__hisnan()、__hadd()等函数。
调用：
const half KZero = float2half(0.0);
const half aa = __float2half(1.0);
const half bb =hadd(KZero, aa);
提示：
error : no suitable conversion function from "const half" to "int" exists。
我发现__hadd()函数不仅在cuda_fp16.h里有声明，在device_functions.h里也有声明，当我调用这个函数的时候我感觉总是调用device_functions.h里的这些函数。
请教：
请问有人知道问题所在吗？我怎么才能正确使用这些api函数呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2017-03-13 15:19
关注
http://blog.csdn.net/xuxiatian/article/details/51968570

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

编辑

预览

报告相同问题？

关注问题

CUDA使用FP16进行半精度运算
2018-01-13 13:10

lalalala256的博客 1、关于fp16定义CUDA 7.5 新特性介绍 -- FP16（即fp16是cuda7.5引入的，需要计算能力达到5.3或以上）16-bit Floating Point (半精度浮点)从 Tegra X1 开始，NVIDIA 的 GPU 将支持原生的 FP16 计算...
TensorRT-8.5.1.7.Windows10.x86-64.cuda-11.8.cudnn8.6.zip
2023-03-29 13:44

3. **模型优化**：TensorRT 提供了一系列 API，允许开发者对模型进行配置，如选择不同的操作精度（如 INT8、FP16 或 FP32），进行量化和剪枝，以达到性能和精度的最佳平衡。 4. **构建执行图**：优化后的模型会被...
【大模型】DeepSeek-R1-Distill-Qwen部署及API调用
2025-03-10 07:30

油泼辣子多加的博客是由中国人工智能公司深度求索（DeepSeek）开发的轻量化大语言模型，基于阿里巴巴的Qwen系列模型通过知识蒸馏技术优化而来。当前模型开源后，我们可以将其部署，使用API方式进行本地调用。
[大模型]MiniCPM-2B-chat FastApi 部署调用
2024-04-16 23:28

FL1623863129的博客 code=True允许加载远程代码 model = AutoModelForCausalLM.from_pretrained(path, torch_dtype=torch.bfloat16, device_map='cuda', trust_remote_code=True) model.eval() # 设置模型为评估模式 # 启动FastAPI应用 ...
CUDA-MODE课程笔记第8课: CUDA性能检查清单
2024-08-19 11:42

just_sort的博客 CUDA Occupancy calculator工具可以帮我们自动计算达到更好Occupancy的kernel启动参数，在上一节合并访存的.cu中调用这个Api结果显示，对于T4 GPU，最优的配置是网格大小为40，块大小为1024。代码见：...
Ubuntu——报错解决：gcc编译依赖CUDA时报错fatal error: cuda_runtime_api.h/cuComplex.h/cuda_fp16.h: 没有那个文件或目录
2022-05-09 03:40

Irving.Gao的博客将CUDA库的路径加入系统环境变量即可： export CPATH=/usr/local/cuda-11.2/targets/x86_64-linux/include:$CPATH export LD_LIBRARY_PATH=/usr/local/cuda-11.2/targets/x86_64-linux/lib:$LD_LIBRARY_PATH export ...
【生成模型】【ComfyUI（一）】Flux与Flux-Fill部署与API调用
2025-02-20 09:32

吃熊的鱼的博客 API调用 Flux版本介绍 Flux结构版本差异在于： ●FP8量化 / GGUF量化 / schnell 4步快速出图 / VAE+CLIP是否融合在一个权重文件里 model size GPU note Flux-Dev 23.8G(UNet) + 168M(VAE)+246M(CLIP)+9.79G(T5) ...
TensorRT-7.0.0.11.CentOS-7.6.x86-64-gnu.cuda-10.2.cudnn7.6
2022-11-09 06:34

- **多精度计算**：除了INT8，还支持FP16和FP32等不同精度的计算，以平衡性能与精度。 2. **CUDA 10.2**： - **提升GPU计算性能**：CUDA 10.2提供了更多GPU编程接口，优化了并行计算性能。 - **库更新**：包括...
【知识】详细介绍 CUDA Samples 示例工程
2024-06-27 05:55

小锋学长生活大爆炸的博客 fp16ScalarProduct 计算两个 FP16 数字向量的标量积。 matrixMul 这个示例实现了矩阵乘法，与编程指南第 6 章完全相同。它是为了清晰地说明各种 CUDA 编程原则，而不是为了提供最通用的高性能矩阵乘法内核。为了...
GPT-SoVITS项目的API改良与使用
2024-03-08 02:04

LLM教程的博客 GPT-SoVITS是一个非常棒的少样本中文声音克隆项目，之前有一篇文章详细介绍过如何部署和训练自己的模型，并使用该模型在web界面中合成声音，可惜它自带的 api 在调用方面支持比较差，比如不能中英混合、无法按标点...
没有解决我的问题, 去提问

cuda-fp16 api调用问题

1条回答 默认 最新

1条回答默认最新