Ascend C算子开发能力认证考试(中级)

基础环境都搞定了，还差代码这块。谁做了帮我看看，应该怎么改，主要是：Compute函数这块。

#include "kernel_operator.h"
using namespace AscendC;
constexpr int32_t BUFFER_NUM = 2;
class KernelSigmoid {
public:
    __aicore__ inline KernelSigmoid() {}
    __aicore__ inline void Init(GM_ADDR x, GM_ADDR y, uint32_t totalLength, uint32_t tileNum)
    {
        //考生补充初始化代码
        ASSERT(GetBlockNum() != 0 && "block dim can not be zero!");
        this->blockLength = totalLength / GetBlockNum();
        this->tileNum = tileNum;
        ASSERT(tileNum != 0 && "tile num can not be zero!");
        this->tileLength = this->blockLength / tileNum / BUFFER_NUM;
        xGm.SetGlobalBuffer((__gm__ DTYPE_X *)x + this->blockLength * GetBlockIdx(), 
        this->blockLength);
        yGm.SetGlobalBuffer((__gm__ DTYPE_Y *)y + this->blockLength * GetBlockIdx(), 
        this->blockLength);
        pipe.InitBuffer(inQueueX, BUFFER_NUM, this->tileLength * sizeof(DTYPE_X));
        pipe.InitBuffer(outQueueY, BUFFER_NUM, this->tileLength * sizeof(DTYPE_Y));
        pipe.InitBuffer(tmpBuffer1, this->tileLength * sizeof(DTYPE_X));
        pipe.InitBuffer(tmpBuffer2, this->tileLength * sizeof(DTYPE_X));
        pipe.InitBuffer(tmpBuffer3, this->tileLength * sizeof(DTYPE_X));
        pipe.InitBuffer(tmpBuffer4, this->tileLength * sizeof(DTYPE_X));
    }
    __aicore__ inline void Process()
    {
        // 补充对“loopCount”的定义，注意对Tiling的处理
        int32_t loopCount = this->blockLength / this->tileLength;
        for (int32_t i = 0; i < loopCount; i++) {
            CopyIn(i);
            Compute(i);
            CopyOut(i);
        }
    }

private:
    __aicore__ inline void CopyIn(int32_t progress)
    {
        //考生补充算子代码
        LocalTensor<DTYPE_X> xLocal = inQueueX.AllocTensor<DTYPE_X>();
        DataCopy(xLocal, xGm[progress * this->tileLength ], this->tileLength);
        inQueueX.EnQue(xLocal);
    }
    __aicore__ inline void Compute(int32_t progress)
    {
        //考生补充算子计算代码: sigmoid(x) = 1/(1 + exp(-x)) 
        LocalTensor<DTYPE_X> xLocal = inQueueX.DeQue<DTYPE_X>();
        LocalTensor<DTYPE_Y> yLocal = outQueueY.AllocTensor<DTYPE_Y>();
        LocalTensor<DTYPE_X> tmpTensor1 = tmpBuffer1.Get<DTYPE_X>();
        LocalTensor<DTYPE_X> tmpTensor2 = tmpBuffer2.Get<DTYPE_X>();
        LocalTensor<DTYPE_X> tmpTensor3 = tmpBuffer3.Get<DTYPE_X>();
        LocalTensor<DTYPE_X> tmpTensor4 = tmpBuffer4.Get<DTYPE_X>();
        DTYPE_X inputVal1 = -1;
        //目标公式：sigmoid(x) = 1/(1 + exp(-x)) 
        /**
        将输入张量乘以-1（Muls），得到-x。
        计算exp(-x)（Exp）。
        计算1 + exp(-x)（Add）。
        计算1 / (1 + exp(-x))（Reciprocal）。
        **/
        DTYPE_X inputVal3 = 1;
        Muls(tmpTensor1, xLocal, inputVal1, this->tileLength);
        Exp(tmpTensor2, tmpTensor1, this->tileLength);
        Adds(tmpTensor3, tmpTensor2, inputVal3, this->tileLength);
        // 精度问题，需要使用Div但是Div这个函数使用不熟悉，下面这句应该如何改。
        Reciprocal(yLocal, tmpTensor3, this->tileLength);
        outQueueY.EnQue<DTYPE_Y>(yLocal);
        inQueueX.FreeTensor(xLocal);
    }
    __aicore__ inline void CopyOut(int32_t progress)
    {
        // 考生补充算子代码
        LocalTensor<DTYPE_Y> yLocal = outQueueY.DeQue<DTYPE_Y>();
        DataCopy(yGm[progress * this->tileLength], yLocal, this->tileLength);
        outQueueY.FreeTensor(yLocal);
    }

private:
    TPipe pipe;
    //create queue for input, in this case depth is equal to buffer num
    TQue<QuePosition::VECIN, BUFFER_NUM> inQueueX;
    //create queue for output, in this case depth is equal to buffer num
    TQue<QuePosition::VECOUT, BUFFER_NUM> outQueueY;
    GlobalTensor<half> xGm;
    GlobalTensor<half> yGm;

    //考生补充自定义成员变量
    TBuf<QuePosition::VECCALC> tmpBuffer1, tmpBuffer2, tmpBuffer3, tmpBuffer4;
    uint32_t blockLength;
    uint32_t tileNum;
    uint32_t tileLength;
};
extern "C" __global__ __aicore__ void sigmoid_custom(GM_ADDR x, GM_ADDR y, GM_ADDR workspace, GM_ADDR tiling) {
    GET_TILING_DATA(tiling_data, tiling);
    KernelSigmoid op;
    //补充init和process函数调用内容
    op.Init(x, y, tiling_data.totalLength, tiling_data.tileNum);
    op.Process();
}

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
一杯年华@编程空间 2025-06-04 17:21
关注
一杯年华@编程空间帮您解答，本答案结合 ChatGPT4.0和DeepSeek整理

我曾经遇到过类似的问题，在Ascend C算子开发中处理精度和函数调用的问题。下面结合代码分析并给出解决方案。

问题分析

代码主要问题在Compute函数的精度处理上。原代码使用Reciprocal计算倒数，但可能因数据类型或计算逻辑导致精度不足。根据sigmoid公式[ \text{sigmoid}(x) = \frac{1}{1 + \exp(-x)} ]，需要确保每一步计算的准确性，尤其是除法操作。

解决方案

方案1：使用Div函数替代Reciprocal（推荐）

Reciprocal是计算倒数（(1/x)），而公式中需要的是除法（(a/b)）。直接使用Div函数更符合数学逻辑，精度更优。

代码片段：

__aicore__ inline void Compute(int32_t progress) { // ...（前面代码不变） DTYPE_X inputVal3 = 1; Muls(tmpTensor1, xLocal, inputVal1, this->tileLength); // 计算-x Exp(tmpTensor2, tmpTensor1, this->tileLength); // 计算exp(-x) Adds(tmpTensor3, tmpTensor2, inputVal3, this->tileLength); // 计算1+exp(-x) // 关键修改：使用Div函数计算1/(1+exp(-x)) DTYPE_Y one = 1; // 注意数据类型需与输出一致（假设DTYPE_Y为浮点型） Div(yLocal, one, tmpTensor3, this->tileLength); // 直接计算除法 outQueueY.EnQue(yLocal); // ...（后续代码不变） }

方案2：通过泰勒展开优化指数计算（进阶方案）

若Exp函数在特定场景下精度不足，可通过泰勒展开近似计算(\exp(-x))，减少浮点运算误差。但此方案会增加计算复杂度，适用于对精度要求极高的场景。

代码片段（简化的泰勒展开示例）：

__aicore__ inline void CustomExp(LocalTensor<DTYPE_X> input, LocalTensor<DTYPE_X> output, int32_t length) { for (int i = 0; i < length; i++) { DTYPE_X x = input[i]; DTYPE_X result = 1 + x + x*x/2 + x*x*x/6; // 三阶泰勒展开 output[i] = result; } } __aicore__ inline void Compute(int32_t progress) { // ...（前面代码不变） Muls(tmpTensor1, xLocal, inputVal1, this->tileLength); // 计算-x CustomExp(tmpTensor1, tmpTensor2, this->tileLength); // 自定义指数计算 Adds(tmpTensor3, tmpTensor2, inputVal3, this->tileLength); Reciprocal(yLocal, tmpTensor3, this->tileLength); // ...（后续代码不变） }

最优方案讲解

推荐方案1（使用Div函数），原因如下：

逻辑清晰：直接对应公式中的除法运算，避免误用Reciprocal导致的逻辑偏差。
精度可靠：Div函数通常针对除法场景优化，比先计算倒数再相乘更准确。
代码简洁：无需额外自定义函数，直接调用已有接口，开发成本低。

需要注意的是，使用Div时需确保输入数据类型与输出一致（如示例中one设为DTYPE_Y类型），避免类型转换误差。

希望以上方案能帮到你！如果对代码实现或精度优化还有疑问，请继续留言。楼主若觉得有用，麻烦采纳一下~
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

小支同学的技术博客：探索华为昇腾CANN训练营与AI技术创新——Ascend C算子开发能力认证考试（中级）
2024-10-10 08:33

Stitch .的博客近期，小北参与了华为昇腾CANN训练营2024第二季的学习，这次训练营聚焦于Ascend C算子开发能力认证（中级），为我提供了一个深入学习昇腾AI基础软硬件平台的机会。通过系统的课程学习和实践操作，我不仅掌握了算子...
华为昇腾CANN训练营2024第二季--Ascend C算子开发能力认证（中级）题目和经验分享
2024-09-30 11:37

明志刘明的博客目前认证考试只有一道编程题，没有选择题和简答题。以下是认证考试的题目介绍考试类型：编程题考试时长:考试时间仅2小时，请做好题目合成文件包后，再进考试上传！重点：一定要先自己做好题目，再进考试上传。做好...
Ascend C算子开发能力认证考试伴侣-昇腾Ascend C编程入门教程
2025-09-08 08:25

skywalk8163的博客本文介绍了昇腾AscendC算子开发能力认证考试相关学习资源，包括在线教程、视频课程和示例代码。重点解析了op_kernel代码实现，展示了初始化(Init)、处理(Process)、数据拷贝(CopyIn/CopyOut)和计算(Compute)等核心...
Ascend C算子开发（中级）—— 编写Sinh算子
2024-09-08 16:35

Byyyi耀的博客 Ascend C算子开发（中级）—— 编写Sinh算子
华为Ascend C算子开发能力认证（中级）（个人记录，有完整代码，已通过认证，仅供参考）
2025-12-02 01:11

Code Slacker的博客本文介绍了在昇腾NPU环境下实现Sigmoid算子的完整流程。首先需要在华为云ModelArts-Notebook或开发者套件上搭建环境，要求CANN版本为8.0.0.beta1。主要内容包括：1）实现SigmoidCustom算子的kernel侧核函数代码；2）...
111将文件拖到此处可更新资源包，小于1000MB（请不要上传电子书、侵权资源和网盘链接
2024-09-29 10:55

文件大小的限制，例如小于1000MB，是基于网络传输速度、存储空间和处理能力的考虑，这样可以确保更新过程的顺畅和效率。从给出的文件信息来看，此处提到的资源包更新有着明确的文件大小要求和内容限制。具体来说，...
Ascend C算子学习笔记
2024-07-11 12:54

张栗瑞-22373425的博客 todo：回答问题链接：https://www.hiascend.com/forum/thread-0265155791127017253-1-1.html?fid=0163125572293226003 提交笔记链接：昇腾论坛香橙派实验手册：昇腾论坛 AscendC算子中级认证考试链接：微认证异构...
Ascend C算子开发（高级）全栈学习路线：从调试到性能优化
2025-11-19 11:10

庄雨山的博客 Ascend C高级开发的学习，是从“能实现算子功能”到“能实现高性能算子”的进阶——调试是基础，矩阵编程是核心，融合算子是手段，性能优化是目标。结合CANN 2025第二季训练营的资源，开发者可通过“理论学习→任务...
Ascend C算子安全编程深度解析：边界检查与异常处理的工程实践
2025-11-25 20:55

七夜zippoe的博客 AscendC算子安全编程实战摘要本文基于昇腾CANN训练营经验，深度解析AscendC算子开发中的安全编程技术，提出边界检查、异常处理、内存安全三大核心防护策略，并通过Sigmoid算子案例展示企业级安全实践：边界检查...
【2024第一期CANN训练营】Ascend C算子开发进阶篇
2024-03-18 13:41

绿洲213的博客 / 获取Host侧传入的Tiling参数// 初始化算子类// 算子类的初始化函数// 完成算子实现的核心逻辑修改文件，定义Tiling参数。BEGIN_TILING_DATA_DEF(TilingData) // 注册一个tiling的类，以tiling的名字作为入参// ...
【昇腾CANN训练营·第十期】实战验收：Ascend C算子开发微认证通关宝典
2025-11-27 17:49

一行诗人的博客本期重点解析AscendC算子开发微认证攻略，涵盖理论考点（硬件架构、编程模型、API规范）和实操技巧（环境配置、代码补全、避坑指南），并提供考前检查清单。通过认证将验证开发者对AI底层开发的掌握程度，为进阶学习...
【2024CANN训练营】Ascend C笔记（中级）
2024-07-10 14:09

Hoshinoharuka的博客 AI正在走进我们的生活，华为近年来坚定人工智能产业投入，深耕基础，厚植技术。2020年8月，昇腾全栈软件发布，经过了四年的发展，已经越来越成熟，这也需要我们对这些...本文为2024Ascend C暑期优才班北京站学习笔记。
Ascend C 算子开发全攻略：从流程到认证
2025-10-26 13:43

yhy_guihuashi的博客快速开发调试（Ascend C 算子）：聚焦 Kernel 核函数本身，通过 Kernel 直调快速验证功能。流程简化为：环境配置→矢量 / 矩阵 Kernel 编程→内核调用符验证→调试优化，适合快速验证算法逻辑。标准开发调试（Ascend...
昇腾训练执行与推理部署与Ascend C算子开发系列课程系列课程笔记
2024-05-31 23:00

双水村生产大队一队队长的博客华为CANN训练营昇腾Ascend C算子开发系列课程笔记一、课程介绍本次华为CANN训练营的昇腾Ascend C算子开发系列课程，专注于教授学员如何为华为昇腾Ascend AI处理器开发自定义的C算子。通过本系列课程，学员将学习...
Ascend C算子开发进阶教程
2025-11-19 13:06

大爱古月方源的博客 C算子开发入门：从基础到实战
Ascend C 算子开发高阶进阶：异构计算、算子融合与AI模型定制化优化
2025-11-23 09:40

晚霞的不甘的博客 Ascend C 算子开发高阶进阶：异构计算、算子融合与AI模型定制化优化
从零开始学昇腾Ascend C算子开发-第一篇：基础准备阶段
2025-12-21 10:46

红目香薰的博客 CANN框架为昇腾提供统一的开发接口，包含算子库、图编译器等功能。开发环境搭建推荐使用华为云ModelArts Notebook，预装CANN工具包，支持JupyterLab和VS Code远程开发。通过环境验证和基础配置，开发者可快速开始...
昇腾Ascend C Add算子开发实战-从理论到代码的完整构建
2025-12-13 23:09

七夜zippoe的博客本文详细介绍了基于昇腾CANN的AscendC算子开发全流程，以Add算子为例深入解析了达芬奇架构特性、三级流水线设计和Tiling策略优化等关键技术。主要内容包括：1)AscendC编程模型与Add算子完整实现；2)三级流水线(数据...
《Ascend C 算子开发精要：内存管理、并行优化与性能工程实践》
2025-11-19 22:41

寜水的博客 Ascend C 算子开发入门：从基础到实战一、Ascend C 核心概念CANNPATHbinCANNPATHlib64// 核函数：执行张量加法（运行于NPU）extern “C”// 获取当前线程在NPU网格中的全局ID（用于定位数据索引）// 避免线程...
Ascend C算子开发进阶教程：从原理到工程实践的深度解析
2025-11-20 21:28

子春一的博客在深度学习中，算子是执行特定数学运算的最小功能单元。Add：张量加法MatMul：矩阵乘法Softmax：归一化指数函数当标准算子库（如ACL、CANN内置算子）无法满足新型...Ascend C 算子开发是释放昇腾AI芯片潜能的核心技能。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月4日

Ascend C算子开发能力认证考试(中级)

6条回答 默认 最新

问题分析

解决方案

方案1：使用Div函数替代Reciprocal（推荐）

方案2：通过泰勒展开优化指数计算（进阶方案）

最优方案讲解

问题事件

6条回答默认最新