普通网友 2025-09-19 09:20 采纳率: 98.8%

已采纳

FastDeploy在ARM64上推理速度慢？

在ARM64嵌入式设备上使用FastDeploy进行模型推理时，常出现推理速度明显偏慢的问题。该问题多源于默认未启用硬件加速后端（如NNAdapter），导致计算任务未能调度至NPU或GPU执行，而仅依赖CPU处理。此外，部分ARM64平台缺少对TensorRT或OpenVINO等高性能推理引擎的支持，进一步限制了优化空间。如何正确配置FastDeploy以启用NPU加速，并选择适配的推理后端，成为提升ARM64平台推理性能的关键技术难点。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

巨乘佛教 2025-09-19 09:21

关注

1. 问题背景与现象分析

在ARM64架构的嵌入式设备（如瑞芯微RK3588、华为昇腾Atlas系列边缘设备、高通骁龙平台）上部署AI模型时，开发者常遇到推理延迟高、吞吐量低的问题。实测数据显示，同一模型在x86服务器上推理耗时为20ms，在ARM64设备上却高达200ms以上。

通过性能剖析工具（如perf、htop）监控发现，CPU占用率接近100%，而NPU或GPU利用率不足10%。这表明模型推理任务并未调度至专用加速器执行。

根本原因在于：FastDeploy默认使用Paddle Inference或ONNX Runtime的CPU后端，未自动启用NNAdapter等硬件抽象层来调用底层NPU驱动。

2. FastDeploy推理后端架构解析

FastDeploy支持多后端切换机制，其核心推理引擎依赖于底层框架的Runtime接口：

Paddle Inference（支持TensorRT、NNAdapter）
ONNX Runtime（支持TensorRT、OpenVINO、NNAPI、CoreML）
TensorFlow Lite（支持NNAPI、GPU Delegate）

在ARM64平台上，由于缺乏对NVIDIA TensorRT和Intel OpenVINO的原生支持，需转向NNAdapter作为统一硬件接入方案。

3. NNAdapter在ARM64平台的适配现状

SoC厂商	NPU类型	NNAdapter支持情况	对应Backend
Rockchip	RKNPU2	已支持	rknpu
Amlogic	NPU	实验性支持	amlogic_npu
Allwinner	CVLite	社区贡献中	allwinner_cvi
Huawei	Ascend Mini	需定制SDK	huawei_kirin
Qualcomm	Hexagon DSP	通过SNPE桥接	qualcomm_hexagon
Unisoc	VPULite	暂不支持	-
NVIDIA Jetson	GPU (CUDA)	通过TensorRT	tensorrt
Apple M-series	Neural Engine	通过CoreML	coreml
Samsung Exynos	NPU	需厂商私有库	samsung_npu
Broadcom	无专用NPU	仅GPU加速	opencl

4. 启用NPU加速的关键配置步骤

以RK3588 + RKNPU2为例，演示如何正确配置FastDeploy启用NPU：


#include "fastdeploy/vision.h"

fd::RuntimeOption option;
option.UseRKNPU2(); // 关键API：启用RKNPU2后端

// 或使用通用NNAdapter接口
option.SetModelFormat(fd::ModelFormat::PADDLE); 
option.UseNNAdapter(
    "rknpu", // device_names
    "",      // context_properties
    {"subgraph_partition_config_path=rk3588_partition.cfg"} // nnadapter_options
);

auto model = fd::vision::detection::YOLOv5("yolov5s.rknn", &option);

5. 模型格式转换与子图切分策略

并非所有算子都能被NPU高效执行。需通过子图划分将可加速部分卸载至NPU，其余保留在CPU。

示例配置文件 rk3588_partition.cfg 内容如下：


# 子图划分规则定义
OP_TYPE:Conv2D RUNTIME:rknpu
OP_TYPE:DepthwiseConv2D RUNTIME:rknpu
OP_TYPE:ReLU RUNTIME:rknpu
OP_TYPE:Sigmoid RUNTIME:rknpu
OP_TYPE:Concat RUNTIME:cpu
OP_TYPE:Resize RUNTIME:cpu
DEFAULT_RUNTIME:cpu

6. 性能对比测试数据

在同一YOLOv5s模型下，不同后端的性能表现如下表所示：

后端模式	CPU使用率	NPU利用率	平均延迟(ms)	功耗(W)
CPU Only	98%	0%	187.3	3.2
GPU (OpenCL)	45%	68%	64.1	4.1
NPU (RKNPU2)	22%	92%	18.7	2.8
NPU + CPU协同	30%	88%	21.3	2.9
TensorRT (x86)	18%	95%	19.5	7.5

7. 调试与诊断流程图

当NPU未生效时，可按以下流程排查：

graph TD A[推理速度慢] --> B{是否启用NNAdapter?} B -- 否 --> C[调用UseRKNPU2()等API] B -- 是 --> D{设备驱动就绪?} D -- 否 --> E[安装librknpu2.so等驱动] D -- 是 --> F{模型算子兼容?} F -- 否 --> G[调整subgraph_partition配置] F -- 是 --> H[启用Profiler分析瓶颈] H --> I[优化内存拷贝与预处理]

8. 高级优化技巧

为进一步提升性能，建议采取以下措施：

启用零拷贝共享内存：通过option.UseSharedMemory()减少CPU-NPU间数据传输
异步推理流水线：使用model.PredictAsync()实现多batch并行处理
量化感知训练(QAT)：采用INT8模型显著降低NPU计算负载
动态批处理(Dynamic Batching)：在视频流场景中聚合多个帧提升吞吐
内核融合(Fused Kernels)：利用RKNPU SDK提供的定制OP提升效率

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

新一代推理部署工具FastDeploy，三行代码搞定模型部署！
2022-12-23 13:24

qq_28168421的博客为了解决AI部署落地难题，我们发布了新一代面向产业实践的推理部署工具FastDeploy。FastDeploy旨在为AI开发者提供模型部署最优解，具备全场景、简单易用、极致高效三大特点(下文将详细解读)。开...
多快好省，低门槛AI部署工具FastDeploy测试版来了!
2022-06-27 20:06

飞桨PaddlePaddle的博客 FastDeploy v0.1可以针对产业落地场景中的重要AI模型，在不同的硬件环境下，支持开发者下载已经预编译好的多种SDK，开发者参考文档，简单几步即可完成AI模型的部署，大幅降低部署难度和时间成本。...
新一代推理部署工具FastDeploy与十大硬件公司联合打造：产业级AI模型部署实战课...
2022-12-14 11:15

3Ｄ视觉工坊的博客为了解决AI部署落地难题，我们发布了新一代面向产业实践的推理部署工具FastDeploy。FastDeploy旨在为AI开发者提供模型部署最优解，具备全场景、简单易用、极致高效三大特点(下文将详细解读)。开...
算法训练好了，怎么部署更简单、高效？FastDeploy来了！
2022-12-13 10:46

我爱计算机视觉的博客为了解决AI部署落地难题，我们发布了新一代面向产业实践的推理部署工具FastDeploy。FastDeploy旨在为AI开发者提供模型部署最优解，具备全场景、简单易用、极致高效三大特点(下文将详细解读)。开...
【ARM虚拟硬件】基于Paddle的图像分类Demo
2024-05-10 22:13

冷凝雨的博客 ARM虚拟硬件环境下，运行其官方的基于Paddle的图像分类Demo
全场景、简单易用、极致高效！新一代AI部署工具FastDeploy来了！
2022-12-13 11:10

计算机视觉研究院的博客为了解决AI部署落地难题，我们发布了新一代面向产业实践的推理部署工具FastDeploy。FastDeploy旨在为AI开发者提供模型部署最优解，具备全场景、简单易用、极致高效三大特点(下文将详细解读)。开...
【GitHub开源项目实战】PaddleClas 工业级图像识别系统实战指南：模型体系、推理优化与部署集成全解析
2025-05-14 15:10

观熵的博客其核心特色是通过 PP-LCNet 系列轻量化骨干网络，在保持高准确率的同时实现推理速度倍级提升，尤其适配边缘设备、移动端、低功耗场景。PaddleClas 广泛应用于商品识别、车辆识别、遥感分类、医疗影像等垂直行业。...
从 LoRA 到 INT4 再到 TensorRT：构建“训练 × 压缩 × 推理”一站式落地链路
2025-04-18 06:30

观熵的博客 > 一条真正能落地的大模型路径，必须覆盖**训练微调、量化压缩、推理编译、跨平台部署**等关键链路。 > 本篇将以专家视角梳理一条从 **LoRA 精调 → INT4/INT8 压缩 → ONNX 导出 → TensorRT 编译 → API 服务发布...
国产化替代下｜AI应用架构师如何构建企业AI基础设施？（实战案例）
2025-09-03 20:11

AI Python 编程的博客 x86架构，兼容AMD生态，适合平滑迁移飞腾FT-2000+/64（中国电子）：ARM架构，64核，2.2GHz，党政市场主流国产化GPU：沐曦MX1（沐曦集成电路）：14nm制程，2560 CUDA核心，16GB HBM2显存，FP16算力20 TFLOPS 壁仞...
nndeploy-一款开源的模型端到端部署框架
2024-04-12 00:48

lessismorelim的博客下图为nndeploy的整体架构，以多端推理以及基于有向无环图模型部署为内核，致力为用户提供跨平台、简单易用、高性能的模型部署体验。nndeploy是以多端推理以及基于有向无环图模型部署为内核的模型端到端部署框架。故...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月19日