鲲鹏920如何准确测试双精度FLOPS性能？

在使用鲲鹏920处理器进行双精度FLOPS性能测试时，常见问题是如何准确反映其浮点计算能力？由于鲲鹏920基于ARMv8架构，部分传统基准测试工具（如LINPACK）可能存在编译兼容性或指令优化不足的问题，导致测得的双精度性能偏低。此外，是否启用NUMA绑定、内存带宽瓶颈、频率动态调节及编译器优化等级（如-O3、-march=native）均显著影响测试结果。因此，如何配置系统环境、选择合适的测试工具（如HPL、STREAM结合自定义DGEMM测试），并确保CPU稳定运行在标称频率，成为获取准确双精度FLOPS的关键挑战。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

爱宝妈 2025-10-03 00:15

关注

一、鲲鹏920双精度FLOPS测试中的核心挑战与系统性优化路径

1. 架构特性与基准工具兼容性分析

鲲鹏920基于ARMv8-A架构，采用7nm工艺，支持64核、主频最高可达2.6GHz。其浮点单元支持双精度（DP）SIMD指令（如NEON with FP64），但传统x86平台广泛使用的LINPACK/HPL在移植过程中常因编译器后端优化不足而无法充分发挥硬件潜力。

GNU GCC对ARMv8的-march=native支持有限，推荐使用华为开源的OpenEuler配套编译器或Arm Compiler for Linux（ACfL）
HPL需链接针对鲲鹏优化的BLAS库，如OpenBLAS（已启用aarch64 dgemm优化）或华为自研的KML（Kunpeng Math Library）
LINPACK原始版本未适配NUMA感知内存分配，易导致跨节点访问延迟升高

2. 系统环境配置关键参数表

配置项	推荐值	影响说明
CPU Scaling Governor	performance	防止动态降频影响峰值计算
Transparent Huge Pages	never	避免内存页抖动引入延迟
NUMA Binding	numactl --membind=0 --cpunodebind=0	确保内存与CPU同节点访问
Compiler Optimization	-O3 -march=armv8-a+fp16+rcpc -funroll-loops	启用FP64 SIMD及循环展开
BIOS Setting	Disable P-state throttling, Enable Turbo	保障持续高频运行
Memory Channel	均衡分布在所有通道	最大化内存带宽利用率
Process Affinity	taskset -c 0-7 ./hpl_bin	绑定至单个CCX-like簇减少跨die通信
Kernel Version	≥5.4 LTS with ARM SVE patches	支持更细粒度向量调度
Thermal Control	强制风冷/液冷维持<65°C	避免过热触发降频
Background Services	systemctl stop tuned; systemctl disable irqbalance	消除干扰进程

3. 测试工具选型与组合策略

单一工具难以全面反映真实性能，建议采用多维度测试框架：

HPL (High Performance Linpack)：标准TOP500基准，用于衡量整体DP性能，需配合HPL.dat调优矩阵规模N、分块大小NB等
STREAM Benchmark：评估内存带宽，判断是否为瓶颈（理想复制带宽应≥300 GB/s）
自定义DGEMM微测例：通过Intel MKL-DNN风格代码验证GEMM内核效率

# 示例：编译优化命令
export CC=armclang
export CFLAGS="-O3 -mcpu=tsv110 -ffast-math -fopenmp"
make arch=Kunpeng target=hpl

4. NUMA拓扑感知与资源绑定流程图

graph TD A[读取numactl -H获取节点信息] --> B{是否多NUMA节点?} B -->|是| C[使用numactl绑定到单一节点] B -->|否| D[设置taskset固定CPU核心] C --> E[分配HPL进程与内存至同一node] D --> E E --> F[运行HPL并记录Gflops] F --> G[对比不同绑定策略下的性能差异]

5. 性能验证与归因分析方法论

当实测DP性能低于理论峰值（64核×2.6GHz×2 FMA/cycle = 332.8 GFLOPS/core ×64 ≈ 21.3 TFLOPS）时，应按以下顺序排查：

确认CPU频率锁定：使用turbostat或rdmsr监测实际运行频率
检查BLAS库是否启用AVX-512等效指令：objdump -d libopenblas.so | grep fmla
利用perf stat -e fp_arith_inst_retired.128b_packed_double统计实际FP64指令发射数
通过likwid-perfctr测量内存带宽占用率，判断是否受制于DRAM子系统
分析HPL输出日志中PFACT、NB、PMAP等参数是否最优
对比不同MPI实现（如OpenMPI vs Huawei MPI）在多节点扩展性表现
使用火焰图（flamegraph.pl）定位热点函数中的非计算开销
验证编译生成的汇编是否存在冗余load/store操作
测试小规模问题下IPC是否接近理论上限（约2.0）
结合ACPI log分析是否有thermal throttling事件发生

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

算力核算及不同精度的转换
2024-07-23 12:05

xuyijing0103的博客但是鲲鹏KP920 5250@2.6Ghz（48core）芯片就不是，浮点算力性能=CPU数量*处理器核数*主频*单周期运算次数，如果按双精度FP64测算，单周期运算次数为4 Flops，双精度浮点算力为1*48*2.6G*4=499 GFlops=0.49TFlops；...
高性能计算(HPC)和智能计算理解
2021-07-24 10:58

papaofdoudou的博客精度不会差吧，单精度，dsp可能比arm多双精度（我没注意），应该都是32位、16位浮点吧，只是整点mac arm较neon，处理能力会强，hifi5的mac能力比arm的强，ai性能是要更好的问：嗯，那么手机上放HIFI5，是为了功耗?...
1 -《本地部署开源大模型》如何选择合适的硬件配置
2024-10-15 16:17

文文戴的博客 编程语言建议以Python为主，结合TensorFlow或PyTorch等流行机器学习框架，并利用DeepSpeed等优化工具来提升大模型的运行效率和性能。所以在本系列课程中，我们将从硬件选择入手，逐步引导大家理解并掌握如何为...
AI芯片种类与算力服务器选型
2026-01-12 10:15

wespten的博客性能 / 能效比开发周期适用场景 CPU 极高（通用软件编程）低短（天 / 周）通用任务调度、逻辑判断 GPU 中高（CUDA/OpenCL 编程）中高短（周 / 月） AI 训练、大规模并行计算 FPGA 中（硬件描述语言编程） ...
【CS336】GPU及其优化
2026-04-25 21:55

塔TAT的博客 GPU技术演进与国产化发展 GPU起源与架构演进：GPU最初作为图形处理器，凭借并行计算优势逐渐发展为AI引擎。...性能优化技术包括算子融合减少内存访问、低精度计算提升带宽利用率、内存合并优化突发传输效率，以及分
【信息科学工程学】【社会科学】第五十五篇人的利益规则06 企业管理层之间的利益规则04
2026-04-22 10:09

flyair_China的博客 17 鲲鹏服务器生态拓展总监计算产品线诉求：推动鲲鹏服务器在政务、金融等行业规模化应用，壮大整机伙伴队伍。博弈：“信创市场”的合纵连横。在政策性市场中，需平衡与多家国产整机厂商的关系，既合作又竞争。 ...
多角度解析自动驾驶芯片
2021-04-27 23:50

瞻邈的博客 Xavier的GPU源于Volta架构，内部结构被划分为4个TPC（纹理处理集群），每个TPC具有2个SM（流式多处理器），每个SM集成64个CUDA核心（即流处理器），共计512个CUDA核心，其单精度浮点运算性能为2.8TFLOPS，双精度为...
51c大模型~合集157
2025-07-21 19:59

whaosoft-143的博客此外，该模型支持微调，允许企业针对特定编程语言或大型企业代码库进行深度优化。 Mistral 通过独立标注提供商的人工评估，对比了 Devstral 2 与 DeepSeek V3.2 和 Claude Sonnet 4.5，任务通过 Cline 进行脚手架式...
[HPC入门] 高性能计算 (HPC) 是什么？哪些业务场景需要HPC？
2024-03-03 11:40

全栈海哥的博客 High Performance Computing, HPC是一种技术，它使用并行工作的强大处理器集群，处理海量多维数据...HPC 非常适合需要高性能数据分析的各种应用程序，例如高频交易、仿真模拟、计算机辅助设计、机器学习和深度学习等。
数据中心GPU性能参数全解析：Nvidia与国产算力卡横向对比指南
2025-10-19 05:11

whisky的博客本文全面解析数据中心GPU的核心性能参数，包括算力精度、显存带宽与互联技术，并对Nvidia与国产算力卡进行横向对比。重点探讨了如何根据AI训练、推理及科学计算等不同场景需求，结合软件生态与总体拥有成本，做出...
《100天精通Python——基础篇 2025 第21天：并发编程启蒙——理解CPU、线程与进程的那些事》
2025-05-14 21:20

棒棒编程修炼场的博客在正式进入 Python 并发编程之前，我们有必要回到源头，从计算机结构与操作系统的视角理解并发的本质。本篇内容带你穿越计算机的发展历程，从冯·诺依曼体系、计算机分层模型，到操作系统、进程、线程的本质解读，...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 10月3日