相同代码在ARM平台使用openMP多线程比单线程慢，但是在x86平台多线程明显快于单线程

X86平台：

Intel i5-8500@3.00GHz x 6 (6核处理器)

Ubuntu16.04 64bit操作系统 16G RAM

gcc 5.4.0

ARM平台：

瑞芯微RK3399Pro

双核cortex-a72&&四核cortex-a53

aarch64 4G RAM

gcc 8.3.1

代码如下(功能是对内存块进行初始化)：

#include <iostream>
#include <sys/time.h>

int main()
{
    int size = 8274240;
    int* data = new int[size];

    struct timeval start, end;
    gettimeofday(&start, NULL);
    #pragma omp parallel for num_threads(2)
    for(int i=0; i<size; i+=4)
    {
        data[i] = 0;
        data[i+1] = 0;
        data[i+2] = 0;
        data[i+3] = 0;
    }
    gettimeofday(&end, NULL);
    std::cout << "[Time] memset use time: "<<float((end.tv_sec-start.tv_sec))*1000+float((end.tv_usec-start.tv_usec))/1000 << " ms" << std::endl;

    return 0;
}

问题：

在X86平台，设置2个线程耗时几乎是单线程的一半 (设置更多的线程加速效果不再明显，甚至耗时更多)

但是在ARM平台，设置多线程始终比单线程要慢(设置线程越多越慢)。

刚学openMP和高性能计算，求解答。。。

另外是否可以用类似perf工具分析性能瓶颈？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-12-09 15:55
关注
这个和内存锁定的模式可能有关系。我不是很了解arm和泥的os内核，但是可能arm上的内存竞争机制妨害了这种数组的访问。你可以尝试将for循环拆成访问多个2维数组，每个线程操作一个连续的地址，彼此不要重叠。
用一些工具看下cpu的占用。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

OpenMP学习笔记
2022-07-27 13:15

月光下的麦克的博客 OpenMP是一种用于共享内存并行系统的多线程程序设计方案，支持的编程语言包括C、C++。OpenMP提供对并行算法的高层抽象描述，特别适合在多核CPU机器上的并行程序设计。进程是CPU资源分配的最小单位，线程是CPU调度的...
英特尔MKL2015百度网盘下载指南
2025-06-04 07:28

codingdie的博客 MKL覆盖了广泛的数学运算领域，从基础的线性代数、傅里叶变换到复杂的数值积分和随机数生成，其核心优势在于提供了超越传统库的性能提升，特别是在多核和向量处理器环境下。MKL的优化策略包括自动并行化、向量指令集...
FFTW三大精度版本性能对比：x86 vs ARM平台实测数据与选型建议
2026-03-07 00:06

只有三分钟的赛雷的博客本文通过实测对比了FFTW库在x86与ARM平台上单精度、双精度及长双精度三大版本的性能差异。数据显示，单精度版本凭借更高的内存带宽利用率和向量化效率，在两大平台上均展现出接近双精度1.85倍的性能优势，而长双精度...
没有解决我的问题, 去提问

相同代码在ARM平台使用openMP多线程比单线程慢，但是在x86平台多线程明显快于单线程

1条回答 默认 最新

1条回答默认最新