相同代码在ARM平台使用openMP多线程比单线程慢，但是在x86平台多线程明显快于单线程

X86平台：

Intel i5-8500@3.00GHz x 6 (6核处理器)

Ubuntu16.04 64bit操作系统 16G RAM

gcc 5.4.0

ARM平台：

瑞芯微RK3399Pro

双核cortex-a72&&四核cortex-a53

aarch64 4G RAM

gcc 8.3.1

代码如下(功能是对内存块进行初始化)：

#include <iostream>
#include <sys/time.h>

int main()
{
    int size = 8274240;
    int* data = new int[size];

    struct timeval start, end;
    gettimeofday(&start, NULL);
    #pragma omp parallel for num_threads(2)
    for(int i=0; i<size; i+=4)
    {
        data[i] = 0;
        data[i+1] = 0;
        data[i+2] = 0;
        data[i+3] = 0;
    }
    gettimeofday(&end, NULL);
    std::cout << "[Time] memset use time: "<<float((end.tv_sec-start.tv_sec))*1000+float((end.tv_usec-start.tv_usec))/1000 << " ms" << std::endl;

    return 0;
}

问题：

在X86平台，设置2个线程耗时几乎是单线程的一半 (设置更多的线程加速效果不再明显，甚至耗时更多)

但是在ARM平台，设置多线程始终比单线程要慢(设置线程越多越慢)。

刚学openMP和高性能计算，求解答。。。

另外是否可以用类似perf工具分析性能瓶颈？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2019-12-09 15:55
关注
这个和内存锁定的模式可能有关系。我不是很了解arm和泥的os内核，但是可能arm上的内存竞争机制妨害了这种数组的访问。你可以尝试将for循环拆成访问多个2维数组，每个线程操作一个连续的地址，彼此不要重叠。
用一些工具看下cpu的占用。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

相同代码在ARM平台使用openMP多线程比单线程慢，但是在x86平台多线程明显快于单线程 c++ linux 缓存
2019-12-09 15:40

回答 1 已采纳这个和内存锁定的模式可能有关系。我不是很了解arm和泥的os内核，但是可能arm上的内存竞争机制妨害了这种数组的访问。你可以尝试将for循环拆成访问多个2维数组，每个线程操作一个连续的地址，彼此不要重
openmp快速排序多线程比单线程还慢 c语言排序算法有问必答算法
2022-04-12 09:13

回答 2 已采纳有没有比较更大数据量级，比如1000万
在vs中使用openmp的task指令 c语言 visualstudio
2022-09-17 21:02

回答 1 已采纳这是vs的问题，貌似不支持task，用gcc就好。
在C++中使用openmp进行多线程编程
2021-01-27 14:21

多线程在实际的编程中的重要性不言而喻。对于C++而言，当我们需要使用多线程时，可以使用boost::thread库或者自从C++ 11开始支持的std::thread，也可以使用操作系统相关的线程API，如在Linux上，可以使用pthread库。...
多线程子线程无法再派生子线程进行for加速 c++ c语言有问必答
2021-08-20 17:41

回答 2 已采纳开启嵌套并行。较新的omp用 omp_set_max_active_levels()，老版本用 OMP_set_nested()。
C语言openMP循环并行线程数设置 c语言
2020-08-23 15:49

回答 1 已采纳不会有问题，一些线程会执行较少的次数。这么写可能会稍微影响性能，但是不会有什么错误。
关于openmp并行域数组传递的问题(fortran代码) 前端有问必答
2021-11-06 21:58

回答 1 已采纳 1、建议你给出示例代码，简单的能够体现你的问题的代码。2、假定大小数组，也就是形参大小为星号，程序没法直接获得它的长度(元素个数)，因此没办法私有化。3、如果是自己的代码，建议改为假定形状数组，omp
MST.rar_OpenMP多线程_mst_openmp_并行计算_最小生成树
2022-09-23 11:40

最小生成树问题。多线程编程、并行计算。使用OpenMP计算最小生成树。
在c++中使用opencv 4.5.5+cuda 11.5+cudnn 8.3.3时遇到:No CUDA support的问题。 c++ dnn opencv
2022-12-21 16:46

回答 3 已采纳 cmake的时候你要指定CUDA_ARCH_PTX or CUDA_ARCH_BIN，3060的cuda算力8.6，你需要设置CUDA_ARCH_BIN或者显卡架构为安培架构，命令行里面加上这两个参数
OpenMP 并行堆内存释放问题 c语言
2019-12-27 20:42

回答 2 已采纳其实并行多重循环这么写肯定是有问题的，内部循环变量j是共享的，被多个线程同时修改，那么就很有可能超出Njuncs，发生内存越界写入，**切记循环内的变量写入是并行的**。应该把 j 声明为并行体中
openmp和opencv c++ visualstudio vscode
2022-11-22 18:55

回答 1 已采纳括号换行, 放在宏后面括号的意义就不同了 #include <omp.h> #include <opencv4/opencv2/core.hpp> auto main()
linux openmp单线程cpu 使用超过100%,关于多线程：openMp中的最大线程数
2021-05-14 12:34

verbaWP的博客我不熟悉并行编程，想知道我可以启动的最大线程数是多少。我试过这个#include#includevoid pooh(int id,int a[]){a[id]=a[id]-1 ;printf("%d",id) ;}int main(){int a[1001] ;int i ;for(i=0;i<1000;i++){a[i]=i+...
DLL load failed while importing _openmp_helpers: %1 不是有效的 Win32 应用程序 python
2022-07-14 18:00

回答 4 已采纳因为缺少环境依赖要看你具体是安装的什么需要什么依赖环境
极智Coding | OpenMP 多线程使用
2022-06-27 19:43

JZSJ的博客大家好，我是极智视界，本文讲解一下 OpenMP 多线程使用方法。
天津大学并行计算 多线程求pi并进行性能分析
2021-01-27 00:58

天津大学并行计算 多线程求pi并进行性能分析实验 C语言实现资料包含源代码以及实验报告
基于OpenMP和PThread的多线程矩阵乘法及分析
2023-10-05 21:19

张小殊.的博客本文主要记录了基于OpenMP和PThread实现不同线程、不同矩阵大小的矩阵乘法实例及其分析，代码注释比较详细，以供参考。
C/C++开发，无可避免的多线程（篇一）.跨平台并发编程姗姗来迟
2023-03-01 17:08

py_free-物联智能的博客 C/C++开发，无可避免的多线程（篇一）并发编程姗姗来迟，介绍如何搭建支持c++11以上版本的编译器，并阐述c/c++多线程内容以及c/c++在c++11标准前pthread函数集及c++11标准后thread类对于多线程编程的不同应用及案例...
MacOS配置OpenMP多线程并行程序开发环境步骤（完整版）
2022-10-20 21:38

Ritchie_Zeng的博客近期入了并行程序开发的坑，今天心血来潮在图书馆借了几本关于并行程序开发的书并且了解到了OpenMP，最终还是决定对这一个知识领域进军，由于我是苹果电脑，网上的教程大多数要么是基于Windows端上的并行程序开发...
基于OpenMP多线程动态负载均衡技术研究.pdf
2021-09-30 20:20

基于OpenMP多线程动态负载均衡技术研究.pdf
linux openmp单线程cpu 使用超过100%,C++ openmp并行程序在多核linux上如何最大化使用cpu...
2021-05-14 12:34

骑lv上高速的博客以上代码中，#pragma omp parallel for这一行的作用即是调用openmp的功能，根据检测到的CPU核心数目，将for (i = 0; i < 1000000000;...注意，要使用openmp功能，在编译的时候需要加上-fopenmp编译...
没有解决我的问题, 去提问

悬赏问题

¥15 不同尺寸货物如何寻找合适的包装箱型谱
¥15 求解 yolo算法问题
¥15 虚拟机打包apk出现错误
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝

相同代码在ARM平台使用openMP多线程比单线程慢，但是在x86平台多线程明显快于单线程

1条回答 默认 最新

悬赏问题

1条回答默认最新