同样的代码使用openmp在不同的程序中，加速效果差距

我使用openmp对一段代码进行并行加速，使用了32个线程，在下面代码里面测试加速了8-9倍，而把它加入到别的程序里面只有0.5倍的加速，而且还不稳定，有时候没效果。

#include <stdio.h>
#include <mpi.h>
#include <iostream>
#include <stdlib.h>
using namespace std;
#ifdef _OPENMP
#include <omp.h>
#endif
#define NXT 256
#define NYT 128
#define NZT 128
#include <sys/time.h>
double cpuSecond()
{
    struct timeval tp;
    gettimeofday(&tp, NULL);
    return (double)tp.tv_sec + (double)tp.tv_usec * 1.e-6;
}

int main()
{
    MPI_Init(NULL, NULL);
    double *p, *u, *v, *w;
    p = (double *)malloc((NXT + 2) * (NYT + 2) * (NZT + 2) * sizeof(double));
    u = (double *)malloc((NXT + 2) * (NYT + 2) * (NZT + 2) * sizeof(double));
    v = (double *)malloc((NXT + 2) * (NYT + 2) * (NZT + 2) * sizeof(double));
    w = (double *)malloc((NXT + 2) * (NYT + 2) * (NZT + 2) * sizeof(double));
  
    double t1, t2;
    t1 = cpuSecond();
    for (int n = 0; n < NXT*NYT*NZT; ++n)
    {
        int i = n / (NYT * NZT) + 1;
        int j = (n % (NYT * NZT)) / NZT + 1;
        int k = (n % (NYT * NZT)) % NZT + 1;
        int id = i * (NYT + 2) * (NZT + 2) + j * (NZT + 2) + k;
        u[id] = 1;
        v[id] = 1;
        w[id] = 1;
        p[id] = 1;
    }
    t2 = cpuSecond();
    cout << " noomp:" << t2 - t1 << endl;
    t1 = cpuSecond();
#pragma omp parallel for
    for (int n = 0; n <  NXT*NYT*NZT; ++n)
    {
        int i = n / (NYT * NZT) + 1;
        int j = (n % (NYT * NZT)) / NZT + 1;
        int k = (n % (NYT * NZT)) % NZT + 1;
        int id = i * (NYT + 2) * (NZT + 2) + j * (NZT + 2) + k;
        u[id] = 1;
        v[id] = 1;
        w[id] = 1;
        p[id] = 1;
    }
    t2 = cpuSecond();
    cout << " omp:" << t2 - t1 << endl;
    MPI_Finalize();
    return 0;
}

下面是这个程序加速效果，另一个程序比较大，但是加速的代码段，数据规模都是一样大的。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赵4老师 2023-06-08 11:17
关注
无profiler不要谈效率！！尤其在这个云计算、虚拟机、模拟器、CUDA、多核、多级cache、指令流水线、多种存储介质、……满天飞的时代！

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

性能优化-OpenMP基础教程（五）-全面讲解OpenMP基本编程方法
2024-01-05 12:03

发狂的小花的博客它可以在 C/C++ 和 Fortran中使用，并以编译器可识别的注释形式出现在串行代码中。OpenMP 标准由一些具有国际影响力的软件和硬件厂商共同定义和提出，它是一种在共享存储体系结构上的可移植编程模型，广泛应用于 ...
国产加速器海光DCU&GPGPU深算处理器异构编程实战（中）
2024-08-26 00:00

技术瘾君子1573的博客在C/C++中使用HIP编程接口编写程序是最主要的DCU程序开发方式，本章将从最简单的并行编程出发，逐步介绍如何开发高效的DCU程序。
openmp在多重循环内的简单使用及其详解
2016-09-29 15:44

AllyLi0224的博客由于项目需求，在三重循环内加入了并行... 在科学和工程应用中，许多程序都要在循环执行上花大量的时间，如Fortran中的do循环和C语言中的for循环，通过并行中的loop-level可以减少这些循环的运行时间。OpenMP提供了p
CUDA编程01- 并行编程介绍
2024-07-17 00:57

黑不溜秋的的博客自计算机诞生以来，许多高端应用程序对执行速度和资源的需求超出了计算机所能提供的能力范围。早期的应用依赖于处理器速度、存储速度、存储容量的提升来增强应用程序的能力，例如，天气预报的及时性、工程结构分析的...
47、Python代码加速：Numba与Cython的应用
2025-07-22 10:49

cream的博客本文详细探讨了使用Numba和Cython加速Python代码的方法和技巧。首先介绍了Numba的即时编译（JIT）技术，展示了其在数组求和、Julia集计算等场景中的应用。随后深入解析了Cython的提前编译（AOT）机制，包括手动编译...
8、并行化编程的全面指南：从规划到实施
2025-10-03 02:08

像素大盗的博客本文全面介绍了并行化编程从规划到实施的完整流程，涵盖测试系统构建、内存问题检测与修复、代码可移植性提升、性能分析方法、算法优化策略及实际项目案例分析。重点介绍了使用Valgrind进行内存正确性检查、利用基准...
MIT最新发布编程语言Milk，加速大数据时代并行运算
2017-08-01 10:16

_miccretti的博客本周MIT最新发布新编程语言Milk，新的程序语言在大数据方面能实现比现有语言快四倍的处理速度。在当下的计算机芯片中，内存管理是基于计算机科学家所称的局部性原理（principle of locality）来实现的：如果一个...
多CPU程序开发: OpenMP-MPI(机群)和CUDA(GPU)
2016-11-19 16:18

巷中人的博客 CPU和GPU擅长和不擅长的方面 ...在不同类型的运算方面的速度也就决定了它们的能力——“擅长和不擅长”。芯片的速度主要取决于三个方面：微架构，主频和IPC(每个时钟周期执行的指令数)。1．微架构从微架构上看，CP...
1、并行与高性能计算入门
2025-10-03 02:07

像素大盗的博客内容包括并行计算的基本定律、并行化规划、性能限制分析、数据结构设计、并行算法模式，以及CPU向量化、OpenMP共享内存并行、MPI分布式通信、GPU加速计算等关键技术。同时探讨了亲和性设置、批处理调度、并行文件...
CAD程序性能优化之并行技术
2024-09-19 20:57

CAD智造干将的博客极致的性能是人类不断追求的目标，工业设计软件尤为如此。随着摩尔定律的失效，单一组件的性能提升红利在逐渐消失。为了进一步提高性能，调用多个组件的多点并行计算方案应运而生。
28、多核处理器与GPU利用优化：OMPSs的表现与潜力
2025-07-16 01:25

火锅TCP的博客本文探讨了OMPSs在多核处理器和GPU编程中的表现与潜力。通过对比OpenCL、CUDA等现有环境，展示了OMPSs在性能和生产力方面的显著优势，并介绍了其在不同硬件架构下的评估结果。此外，还展望了未来OMPSs的改进方向，...
2、高性能计算中 IPython 与 Fortran 的选择
2025-08-10 04:19

注入奶昔的博客文章还分析了两种语言在快速傅里叶变换、云计算和并行计算等场景中的应用，并提出了跨语言开发和原型设计等综合使用策略。最终总结指出，开发者应根据具体项目需求和团队技能灵活选择合适的工具。
[转]多CPU程序开发: OpenMP-MPI(机群)和CUDA(GPU)
2014-02-09 20:46

安嘉的博客 CPU和GPU擅长和不擅长的方面从它们执行运算的速度与效率...在不同类型的运算方面的速度也就决定了它们的能力——“擅长和不擅长”。芯片的速度主要取决于三个方面：微架构，主频和IPC(每个时钟周期执行的指令数)。
从物理转AI、战数据库，95后程序员的职业选择
2022-04-26 17:40

CrisAppleYan的博客【CSDN 编者按】这是一...《新程序员004》带你走进刘继聪的程序人生。希望能给职业成长路上有些许迷茫与困惑的年轻程序员们一点启发。作者 | 刘继聪出品 | 《新程序员》编辑部我叫刘继聪，是复旦大学2015级的学生，...
从物理转 AI 、战数据库，95后程序员的职业选择
2022-07-15 18:25

AI科技大本营的博客【CSDN 编者按】这是一...《新程序员004》带你走进刘继聪的程序人生。希望能给职业成长路上有些许迷茫与困惑的年轻程序员们一点启发。作者 | 刘继聪出品 | 《新程序员》编辑部我叫刘继聪，是复旦大学2015级的学生，...
神经
2021-02-14 05:00

在C++编程语言中实现神经网络，可以利用其强大的性能和灵活性。描述中同样只有一个词“神经”，这可能是暗示我们要讨论神经网络的基础知识，包括神经元、权重、激活函数、反向传播等核心概念。在C++中构建神经网络...
SGLang 在 CPU 上进行 LLM 推理的深度研究
2025-07-19 14:06

步子哥的博客 SGLang 是一款专为大型语言模型（LLM）和视觉语言模型（VLM）设计的高性能服务框架，旨在通过协同设计后端运行时和前端语言，使用户与模型的交互更快、更可控。该框架的核心优势在于其高效的执行能力和灵活的控制...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月6日

同样的代码使用openmp在不同的程序中，加速效果差距

2条回答 默认 最新

问题事件

2条回答默认最新