mpi并行计算矩阵转置时间远慢于串行为什么

如题，进行并行计算课程实验时利用mpi编程在学校服务器上进行程序运行计算10000*10000矩阵转置计算

代码如下

 #include "stdio.h"
#include "stdlib.h"
#include "mpi.h"
#include "math.h"

#define E 0.0001
#define a(x,y) a[x*m+y]
#define b(x,y) b[x*m+y]
#define A(x,y) A[x*size+y]
#define B(x,y) B[x*size+y]
#define intsize sizeof(int)
#define floatsize sizeof(float)
#define charsize sizeof(char)

int size,N;                                       /* size:±£´æ¾ØÕóÐÐÊý;N:±£´æ¾ØÕóÁÐÊý */
int m;                                            /* ±£´æ×Ó·½ÕóµÄ³ß´ç */
int t;                                            /* ÆåÅÌ»®·ÖµÄ·Ö¸îÊý */
float *A, *B;                                     /* A:±£´æÔ¾ØÕó;B:±£´æ×ªÖÃºóµÄ¾ØÕó */
double starttime;                                 /* ±£´æ¿ªÊ¼Ê±¼ä */
double time1;                                     /* ±£´æ·Ö·¢Êý¾ÝµÄ½áÊøÊ±¼ä */
double time2;                                     /* ±£´æÔËÐÐµÄ½áÊøÊ±¼ä */
int my_rank;                                      /* ±£´æµ±Ç°½ø³ÌµÄ½ø³ÌºÅ */
int p;                                            /* ±£´æ½ø³ÌÊý */
MPI_Status status;                                /* ±£´æMPI×´Ì¬ */
FILE *fdA;                                        /* ÊäÈëÎÄ¼þ */

/* ÔËÐÐ½áÊøÇ°,µ÷ÓÃ±¾º¯ÊýÊÍ·ÅÄÚ´æ¿Õ¼ä */
void Environment_Finalize(float *a,float *b)
{
    free(a);
    free(b);
}

int main(int argc, char **argv)
{
    int i,j,k,my_rank,group_size;
    float *a,*b;
    int u,v;
    float temp;

    MPI_Init(&argc,&argv);
    MPI_Comm_size(MPI_COMM_WORLD,&group_size);
    MPI_Comm_rank(MPI_COMM_WORLD,&my_rank);
    p=group_size;

    /* Èç¹ûÊÇÖ÷½ø³Ì(rank=0µÄ½ø³Ì),Ôò½øÐÐ¶ÁÎÄ¼þµÄ²Ù×÷,
       ½«´ý×ªÖÃµÄ¾ØÕó¶ÁÈëÄÚ´æ,±£´æµ½È«¾Ö±äÁ¿AÖÐ
    */
    if(my_rank==0)
    {
        starttime=MPI_Wtime();
        fdA=fopen("mat_data.txt","r");
        /* ¶ÁÈë¾ØÕóµÄÐÐÊýºÍÁÐÊý,²¢±£´æµ½sizeºÍNÖÐ */
        fscanf(fdA,"%d %d", &size, &N);
        /* ÅÐ¶ÏÊÇ·ñÊÇ·½Õó,Èç¹û²»ÊÇ,³ÌÐòÍË³ö */
        if(size != N)
        {
            puts("The input is error!");
            exit(0);
        }
        A=(float*)malloc(floatsize*size*size);
        B=(float*)malloc(floatsize*size*size);
        /* ½«¾ØÕóµÄËùÓÐÖµ¶ÁÈë,±£´æµ½AÖÐ */
        for(i = 0; i < size; i ++)
        {
            for(j = 0; j < size; j ++) fscanf(fdA, "%f", A+i*size+j);
        }
        fclose(fdA);
    }
    /* ¹ã²¥¾ØÕóµÄ³ß´ç */
    MPI_Bcast(&size,1,MPI_INT,0,MPI_COMM_WORLD);

    /* »ñµÃÆåÅÌ»®·ÖµÄÊýÄ¿ */
    t=(int)sqrt(p);
    if (t>size)
        t=size;
    if(size%t!=0)
        for(;;)
    {
        t--;
        if(size%t==0)
            break;
    }
    /* »ñµÃÊµ¼ÊÀûÓÃµÄ´¦ÀíÆ÷¸öÊý */
    p=t*t;
    /* Ã¿¸ö×Ó·½ÕóµÄ³ß´ç */
    m=size/t;

    /* a±£´æ×Ó·½Õó,bÊÇÁÙÊ±¾ØÕó,ÊÇÖ÷½ø³ÌÓÃÀ´±£´æ´ý·¢ËÍ¸ø±ðµÄ½ø³ÌµÄ×Ó·½Õó */
    a=(float *)malloc(floatsize*m*m);
    b=(float *)malloc(floatsize*m*m);

    if (a==NULL||b==NULL)
        printf("allocate space  fail!");

    /* ¶ÔÖ÷½ø³Ì,»ñµÃ×Ô¼ºµÄ×Ó·½Õó(¼´×óÉÏ½ÇµÄ×Ó·½Õó) */
    if (my_rank==0)
    {
        for(i=0;i<m;i++)
            for(j=0;j<m;j++)
                a(i,j)=A(i,j);
    }

    /* Ö÷½ø³ÌÏòÆäËû½ø³Ì·¢ËÍÊý¾Ý */
    if (my_rank==0)
    {
        for(i=1;i<p;i++)
        {
            v=i/t;                                /* ×Ó·½ÕóµÄÐÐºÅ */
            u=i%t;                                /* ×Ó·½ÕóµÄÁÐºÅ */

            for(j=v*m;j<(v+1)*m;j++)
                for(k=u*m;k<(u+1)*m;k++)
                    b((j%m),(k%m))=A(j,k);        /* ½«×Ó·½ÕóÔÝ´æÔÚbÖÐ */

                                                  /* ½«×Ó·½Õó·¢ËÍµ½ÏàÓ¦µÄ½ø³Ì */
            MPI_Send(b,m*m,MPI_FLOAT,i,i,MPI_COMM_WORLD);
        }
    }
    else if (my_rank<p)                           /* ¶ÔÆäËû½ø³Ì,´ÓÖ÷½ø³Ì½ÓÊÕÊý¾Ý */
        MPI_Recv(a,m*m,MPI_FLOAT,0,my_rank,MPI_COMM_WORLD,&status);

    time1=MPI_Wtime();

    /* ¶ÔÏÂÈý½ÇµÄ×Ó·½Õó½øÐÐ´¦Àí */
    if ((my_rank/t)>(my_rank%t)&&my_rank<p)
    {
        v=my_rank/t;                              /* ÐÐºÅ */
        u=my_rank%t;                              /* ÁÐºÅ */

        /* ·¢ËÍ×Ó·½Õóµ½Î»ÓÚÏàÓ¦ÉÏÈý½ÇÎ»ÖÃµÄ½ø³Ì */
        MPI_Send(a,m*m,MPI_FLOAT,(u*t+v),(u*t+v),MPI_COMM_WORLD);
        /* ´ÓÏàÓ¦ÉÏÈý½ÇÎ»ÖÃµÄ½ø³Ì½ÓÊÕÊý¾Ý */
        MPI_Recv(a,m*m,MPI_FLOAT,(u*t+v),my_rank,MPI_COMM_WORLD,&status);
    }

    /* ¶ÔÉÏÈý½ÇµÄ×Ó·½Õó½øÐÐ´¦Àí */
    if ((my_rank/t)<(my_rank%t)&&my_rank<p)
    {
        v=my_rank/t;                              /* ÐÐºÅ */
        u=my_rank%t;                              /* ÁÐºÅ */
        /* ½«×Ó·½ÕóÔªËØ¸´ÖÆµ½b */
        for(i=0;i<m;i++)
            for(j=0;j<m;j++)
                b(i,j)=a(i,j);

        /* ´ÓÏàÓ¦ÏÂÈý½ÇÎ»ÖÃµÄ½ø³Ì½ÓÊÕÊý¾Ý */
        MPI_Recv(a,m*m,MPI_FLOAT,(u*t+v),my_rank,MPI_COMM_WORLD,&status);
        /* ×Ó·½Õó·¢ËÍµ½Î»ÓÚÏàÓ¦ÏÂÈý½ÇÎ»ÖÃµÄ½ø³Ì */
        MPI_Send(b,m*m,MPI_FLOAT,(u*t+v),(u*t+v),MPI_COMM_WORLD);
    }

    /* ¶ÔÃ¿Ò»¸ö×Ó·½Õó½øÐÐ×ªÖÃ */
    for(i=1;i<m;i++)
        for(j=0;j<i;j++)
    {
        temp=a(i,j);
        a(i,j)=a(j,i);
        a(j,i)=temp;
    }

    /* Ö÷½ø³Ì¿ªÊ¼½«×ªÖÃµÄ½á¹û½øÐÐ×éºÏ
       ÏÈ½«Ö÷½ø³ÌµÄ½á¹û×éºÏµ½BÖÐ×óÉÏ½Ç
    */
    if (my_rank==0)
    {
        for(i=0;i<m;i++)
            for(j=0;j<m;j++)
                B(i,j)=a(i,j);
    }
    /* Ö÷½ø³Ì´ÓÆäËû½ø³Ì½ÓÊÕ½á¹û,×éºÏµ½BµÄÏàÓ¦Î»ÖÃ */
    if (my_rank==0)
    {
        for(i=1;i<p;i++)
        {
            /* ´ÓÆäËû½ø³Ì½ÓÊÕ½á¹û */
            MPI_Recv(a,m*m,MPI_FLOAT,i,i,MPI_COMM_WORLD,&status);

            v=i/t;                                /* ½á¹ûµÄÐÐºÅ */
            u=i%t;                                /* ½á¹ûµÄÁÐºÅ */

            for(j=v*m;j<(v+1)*m;j++)
                for(k=u*m;k<(u+1)*m;k++)
                    B(j,k)=a((j%m),(k%m));        /* ½á¹û×éºÏµ½BµÄÏàÓ¦Î»ÖÃ */
        }
    }
    else if(my_rank<p)                            /* ÆäËû½ø³Ì·¢ËÍ½á¹ûµ½Ö÷½ø³Ì */
        MPI_Send(a,m*m,MPI_FLOAT,0,my_rank,MPI_COMM_WORLD);

    /* ÓÉÖ÷½ø³Ì´òÓ¡¼ÆËã½á¹û */
    // if (my_rank==0)
    // {
    //     printf("Input of file \"dataIn.txt\"\n");
    //     printf("%d\t%d\n", size, size);
    //     for(i=0;i<size;i++)
    //     {
    //         for(j=0;j<size;j++) printf("%f\t",A(i,j));
    //         printf("\n");
    //     }
    //     printf("\nOutput of Matrix AT\n");
    //     for(i=0;i<size;i++)
    //     {
    //         for(j=0;j<size;j++) printf("%f\t",B(i,j));
    //         printf("\n");
    //     }
    // }
    time2=MPI_Wtime();
    /* ÓÉÖ÷½ø³Ì´òÓ¡Ê±¼äÐÅÏ¢ */
    if (my_rank==0)
    {
        printf("\n");
        printf("Whole running time    = %f seconds\n",time2-starttime);
        printf("Distribute data time  = %f seconds\n",time1-starttime);
        printf("Parallel compute time = %f seconds\n",time2-time1);
    }
    MPI_Barrier(MPI_COMM_WORLD);
    MPI_Finalize();
    Environment_Finalize(a,b);
    return(0);
}

增加进程数时间总体是增大的
如图图片说明
请问为什么

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

报告相同问题？

关注问题

使用MPI2中的并行IO，在对文件进行写操作时，设置视口时出错
2017-02-08 12:35

回答 2 已采纳原因已经找到，数据量大出现错误的原因是 MPI_File_set_view函数在设置视口的跨度不能超过2G，超过2G就会出错。出现的错误为，程序运行到MPI_File_set_view函数时报错：
MPI 求π的程序，谢谢大神
2018-05-05 19:49

回答 2 已采纳此程序关键在于以下几点： **多进程并行** MPI_Comm_size与MPI_Comm_rank即创建了numprocs个相同的进程，但是给他们赋予了不同的id **Map-Re
MPI运行时进程报错？ c语言 linux
2022-11-12 20:24

回答 2 已采纳你这串行都跑不了吧。local_M 没有值
实验一 Linux下MPI的hello和greetings程序设计
2024-01-14 15:39

究极无敌暴龙战神X的博客为了避免死锁，可以使用其他的通信模式，如非阻塞通信（MPI_Isend和MPI_Irecv）或集体通信操作（如MPI_Bcast、MPI_Scatter和MPI_Gather）。本程序是一个简单的MPI程序，用于演示如何使用MPI函数初始化MPI环境、获取...
Ubuntu安装MPI环境显示内存不足怎么办 ubuntu
2023-03-19 19:58

回答 2 已采纳是装在虚拟机里的ubuntu还是本身电脑的操作系统就是ubuntu。如果是ubuntu是虚拟机里，可以对虚拟机进行存储空间扩大;如果本身电脑的操作系统就是ubuntu，建议增加一个硬盘，把该硬盘挂载到
#include<mpi.h>时，编译提示没有那个文件或目录 c++ linux
2021-11-02 17:05

回答 1 已采纳用mpiCC命令编译试试
安装mpi出现问题，求大神帮忙
2015-07-25 12:46

回答 1 已采纳 n你需要在mpi源码解开的目录中，configure文件所在的那个目录执行命令。
超算入门笔记：大型机上如何运行WRF模式？一文总结（并行运算、Linux基础、作业调度、WRF运行）
2022-07-19 17:05

什么都不会的张同学的博客接下来我们可以总结一下在超算中运行WRF，我们应当知道什么？首先是超算集群的基础构造与基本运行原理，让我们明白自己是在什么样的东西上运行程序。其次是Linux系统的命令，系统帮助我们让计算机实现各种功能。然后...
高分悬赏：大学《并行程序设计》大作业：XX算法的并行化设计及实现 c++ c语言开发语言数据挖掘神经网络
2020-05-10 15:22

回答 3 已采纳找一个简单的2、3层的神经网络的代码，用openmp或者cuda来实现下。github以及google上搜索下
MPI Maelstrom
2016-11-15 15:09

回答 1 已采纳 http://blog.csdn.net/u013447865/article/details/40898485
HI3518ev300 HI_MPI_VPSS_SetExtChnAttr 失败 0xA0078003，报错参数设置无 c语言人工智能
2019-09-29 10:25

回答 2 已采纳 http://bbs.ebaina.com/thread-52865-1-1.html
【课程笔记】分布式计算系统徐辰
2023-06-24 15:04

HERODING77的博客作用于若干独立计算机之上，使得这些计算机能够协同执行计算完成某项应用的软件系统。归根结底是为了解决某些类别的应用问题而设计的分布式系统。分类计算密集型应用：CPU 处理能力成为了首要限制因素。数据密集型...
聊一聊并行文件系统的客户端优化之道
2022-06-13 11:30

阿里云技术的博客并行文件系统作为文件存储的一个高性能分支，自出现以来已经走过了二十个年头，一直被大规模应用于气象预测、石油勘探、高能物理、汽车制造、芯片制造、自动驾驶、影视渲染等高性能计算领域。在AI时代下，GPU并行...
分布式存储与分布式计算
2014-12-19 21:13

recommender_system的博客一、高性能计算 ...HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。 Spark：Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行，Spark，拥有Hadoop MapReduce所具
云计算的基础架构：并行计算+资源虚拟化
2011-11-12 21:34

junecau的博客云计算的基础架构：并行计算+资源虚拟化 (2011-08-20 12:15:51) 标签：校园分类：工作篇高性能云计算：从科学应用的角度科学计算往往需要可用的数量庞大的计算机来执行大...
HCIA-Intelligent Computing 华为认证智能计算高级工程师（持续更新中5%）
2020-04-12 11:54

啊酒弟弟的博客 HPC即高性能计算，指以计算为目的，使用了很多处理器的单个计算机系统或使用了多台计算机集群的计算系统和环境 B. 早期HPC基于定制计算机，专用于基础科学研究和国防战略等特定领域，随着技术的发展，现...
Amber22安（cai）装（keng）过程分享
2023-04-21 19:32

东山月光下的博客最近Amber22可以免费用于学术目的了，赶紧安装一下。安装本身不难，难在依赖的环境、包该如何配置。...本文主要是基础环境的配置，不涉及MPI版、NCCL支持等，并且忽略了一些高级功能的Warning，但一般功能够用了。
【DAOS】Intel DAOS 分布式异步对象存储
2022-07-22 19:14

bdview的博客什么是DAOS DAOS ( Distributed Asynchronous Object Storage，分布式异步对象存储 )...可为高性能计算应用提供高带宽、低延迟和高IOPS的存储容器，是英特尔构建百亿亿次级存储堆栈的基础。 DAOS 服务器将其元数据...
（五）SGE 命令（1）qsub
2022-05-30 19:36

IForFree的博客类似地，对于MPI并行作业，您只需要使用正确的mpirun启动器，并在作业脚本中添加两个SGE变量，$NSLOTS和$TMP/machines。对于MPI以外的其他并行作业，需要定义并行环境或PE。这在SGE文档中有涉及。（七）SGE job ...
没有解决我的问题, 去提问

悬赏问题

¥50 如何增强飞上天的树莓派的热点信号强度，以使得笔记本可以在地面实现远程桌面连接
¥15 MCNP里如何定义多个源？
¥20 双层网络上信息-疾病传播
¥50 paddlepaddle pinn
¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services

码龄粉丝数原力等级 --

mpi并行计算矩阵转置时间远慢于串行为什么

0条回答默认最新

悬赏问题

mpi并行计算矩阵转置时间远慢于串行 为什么

0条回答 默认 最新

悬赏问题

mpi并行计算矩阵转置时间远慢于串行为什么

0条回答默认最新