c语言MPI运行崩溃掉（矩阵向量乘积）

原题目：
用MPI设计实现矩阵-向量乘法。进程0读取矩阵和向量，并将任务分配到各个进程，最后进程0打印出计算结果。在你的主目录下，保存的文件名为matvect.c。自定义矩阵和向量大小。


#include "mpi.h"
#include<stdio.h>
#include<stdlib.h> 

int main()
{
    int i,rank,size,m,n,index=0;
    int *a,*matrix,*local_a,*disp,*recvcounts;
    MPI_Comm mm = MPI_COMM_WORLD;
    MPI_Status status;
    MPI_Init(NULL,NULL);
    MPI_Comm_size(MPI_COMM_WORLD,&size);
    MPI_Comm_rank(MPI_COMM_WORLD,&rank);
    disp = (int*)malloc(sizeof(int)*size);
    recvcounts = (int*)malloc(sizeof(int)*size);
    if(rank == 0)
    {
        printf("enter sizeof matrix(m & n):\n");//m行n列的矩阵 
        scanf("%d %d",&m,&n);
        a = (int*)malloc(sizeof(int)*n);//向量n个数 
        matrix = (int*)malloc(sizeof(int)*m*n);//矩阵m*n个数 
        printf("enter vector:\n");
        for(i=0;i<n;i++)
        {
            scanf("%d",&a[i]);//输入向量 
        }
        printf("enter matrix:\n");
        for(int i=0;i<m*n;i++)
        {
            scanf("%d",&matrix[i]);//输入矩阵 
        }
    }
    MPI_Bcast(&m,1,MPI_INT,0,mm);
    MPI_Bcast(&n,1,MPI_INT,0,mm);
    MPI_Bcast(a,n,MPI_INT,0,mm);//把a这个向量里面的值全部广播出去 
    for(i=0;i<size;i++)
    {
        recvcounts[i] = (m*n)/size;
        if(i<(m*n)%size)
            recvcounts[i]++;
        disp[i] = (i>0?disp[i-1]+recvcounts[i-1]:0);
    }
    local_a = (int*)malloc(sizeof(int)*recvcounts[rank]);
    MPI_Scatterv(matrix,recvcounts,disp,MPI_INT,local_a,recvcounts[rank],MPI_INT,0,mm);
    index=disp[rank];
    for(i=0;i<recvcounts[rank];i++)
    {
        local_a[i]*=a[(index+i)%n];
    }
    MPI_Gatherv(local_a,recvcounts[rank],MPI_INT,matrix,recvcounts,disp,MPI_INT,0,mm);
    if(rank==0)
    {
        int sum=0;
        for(i=0;i<m*n;i++)
        {
            sum+=matrix[i];
            if(i%n==n-1)
            {
                  printf("%d ",sum);
                  sum=0;
            }
        }
        printf("\n");
    }
    MPI_Finalize();
}

程序运行：


enter sizeof matrix(m & n):
6 6
enter vector:
1 2 3 4 5 6
enter matrix:
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
1 2 3 4 5 6
91 91 91 91 91 91
root@cb81ea2c449b:/home/mpiuser# mpirun --allow-run-as-root -np 4 ./e11
enter sizeof matrix(m & n):
7 7
enter vector:
1 2 3 4 5 6 7
enter matrix:
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
1 2 3 4 5 6 7
140 140 140 140 140 140 140
[cb81ea2c449b:09524] *** Process received signal ***
[cb81ea2c449b:09524] Signal: Segmentation fault (11)
[cb81ea2c449b:09524] Signal code: Address not mapped (1)
[cb81ea2c449b:09524] Failing at address: 0x7ffd00000007
[cb81ea2c449b:09524] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0x110c0)[0x7f935c64c0c0]
[cb81ea2c449b:09524] [ 1] /lib/x86_64-linux-gnu/libc.so.6(+0x120e6c)[0x7f935c3bce6c]
[cb81ea2c449b:09524] [ 2] /usr/local/lib/libopen-pal.so.40(opal_unsetenv+0x6c)[0x7f935bd3fccc]
[cb81ea2c449b:09524] [ 3] /usr/local/lib/openmpi/mca_schizo_orte.so(+0xab8)[0x7f935a7a5ab8]
[cb81ea2c449b:09524] [ 4] /usr/local/lib/libopen-rte.so.40(orte_schizo_base_finalize+0x2f)[0x7f935c065b5f]
[cb81ea2c449b:09524] [ 5] /usr/local/lib/libopen-rte.so.40(orte_finalize+0x95)[0x7f935bffbc85]
[cb81ea2c449b:09524] [ 6] /usr/local/lib/libmpi.so.40(ompi_mpi_finalize+0x872)[0x7f935c8a3562]
[cb81ea2c449b:09524] [ 7] [cb81ea2c449b:09521] *** Process received signal ***
[cb81ea2c449b:09521] Signal: Segmentation fault (11)
[cb81ea2c449b:09521] Signal code: Address not mapped (1)
[cb81ea2c449b:09521] Failing at address: 0x7ffc00000007
[cb81ea2c449b:09521] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0x110c0)[0x7f7dbfe790c0]
[cb81ea2c449b:09521] [ 1] /lib/x86_64-linux-gnu/libc.so.6(+0x120e6c)[0x7f7dbfbe9e6c]
[cb81ea2c449b:09521] [ 2] /usr/local/lib/libopen-pal.so.40(opal_unsetenv+0x6c)[0x7f7dbf56cccc]
[cb81ea2c449b:09521] [ 3] /usr/local/lib/openmpi/mca_schizo_orte.so(+0xab8)[0x7f7dbdfd2ab8]
[cb81ea2c449b:09521] [ 4] /usr/local/lib/libopen-rte.so.40(orte_schizo_base_finalize+0x2f)[0x7f7dbf892b5f]
[cb81ea2c449b:09521] [ 5] /usr/local/lib/libopen-rte.so.40(orte_finalize+0x95)[0x7f7dbf828c85]
[cb81ea2c449b:09521] [ 6] /usr/local/lib/libmpi.so.40(ompi_mpi_finalize+0x872)[0x7f7dc00d0562]
[cb81ea2c449b:09521] [ 7] [cb81ea2c449b:09518] *** Process received signal ***
[cb81ea2c449b:09518] Signal: Segmentation fault (11)
[cb81ea2c449b:09518] Signal code: Address not mapped (1)
[cb81ea2c449b:09518] Failing at address: 0x7ffd00000007
[cb81ea2c449b:09518] [ 0] /lib/x86_64-linux-gnu/libpthread.so.0(+0x110c0)[0x7f5c2c80c0c0]
[cb81ea2c449b:09518] [ 1] /lib/x86_64-linux-gnu/libc.so.6(+0x120e6c)[0x7f5c2c57ce6c]
[cb81ea2c449b:09518] [ 2] /usr/local/lib/libopen-pal.so.40(opal_unsetenv+0x6c)[0x7f5c2beffccc]
[cb81ea2c449b:09518] [ 3] /usr/local/lib/openmpi/mca_schizo_orte.so(+0xab8)[0x7f5c2a965ab8]
[cb81ea2c449b:09518] [ 4] /usr/local/lib/libopen-rte.so.40(orte_schizo_base_finalize+0x2f)[0x7f5c2c225b5f]
[cb81ea2c449b:09518] [ 5] /usr/local/lib/libopen-rte.so.40(orte_finalize+0x95)[0x7f5c2c1bbc85]
[cb81ea2c449b:09518] [ 6] /usr/local/lib/libmpi.so.40(ompi_mpi_finalize+0x872)[0x7f5c2ca63562]
[cb81ea2c449b:09518] [ 7] --------------------------------------------------------------------------
Primary job  terminated normally, but 1 process returned
a non-zero exit code. Per user-direction, the job has been aborted.
--------------------------------------------------------------------------
--------------------------------------------------------------------------
mpirun noticed that process rank 1 with PID 0 on node c

为什么m和n值变到了7的时候就开始崩了，前面都可以正常的求矩阵和向量的乘积

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-06-12 13:05
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
这篇博客: 【单目标优化求解】基于matlab海洋捕食者算法（MPA）求解单目标问题【含Matlab源码 478期】中的 五、matlab版本及参考文献 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

1 matlab版本
2014a

2 参考文献
[1] 包子阳,余继周,杨杉.智能优化算法及其MATLAB实例（第2版）[M].电子工业出版社，2016.
[2]张岩,吴水根.MATLAB优化算法源代码[M].清华大学出版社，2017.

以下回答来自chatgpt:
根据问题描述，我们需要使用MPI实现矩阵-向量乘法，并且在矩阵和向量大小为7时程序崩溃。因此，可能有以下问题：

1.程序存在缺陷，需要调试以找到哪个部分导致崩溃。 2.矩阵和向量大小是7时，内存不足以处理。

针对这两种情况，可以进行以下步骤：

1.检查程序代码以查找问题所在。主要是涉及矩阵分配和乘法过程的代码。可以添加调试语句和断点，也可以使用MPI_Debugger进行调试。

2.考虑优化内存使用。可以使用分块技术，将矩阵和向量分成小块进行计算，以减少内存使用。也可以在计算时，只使用一部分进程来处理矩阵乘法，从而减少内存使用。

下面是一个简单的MPI矩阵-向量乘法示例：

from mpi4py import MPI import numpy as np comm=MPI.COMM_WORLD rank=comm.Get_rank() size=comm.Get_size() N=7 a=np.zeros(N,dtype='f') b=np.zeros((N,N),dtype='f') #初始化数组 if rank==0: a[:]=np.random.rand(N) b[:]=np.random.rand(N,N) #广播数组 a=comm.bcast(a,root=0) b=comm.bcast(b,root=0) #分块矩阵乘法 chunk_size=N//size chunk_a=np.zeros(chunk_size,dtype='f') chunk_b=np.zeros((chunk_size,N),dtype='f') chunk_c=np.zeros(chunk_size,dtype='f') comm.Scatter(a,chunk_a,root=0) comm.Scatter(b,chunk_b,root=0) for i in range(chunk_size): for j in range(N): chunk_c[i]+=chunk_a[j]*chunk_b[i,j] out_data=np.zeros(N,dtype='f') comm.Gather(chunk_c,out_data,root=0) if rank==0: c=np.dot(a,b) if np.allclose(c,out_data): print("Results match") else: print("Results do not match")

这个代码使用scatter（散射）和gather（收集）操作来拆分矩阵和向量，然后在每个进程内进行计算。最后，将结果收集在进程0中，并进行比较。这可以避免内存溢出，因为每个进程只是处理其中一部分数据。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

mpi大规模矩阵乘法C语言,MPI多进程并行计算矩阵乘法实现
2021-05-25 05:20

王滕昊的博客 MPI多进程并行计算矩阵乘法实现，对原始矩阵A、B进行初始化算为：其主要思想：是把相乘的矩阵按行分解(任务分解)，分别分给不同的进程，然后在汇总到一个进程上，在程序上实现则用到了主从模式，人为的把进程分为主...
【MPI学习笔记】1：并行化向量和矩阵的乘积
2018-01-14 00:36

大桔骑士v的博客大致看了看MPI的一些函数...要求一个行向量和一个方阵的乘积，乘积结果也是一个行向量，用MPI编写并行程序。假设子任务数目总是能被进程数均匀划分。 ①方阵按列分配任务在输入时转置输入，则按列分配就变成了按行分
记一次使用MPI完成矩阵乘法程序
2024-06-04 19:49

LT_real的博客记录使用MPI完成矩阵乘法程序的过程。
【OpenMP学习笔记】5：OpenMP与MPI混合做方阵向量乘法
2018-03-05 00:34

大桔骑士v的博客 mpi.h> #include<stdlib.h> #include<omp.h> #define N 100 //time_t start,end;//开始和结束时间 double start,end; int main(int argc,char* argv[]) { ...
使用OpenMP并行化实现矩阵乘法
2023-07-21 22:40

板牙奇奇的博客给定两个矩阵A和B，矩阵大小均为1024 * 1024，先使用单线程进行计算，代码如下： #include #include #include #define ORDER 1024 #define AVAL 3.0 #define BVAL 5.0 #define TOL 0.001 int main(int argc, char *...
svd.rar_MPI_SVD 算法_svd分解_奇异值分解_奇异值分解 mpi
2022-09-23 16:15

代码可能包含初始化MPI环境、矩阵分配、矩阵分块、并行计算奇异值和奇异向量、通信和最后的结果收集与整合等内容。总的来说，MPI-SVD算法是并行计算和数值线性代数的结合，它利用了分布式计算资源，提高了大规模...
【MPI学习笔记】3：快速并行方阵和向量乘积+多机测试
2018-01-22 23:39

大桔骑士v的博客之前使用的是在一台机器上的，内存非常有限，而核心数也不是很多，为了减小机器承受的压力，每运行到某块*alloc出的内存必定不被使用时，就立即free掉，而在多机上，这样的压力分散到了多台机器上。按照这次作业的...
【MPI学习笔记】4：并行化方阵和向量的乘积(按列分配)
2018-01-23 00:19

大桔骑士v的博客 scp -P 5006 /home/lzh/文档/mpi/rate2.c student@hpc.shu.edu.cn:/home/student/15121856/rate2.c 简述这个和上一篇一样，也是多机上追求速度。按列分配时，我的做法还是每个进程获得自己要处理的那块数据，而省...
第3章 MPI 分布式内存编程摘录
2021-10-21 20:36

高性能计算工程师的博客在消息传递程序中，运行在一个核-内存的程序通常称为进程。两个进程可以通过调用函数来进行通信：一个进程调用发送函数，另一个调用接收函数。我们要使用消息传递的实现称为消息传递接口(Message - Passing ...
MPI——通信集合
2019-09-19 20:11

绝尘花遗落的博客求累乘积 MPI_LAND 逻辑与 MPI_BAND 按位与 MPI_LOR 逻辑或 MPI_BOR 按位或 MPI_LXOR 逻辑异或 MPI_BOXR 按位异或 MPI_MAXLOC 求最大值和最小大的位置 ...
41、通用GPU编程与线性方程组求解算法
2025-11-10 05:41

jj890的博客在GPU编程方面，介绍了OpenCL和CUDA下的向量操作内核实现，并提供了多个编程练习示例。在线性方程组求解方面，详细阐述了高斯消元法、LU分解、主元选择策略及其并行化实现，包括基于MPI的行循环分布算法。同时对比了...
Spmv的MPI和MPI+CUDA并行实现解析
2025-08-15 21:27

op3721的博客 htmltable {th, td {th {pre {简介：在高性能计算领域，矩阵向量乘法（spmv）由于涉及大规模稀疏矩阵，要求实时高效计算。传统串行算法已无法满足需求，故并行技术MPI和CUDA被采用。MPI作为分布式内存系统的并行编程...
Pthreads矩阵乘法实现
2015-05-21 15:55

Francis__Li的博客其实与MPI矩阵乘法的实现比起来，Pthreads要简单很多，主要是由于MPI是基于进程的通信，而Pthreads和之后要提到的OpenMP则是基于线程的通信，从代码量和实现方式相比较来看，线程的通信似乎是要更简单一些，将矩阵...
【存算一体芯片编程实战】：掌握C语言操控核心技术的5大关键步骤
2026-01-13 08:32

CodePulse的博客掌握存算一体芯片C语言操控的完整方法，解决传统架构编程难题。涵盖内存计算融合、并行指令优化、底层驱动开发等5大关键步骤，适用于AI加速与边缘计算场景。高效提升能效比与运算速度，开发者必备指南，值得收藏。
algebralinear:线性代数和并行处理研究
2021-06-22 23:25

线性代数是数学的一个重要分支，主要研究向量、矩阵、线性变换等概念及其在几何、物理学、工程学等多个领域中的应用。在计算机科学尤其是编程中，线性代数扮演着至关重要的角色，特别是在数据处理、机器学习、图形...
并行程序设计方法实验（包括openmp、向量化实现pi计算、SPECOMP2012测试、矩阵乘法优化）
2020-02-16 19:59

Miraitowa_Ming的博客 2.1向量优化 2.2 OpenMP优化三、专题二之测试SPECOMP2012 3.1初步了解SPECOMP 3.2系统基本配置 3.3实践 3.3.1 测定不同线程数的影响 3.3.2测定不同调度方式的影响四、专题三之矩阵乘法优化 4.1普通版本 ...
并行程序高阶矩阵乘法优化 c语言
2024-06-12 11:45

Marbelious的博客课程作业，mpi优化高阶矩阵乘法，分块和卡农参考了博客园上的一个大佬，只实现了A*B两个矩阵相乘vs2022编译，装了最新版msmpi，线程数一般取10写了详细的代码注释。
【C语言量子计算实战】：从零实现量子门操作的核心算法与代码优化技巧
2026-01-01 13:54

LogicShoal的博客掌握C语言实现量子模拟的关键技术，深入解析量子门操作的核心算法与性能优化策略。适用于量子计算仿真、算法验证等场景，提供高效矩阵运算与门操作代码实现方案。结构清晰，便于扩展，值得收藏。
Python的计算性能优化
2023-11-06 19:06

CClaris的博客使用Cython Cython 是一个编程语言，同时也是一个编译器，它使得能够在 Python 中调用 C 和 C++ 代码，以及编写 C 扩展模块。使用 Cython，Python 代码可以被转换成 C 代码，然后编译成高效的机器码，从而提高性能...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 6月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 6月11日

c语言MPI运行崩溃掉（矩阵向量乘积）

1条回答 默认 最新

问题事件

1条回答默认最新