关于cusparseSpmv计算时出现问题，为什么Ax的第三个数字会是零

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <cuda_runtime.h>
#include <cusparse.h>
#include<iostream>
using namespace std;

// error check macros
#define CUSPARSE_CHECK(x) {cusparseStatus_t _c=x; if (_c != CUSPARSE_STATUS_SUCCESS) {printf("cusparse fail: %d, line: %d\n", (int)_c, __LINE__); exit(-1);}}

#define cudaCheckErrors(msg) \
    do { \
        cudaError_t __err = cudaGetLastError(); \
        if (__err != cudaSuccess) { \
            fprintf(stderr, "Fatal error: %s (%s at %s:%d)\n", \
                msg, cudaGetErrorString(__err), \
                __FILE__, __LINE__); \
            fprintf(stderr, "*** FAILED - ABORTING\n"); \
            exit(1); \
        } \
    } while (0)

int main( )
{
    //CSR format of matrix A and Vector b
    double* h_valA;
    int* h_csrRowPtrA;
    int* h_csrColIndA;
    double* h_b;
    int n, nnzA;
    n = 3; nnzA = 5;
    
    h_valA = (double*)malloc(nnzA * sizeof(double));
    h_csrRowPtrA = (int*)malloc((n + 1) * sizeof(int));
    h_csrColIndA = (int*)malloc(nnzA * sizeof(int));
    h_b = (double*)malloc(n * sizeof(double));

    h_valA[0] = 3.0;
    h_valA[1] = 2.0;
    h_valA[2] = 2.0;
    h_valA[3] = 2.0;
    h_valA[4] = 1.0;

    h_csrRowPtrA[0] = 0;
    h_csrRowPtrA[1] = 2;
    h_csrRowPtrA[2] = 3;
    h_csrRowPtrA[3] = 5;

    h_csrColIndA[0] = 0;
    h_csrColIndA[1] = 2;
    h_csrColIndA[2] = 1;
    h_csrColIndA[3] = 0;
    h_csrColIndA[4] = 2;

    h_b[0] = 3.5; 
    h_b[1] = 1.5; 
    h_b[2] = 2.0;

    //CSR format of matrix A and Vector b (device)
    double* valA;
    int* csrRowPtrA;
    int* csrColIndA;
    double* b;

    cudaMalloc((void**)&valA, nnzA * sizeof(double));
    cudaMalloc((void**)&csrRowPtrA, (n + 1) * sizeof(int));
    cudaMalloc((void**)&csrColIndA, nnzA * sizeof(int));
    cudaMalloc((void**)&b, n * sizeof(double));
    cudaCheckErrors("cudaMalloc fail");

    cudaMemcpy(valA, h_valA, (size_t)(nnzA * sizeof(double)), cudaMemcpyHostToDevice);
    cudaMemcpy(csrRowPtrA, h_csrRowPtrA, (size_t)((n + 1) * sizeof(int)), cudaMemcpyHostToDevice);
    cudaMemcpy(csrColIndA, h_csrColIndA, (size_t)(nnzA * sizeof(int)), cudaMemcpyHostToDevice);
    cudaMemcpy(b, h_b, (size_t)(n * sizeof(double)), cudaMemcpyHostToDevice);
    cudaCheckErrors("cudaMemcpy fail");

    //Initialize cuSPARSE
    cusparseHandle_t handle;
    CUSPARSE_CHECK(cusparseCreate(&handle));
    cusparseStatus_t status;

    cusparseMatDescr_t descrA;
    status = cusparseCreateMatDescr(&descrA);
    CUSPARSE_CHECK(status);

    cusparseMatDescr_t  descr_L;
    status = cusparseCreateMatDescr(&descr_L);
    CUSPARSE_CHECK(status);
    status = cusparseSetMatIndexBase(descr_L, CUSPARSE_INDEX_BASE_ZERO);
    CUSPARSE_CHECK(status);
    status = cusparseSetMatType(descr_L, CUSPARSE_MATRIX_TYPE_GENERAL);
    CUSPARSE_CHECK(status);
    status = cusparseSetMatFillMode(descr_L, CUSPARSE_FILL_MODE_LOWER);
    CUSPARSE_CHECK(status);
    status = cusparseSetMatDiagType(descr_L, CUSPARSE_DIAG_TYPE_UNIT);
    CUSPARSE_CHECK(status);

    cusparseMatDescr_t  descr_U;
    status = cusparseCreateMatDescr(&descr_U);
    status = cusparseSetMatIndexBase(descr_U, CUSPARSE_INDEX_BASE_ZERO);
    CUSPARSE_CHECK(status);
    status = cusparseSetMatType(descr_U, CUSPARSE_MATRIX_TYPE_GENERAL);
    CUSPARSE_CHECK(status);
    status = cusparseSetMatFillMode(descr_U, CUSPARSE_FILL_MODE_UPPER);
    CUSPARSE_CHECK(status);
    status = cusparseSetMatDiagType(descr_U, CUSPARSE_DIAG_TYPE_NON_UNIT);
    CUSPARSE_CHECK(status);

    //Query space and allocate memory
    csrilu02Info_t info_A = 0; CUSPARSE_CHECK(cusparseCreateCsrilu02Info(&info_A));
    csrsv2Info_t info_L = 0; CUSPARSE_CHECK(cusparseCreateCsrsv2Info(&info_L));
    csrsv2Info_t info_U = 0; CUSPARSE_CHECK(cusparseCreateCsrsv2Info(&info_U));

    int pBufferSize_A; int pBufferSize_L; int pBufferSize_U;
    status = cusparseDcsrilu02_bufferSize(handle, n, nnzA, descrA, valA, csrRowPtrA, csrColIndA, info_A, &pBufferSize_A);
    CUSPARSE_CHECK(status);
    status = cusparseDcsrsv2_bufferSize(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, n, nnzA, descr_L, valA, csrRowPtrA, csrColIndA, info_L, &pBufferSize_L);
    CUSPARSE_CHECK(status);
    status = cusparseDcsrsv2_bufferSize(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, n, nnzA, descr_U, valA, csrRowPtrA, csrColIndA, info_U, &pBufferSize_U);
    CUSPARSE_CHECK(status);

    int pBufferSize = max(pBufferSize_A, max(pBufferSize_L, pBufferSize_U));
    void* pBuffer = 0; 
    cudaMalloc((void**)&pBuffer, pBufferSize);
    cudaCheckErrors("cudaMalloc fail");

    // LU decomposition analysis
    int structural_zero;
    status = cusparseDcsrilu02_analysis(handle, n, nnzA, descrA, valA, csrRowPtrA, csrColIndA, info_A, CUSPARSE_SOLVE_POLICY_NO_LEVEL, pBuffer);
    CUSPARSE_CHECK(status);
    status = cusparseXcsrilu02_zeroPivot(handle, info_A, &structural_zero);
    CUSPARSE_CHECK(status);
    if (CUSPARSE_STATUS_ZERO_PIVOT == status)
    {
        printf("A(%d,%d) is missing\n", structural_zero, structural_zero);
    }
    status = cusparseDcsrsv2_analysis(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, n, nnzA, descr_L, valA, csrRowPtrA, csrColIndA, info_L, CUSPARSE_SOLVE_POLICY_NO_LEVEL, pBuffer);
    CUSPARSE_CHECK(status);
    status = cusparseDcsrsv2_analysis(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, n, nnzA, descr_U, valA, csrRowPtrA, csrColIndA, info_U, CUSPARSE_SOLVE_POLICY_USE_LEVEL, pBuffer);
    CUSPARSE_CHECK(status);

    // A = L * U
    int numerical_zero;
    status = cusparseDcsrilu02(handle, n, nnzA, descrA, valA, csrRowPtrA, csrColIndA, info_A, CUSPARSE_SOLVE_POLICY_NO_LEVEL, pBuffer);
    CUSPARSE_CHECK(status);
    status = cusparseXcsrilu02_zeroPivot(handle, info_A, &numerical_zero);
    CUSPARSE_CHECK(status);
    if (CUSPARSE_STATUS_ZERO_PIVOT == status)
    {
        printf("U(%d,%d) is zero\n", numerical_zero, numerical_zero);
    }

    // b = L * Z
    double* d_z;  
    cudaMalloc(&d_z, n * sizeof(double));
    cudaCheckErrors("cudaMalloc fail");

    const double alpha = 1.0;
    status = cusparseDcsrsv2_solve(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, n, nnzA, &alpha, descr_L, valA, csrRowPtrA, csrColIndA, info_L, b, d_z, CUSPARSE_SOLVE_POLICY_NO_LEVEL, pBuffer);
    CUSPARSE_CHECK(status);

    // Z = U * X
    double* d_x;
    cudaMalloc((void**)&d_x, n * sizeof(double));
    cudaCheckErrors("cudaMalloc fail");
    status = cusparseDcsrsv2_solve(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, n, nnzA, &alpha, descr_U, valA, csrRowPtrA, csrColIndA, info_U, d_z, d_x, CUSPARSE_SOLVE_POLICY_USE_LEVEL, pBuffer);
    CUSPARSE_CHECK(status);

    // Ax = A * x
    const double beta = 0.0;
    double* d_Ax;
    cudaMalloc((void**)&d_Ax, n * sizeof(double));
    cudaCheckErrors("cudaMalloc fail");
    cusparseSpMatDescr_t matA;
    cusparseDnVecDescr_t vecX, vecAx;
    void*   dBuffer    = NULL;
    size_t  bufferSize = 0;
    status = cusparseCreateCsr(&matA, n, n, nnzA, csrRowPtrA, csrColIndA, valA, CUSPARSE_INDEX_32I, CUSPARSE_INDEX_32I, CUSPARSE_INDEX_BASE_ZERO, CUDA_R_64F);
    CUSPARSE_CHECK(status);
    status = cusparseCreateDnVec(&vecX, n, d_x, CUDA_R_64F);
    CUSPARSE_CHECK(status);
    status = cusparseCreateDnVec(&vecAx, n, d_Ax, CUDA_R_64F);
    CUSPARSE_CHECK(status);
    cusparseSpMV_bufferSize(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, &alpha, matA, vecX, &beta, vecAx, CUDA_R_64F, CUSPARSE_MV_ALG_DEFAULT, &bufferSize);
    CUSPARSE_CHECK(status);
    cudaMalloc(&dBuffer, bufferSize);
    cudaCheckErrors("cudaMalloc fail");
    cusparseSpMV(handle, CUSPARSE_OPERATION_NON_TRANSPOSE, &alpha, matA, vecX, &beta, vecAx, CUDA_R_64F, CUSPARSE_MV_ALG_DEFAULT, dBuffer);
    CUSPARSE_CHECK(status);

    // Return the data from GPU to CPU
   double* h_x = (double*)malloc(n * sizeof(double)); 
   cudaMemcpy(h_x, d_x, n * sizeof(double), cudaMemcpyDeviceToHost); 
   cudaCheckErrors("cudaMemcpy fail");
   printf("Final result\n");
   for (int k = 0; k < n; k++)
   {
       printf("x[%i] = %f\n", k, h_x[k]);
   }
   double* h_Ax = (double*)malloc(n * sizeof(double));
   cudaMemcpy(h_Ax, d_Ax, n * sizeof(double), cudaMemcpyDeviceToHost);
   cudaCheckErrors("cudaMalloc fail");
   printf("Relative error analysis\n");
   for (int k = 0; k < n; k++)
   {
       printf("h_Ax[%i] = %f\n", k, h_Ax[k]);
   }



    if (h_valA)free(h_valA);
    if (h_csrRowPtrA)free(h_csrRowPtrA);
    if (h_csrColIndA)free(h_csrColIndA);
    if (h_x)free(h_x);
    if (valA)cudaFree(valA);
    if (csrRowPtrA)cudaFree(csrRowPtrA);
    if (csrColIndA)cudaFree(csrColIndA);
    if (d_z)cudaFree(d_z);
    if (d_x)cudaFree(d_x);
    if (dBuffer)cudaFree(dBuffer);
    if (d_Ax)cudaFree(d_Ax);
    CUSPARSE_CHECK(cusparseDestroy(handle));
    CUSPARSE_CHECK(cusparseDestroyMatDescr(descrA));
    CUSPARSE_CHECK(cusparseDestroyMatDescr(descr_L));
    CUSPARSE_CHECK(cusparseDestroyMatDescr(descr_U));
    CUSPARSE_CHECK(cusparseDestroyCsrilu02Info(info_A));
    CUSPARSE_CHECK(cusparseDestroyCsrsv2Info(info_L));
    CUSPARSE_CHECK(cusparseDestroyCsrsv2Info(info_U));
    CUSPARSE_CHECK(cusparseDestroySpMat(matA));
    CUSPARSE_CHECK(cusparseDestroyDnVec(vecX));
    CUSPARSE_CHECK(cusparseDestroyDnVec(vecAx));

    return 0;
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
「已注销」 2023-03-15 18:19
关注
参考GPT和自己的思路：

在这段代码中，使用了cusparse库的函数计算CSR格式的稀疏矩阵与稠密向量的乘积。其中，在计算过程中，会用到稀疏矩阵的CSR格式的行指针、列指针、非零元值等信息。但是，在这个例子中，由于稀疏矩阵并不是严格的下三角矩阵，因此在进行稀疏矩阵与稠密向量的乘积时，某些元素是不需要计算的。也就是说，在A的第三行中，第二列和第三列的元素是不需要计算的，因为这两个元素所表示的位置是在下三角矩阵之外的位置，因此在计算中会被忽略。所以，在结果中，Ax的第三个数字为0的现象是理所当然的。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

帮我看看这个汇编语言程序是什么功能开发语言
2022-11-27 11:43

回答 1 已采纳 START: LEA SI,DATA ;从DATA开始 MOV CX,200 ;总共200个 CLD ;设置SI自动增加 LODS
请帮我看看这个代码为什么会出现这样的报错，怎样解决？ matlab 算法
2023-04-04 17:00

回答 1 已采纳不知道你这个问题是否已经解决, 如果还没有解决的话: 这有个类似的问题, 你可以参考下: https://ask.csdn.net/questions/218842这篇博客也不错, 你可以看下软件开发
如何解释汇编语言此问题中MUL指令执行后的AX值？开发语言有问必答
2021-09-10 15:50

回答 1 已采纳因为操作数是8位的时候被乘数是AL,相当于AL和AL做乘,0CH*0CH=12*12=16*9=0090H,存入AX有帮助望采纳
Python终将成为最火爆的编程语言，因为它是属于大众的
2019-11-13 08:30

程序员Albert的博客 Python并不适合所有人，如果你是一个编程类专业的学生，适度了解python是有必要的（python的第三方库的爆发造就了不少C/C++程序员的就业），但如果你作为一个非编程类专业但又需要了解编程的人...
Go的Syscall（）中的第二个r2返回值是什么？
2016-08-03 08:38

回答 1 已采纳 I think they have multiple return values for consistency. As you can see from that table, some arc
关于一段汇编程序的问题（《汇编语言第三版》王爽著中实验十第三小题数值显示的程序）开发语言
2020-02-16 17:01

回答 2 已采纳直接跑代码跑出来的结果是Divide overflow= = div cx有问题，这里是dx:ax / cx debug的时候默认dx置0，但是直接跑的时候dx不一定就为0 在mov bx,0
关于#python#的问题：我想问一下为什么我的电脑不会显示出3d图形 3d python
2023-02-01 10:10

回答 2 已采纳你在 ax.plot_surface(X, Y, Z, rstride=1, cstride=1, cmap=plt.get_cmap('rainbow')) 前面加上一句 ax=plt.axes(p
编程语言-什么是低级语言？
2021-07-03 20:53

bearx...的博客人们想要和计算机打交道并且让计算机帮助我们去做一些事情时，作为主动传达信息的人们则需要‘说’一些计算机能听懂的‘语言’（0010100110）也就是常说的编程语言。计算机早期的时候人们的目的只有一个，让计算机...
求C语言实际问题y=ax^2+bx+c c语言
2021-09-25 11:29

回答 2 已采纳 #include <stdio.h> #include <math.h> int main() { float a,b,c,x,y; printf("输入a,
汇编语言两个16进制数相加为什么没有输出结果
2016-11-13 07:59

回答 2 已采纳好的，谢谢啦!是功能号的原因，找到原因了，但是，如果输出数字还不知道怎么解决，只知道输出字符的方法。
看一下下面这个程序怎么修改，是关于方程的根的问题。有点搞不懂。 c++
2023-02-18 15:18

回答 1 已采纳 cin>>a>>b>>c;if(a==0)if(d>=0)下面的两行应该加大括号括起来，这两行是这个if语句的代码块
《汇编语言》第4章第一个程序——实验3 编程，编译，连接，跟踪
2022-01-27 18:00

班公湖里洗过脚的博客本篇介绍第4章《第一个程序》的实验，即实验3 编程、编译、连接、跟踪，下面看具体的实验过程：
C语言char类型字符串里的数字转换到int就变成0了，六个变了五个，看不出问题 c语言开发语言算法
2023-01-31 22:30

回答 3 已采纳 char A[] = ""; char B[] = "";char C[] = "";char D[] = "";char E[] = "";char F[] = ""; 字符串定义问题，改为：cha
直观理解：为什么A为 n 阶满秩方阵时，Ax＝0 只有零解？
2021-08-20 15:29

李攀007的博客本篇博客仅记录一下我个人思考的一点想法，方便以后回顾。并不严谨，希望给大家提供一点直观的理解。通过上边的变形，我们可以...例如，我们从原点出发，先加上3倍的x轴单位向量[1,0,0][1,0,0][1,0,0]，再加上2.
计算机底层原理——汇编语言
2020-08-19 12:51

大连-徐志斌的博客不懂汇编的程序员算不上一个好的程序员，充其量是一个熟练使用某种语言的工程师，而编程高手一定要研究底层。 1.语言何为语言，就是人和人之间交流的工具。而汇编语言就是计算机的语言。机器语言（二进制）：主流...
C/C++编程学习 - 第2周 ④ 计算多项式的值
2021-01-19 22:30

水蛙菌的博客对于多项式f(x) = ax3 + bx2 + cx + d和给定的x,a,b,c,d，计算f(x)的值。输入格式输入仅一行，包含 5 个实数，分别是 x，及参数 a,b,c,d 的值，每个数都是绝对值不超过 100 的浮点数。数与数之间以一个空格分开。 ...
汇编语言中sbb是什么意思_汇编语言里 sub是什么功能？
2021-01-17 15:53

奇异果小姐的博客汇编语言里 sub是什么功能？以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容，让我们赶快一起来看一下吧！汇编语言里 sub是什么功能？是减法运算。比如mov ax,2mov bx,1sub ax,bx...
王爽汇编语言第三版监测点9.2 监测点9.3 补全编程，利用jcxz指令，利用loop指令，实现在内存2000H段中查找第一个值为0的字节，
2020-08-09 18:26

dream_uping的博客补全编程，利用jcxz指令，实现在内存2000H段中查找第一个值为0的字节，找到后，将它的偏移地址存储在dx中。为了区分出是否成功写入。将dx提前赋值为9999！代码： assume cs:code code segment start : mov...
TIOBE编程语言排行榜，使用前二十语言实现HelloWorld程序
2021-12-16 18:58

1 + 1=王的博客文章目录TIOBE介绍HelloWorld TIOBE介绍 TIOBE排行榜 [1] 是根据互联网上有经验的...TIOBE开发语言排行榜每月更新一次，依据的指数是基于世界范围内的资深软件工程师和第三方供应商提供，其结果作为当前业内程序开发
什么是高级编程语言
2019-06-07 23:26

陆老师Peter的博客在计算机角度，每一种CPU类型都有自己可以识别的一套指令集，计算机不管你这个程序是用什么语言来编写的，其最终只认其CPU能够识别的二进制指令集。在早期计算机刚发展的时代，人们都是直接输入01010101这样的没有...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月9日

悬赏问题

¥50 随机森林与房贷信用风险模型
¥50 buildozer打包kivy app失败
¥30 在vs2022里运行python代码
¥15 不同尺寸货物如何寻找合适的包装箱型谱
¥15 求解 yolo算法问题
¥15 虚拟机打包apk出现错误
¥15 用visual studi code完成html页面
¥15 聚类分析或者python进行数据分析
¥15 三菱伺服电机按启动按钮有使能但不动作
¥15 js，页面2返回页面1时定位进入的设备

关于cusparseSpmv计算时出现问题，为什么Ax的第三个数字会是零

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新