哪位大神给看看这个矩阵向量乘法的CUDA程序为什么不对

哪位大神给看看这个矩阵向量乘法的CUDA程序为什么不对，里面Nd的大小是随意设的。大神帮帮忙，非常感谢。或者哪位大神有矩阵向量相乘比较好的代码发一份也非常感谢
global void matXvector_kernel(const float * Md, const float * Vd, float* Pd, int colsize, int pitchItem)
{
/* 函数功能：矩阵乘向量kernel函数
参数：（矩阵指针，向量指针，结果向量指针，矩阵的列数，矩阵行主元的个数）
*/
shared float Mds[TILE_WIDTH][TILE_WIDTH];
shared float Vds[TILE_WIDTH];
float Nd[2000][2000] = {0};
int bx = blockIdx.x; int by = blockIdx.y;
int tx = threadIdx.x; int ty = threadIdx.y;
int Row = by*blockDim.y + ty;
float Pvalue = 0.0;
if ((by*blockDim.y + ty) < pitchItem && (bx*blockDim.x + tx) < colsize){
Mds[ty][tx] = Md[(by*blockDim.y + ty)*colsize + bx*blockDim.x + tx];
Vds[tx] = Vd[bx*blockDim.x + tx];
}
else
{
Mds[ty][tx] = 0;
Vds[tx] = 0;
}
__syncthreads();
for (int k = 0; k < blockDim.x; ++k)
{
Nd[Row][bx] += Mds[ty][k] * Vds[k];
}
__syncthreads();
if (Row < pitchItem && tx < 1)
{

for (int k = 0; k < gridDim.x; ++k)
{
Pd[Row] += Nd[Row][k];
}
}
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
gccfowuy 2016-09-05 04:46
关注
挺简单的，你懂啊 http://www.yeyelujiaduolu.com

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

哪位大神知道mavne项目这个位置为什么会出现target? maven
2019-04-10 16:20

回答 2 已采纳 target 是项目运行编译产生的编译文件，结构就是这样的，没必要纠结
哪位大神帮忙看看这是MFC的什么控件 mfc
2015-04-21 02:42

回答 2 已采纳自己google mfc仪表盘 mfc chart控件也可以自己画。 http://download.csdn.net/detail/zzmzhang83/5045612 http://do
求大神看看这题我程序的问题是什么
2017-03-18 00:17

回答 5 已采纳 printf("x1=%.4f\n"); printf("x2=%.4f\n"); 应为： **printf("x1=%.4f\n",x1); printf("x2=%.4f\n",x
CUDA向量与矩阵的乘法
2017-07-22 21:39

ShaoQiangShen的博客运用一维索引和二维索引完成CUDA向量和矩阵的乘法。
哪位前端大神帮忙看看：WebStorm开发AngularJS创建不了项目
2018-03-06 09:21

回答 3 已采纳应该是路径的问题你试试这样给相对路径应该可以的类似这样： ``` $ mkdir test $ ng new appName --directory "test" ```
帮忙解释一下，这个url什么意思？实在看不懂 java
2016-04-07 09:47

回答 1 已采纳这个js或者jsp访问某个后台文件的标准格式，如访问servlet。pid与mod都是后台文件需要的参数，前面的type也是一样的。 ${ctx}/rest/common/productType:
做作业时的一个小程序，请大神来看看小程序
2015-12-02 01:17

回答 2 已采纳什么叫做跳不过回车，你想要的输出是什么样子的？请描述清楚。
CUDA 矩阵乘法优化
2018-11-13 01:05

ytffhew的博客 CUDA 矩阵乘法优化
这个代码为什么输出不对呢求大神指教
2016-02-21 09:02

回答 5 已采纳 ``` int main() { int a[80]; int i = 0,c = 0; int sum=0; do {
'>' 附近有语法错误。哪位大神能帮我看看，为什么我这错了，拜托拜托 sql
2017-08-02 06:14

回答 4 已采纳 select (case when convert(char(2), OperateDt,8)>9 and convert(char(2), OperateDt,8)<18 then'白班
请大神帮我看看我这光耦的画法对不对
2017-12-09 02:33

回答 8 已采纳你这个电路的光耦发光二极管侧串联的电阻太大了，流过发光二极管的电流被限制到小于0.5mA，光耦的电流传输比往往是有限的，会导致信号不能可靠地传输到光耦另一端。通常用普通光耦的时候，控制流入发光二极管的
CUDA从入门到精通（大神之作）膜拜
2018-07-27 13:22

Ring__Rain的博客 CUDA从入门到精通（零）：写在前面 ...还有不到一年毕业，怕是毕业后这些技术也就随毕业而去，准备这个暑假开辟一个CUDA专栏，从入门到精通，步步为营，顺便分享设计的一些经验教训，希望能给学习CU...
请问哪位大神可以帮忙解决一个算法题？
2017-11-30 08:21

回答 2 已采纳 http://blog.csdn.net/effective_coder/article/details/8736718
2021-09-16 算法第四版 1.1.33 矩阵库矩阵加速 eigen3 cublas
2021-09-16 14:32

不停感叹的老林_<C 语言编程核心突破>的博客矩阵乘法基本的实现是矩阵A乘以矩阵B，用A的行点乘B的列，就是一个基本的向量点乘，结果作为矩阵C的一个元素。矩阵C的行数由A决定，列数由B决定。做三层循环时候，还是有点懵，后来用B转置点乘，才
pytorch使用教程及应用-GANS编程(4)-CUDA
2021-06-01 11:25

不爱写程序的程序猿的博客 CUDA基础知识文章目录CUDA基础知识1....一个简单的矩阵乘法，可以取代成百上万次单独计算。也就是吴恩达老师最喜欢的向量化运算代替FOR循环，详情可以查看我前面的文章，numpy作为python的科学计算库使用C语言实现的
没有解决我的问题, 去提问

悬赏问题

¥15 一道python难题
¥15 用matlab 设计一个不动点迭代法求解非线性方程组的代码
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 oracle集群安装出bug
¥15 关于#python#的问题：自动化测试
¥20 问题请教！vue项目关于Nginx配置nonce安全策略的问题
¥15 教务系统账号被盗号如何追溯设备
¥20 delta降尺度方法，未来数据怎么降尺度