哪位大神给看看这个矩阵向量乘法的CUDA程序为什么不对

哪位大神给看看这个矩阵向量乘法的CUDA程序为什么不对,里面Nd的大小是随意设的。大神帮帮忙,非常感谢。或者哪位大神有矩阵向量相乘比较好的代码发一份也非常感谢
global void matXvector_kernel(const float * Md, const float * Vd, float* Pd, int colsize, int pitchItem)
{
/* 函数功能: 矩阵乘向量kernel函数
参数: (矩阵指针,向量指针,结果向量指针,矩阵的列数,矩阵行主元的个数)
*/
shared float Mds[TILE_WIDTH][TILE_WIDTH];
shared float Vds[TILE_WIDTH];
float Nd[2000][2000] = {0};
int bx = blockIdx.x; int by = blockIdx.y;
int tx = threadIdx.x; int ty = threadIdx.y;
int Row = by*blockDim.y + ty;
float Pvalue = 0.0;
if ((by*blockDim.y + ty) < pitchItem && (bx*blockDim.x + tx) < colsize){
Mds[ty][tx] = Md[(by*blockDim.y + ty)*colsize + bx*blockDim.x + tx];
Vds[tx] = Vd[bx*blockDim.x + tx];
}
else
{
Mds[ty][tx] = 0;
Vds[tx] = 0;
}
__syncthreads();
for (int k = 0; k < blockDim.x; ++k)
{
Nd[Row][bx] += Mds[ty][k] * Vds[k];
}
__syncthreads();
if (Row < pitchItem && tx < 1)
{

for (int k = 0; k < gridDim.x; ++k)
{
Pd[Row] += Nd[Row][k];
}
}
}

1个回答

挺简单的,你懂啊 http://www.yeyelujiaduolu.com

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何用cuda c来实现矩阵求逆的并行算法 利用高斯消元法和shared memory

最近在学习cuda并行程序设计,但是看了好多关于矩阵求逆并行算法的资料,但是还是有很多地方不是很理解,求大神指教

稀疏矩阵应用(加法、乘法、转置)

要求用C++编写 实现三元组,十字链表下的稀疏矩阵的加、转、乘的实现。 (1)稀疏矩阵的存储 (2)稀疏矩阵加法 (3)矩阵乘法 (4)矩阵转置 求各位大神指点!!!求源代码,最好有注释

求解矩阵乘法的Coppersmith-Winograd方法详解

求解矩阵乘法的Coppersmith-Winograd方法详解 有代码也行 谢谢各位大神

用cublas库求矩阵范数,求各位大神看看代码哪里不对

void *device_numofduanyuan; cublasHandle_t handler; cudaEvent_t cublas_start,cublas_stop,cula_start,cula_stop; clock_t begin,end; begin=clock(); cudaEventCreate(&cublas_start); cudaEventCreate(&cublas_stop); cudaEventCreate(&cula_start); cudaEventCreate(&cula_stop); //cublasCreate(&handle); cudaMalloc((void **)&device_numofduanyuan,sizeof(int)); cudaMemset(device_numofduanyuan,0,sizeof(int)); if (type==3||type==0||type==1||type==2) { //float *matVt,*matMt,*matOMEGA; //matVt=(float *)malloc(sizeof(float)*bands*width); //matVt 所有波段的一行数据; //matMt=(float *)malloc(sizeof(float)*height*width); //matOMEGA=(float *)malloc(sizeof(float)*bands*numofduanyuan); matrix_f matVt,matMt,matOMEGA; Init_fmatrix(matVt,bands,width); Init_fmatrix(matMt,height,width); Init_fmatrix(matOMEGA,bands,numofduanyuan); float *temp_data=(float *)host_data; float *dev_matVt,*dev_matMt,*dev_matOMEGA; cudaMalloc((void**)&dev_matVt,sizeof(float)*bands); cudaMalloc((void**)&dev_matMt,sizeof(float)*height*width); cudaMalloc((void**)&dev_matOMEGA,sizeof(float)*bands*numofduanyuan); #pragma unroll for (int i=0;i<height;i++) { for (int j=0;j<bands;j++) { for (int k=0;k<width;k++) { int pos=i*width+k+j*(width*height); //float temp=host_data[pos]; matVt.mat[j][k]=temp_data[pos]; } } cudaMemcpy(dev_matVt,matVt.mat,sizeof(float)*width*bands,cudaMemcpyHostToDevice); cudaMemcpy(dev_matMt,matMt.mat,sizeof(float)*height*width,cudaMemcpyHostToDevice); cublasSnrm2(handler,bands,dev_matVt,sizeof(float),dev_matMt);

CUDA加速为什么没有并行的效果

我对一幅图像做处理,640X480,对每个像素我分配了一个thread,即我每个block分配了640个thread,分配了480 个block。然后我对另一幅2048X1536的图像操作,我每个block分配了1024个thread,共分配了1536X2个block。用 同样的算法,问题规模增加了10倍,我不理解的是为什么运行时间也增加了10倍。不是只会增加一点读取数据的时间吗。 对CUDA的运行原理不是很了解,忘大神指教。![图片说明](https://img-ask.csdn.net/upload/201604/06/1459949176_862716.jpg)

清问一下这个CUDA程序头文件该怎么写

http://blog.csdn.net/gabrielgu/article/details/52931006 我复制了这个程序 运行时候总会有些像未定义标识符等小问题。我觉得可能是头文件的问题,亦或其它。请问该程序应该怎么才能正常运行。或者哪位大神可以把运行结果给我发一下。急用!多谢

C语言算法问题,矩阵排序。求大神

一个N*N的矩阵,现在求一个高效![图片说明](https://img-ask.csdn.net/upload/201510/01/1443671505_40015.png)的算法。例如一个3*2的矩阵,将矩阵中某个元素的值变为他在矩阵中所有元素的有大到小排序的位置(序号,比如图中元素7的值最大,所以就让他变为1)。现在有3W*3W=9亿的矩阵,怎么处理最高效,基本算法就不要说了,现在就是要解决算法不够高效的问题。谁有好的思路可以提一下么?求大神

用node2vec获得的特征向量如何全部为正,不为负。

用node2vec获得的特征向量有一部分值为负的。我想让他全部为正,不知可以不?有哪位大神能给个办法,特征向量如下: -0.251051 -0.098758 -0.334480 -0.802064 0.310410 0.369198 -0.114443 -0.252595 0.175786 -0.662360 0.241837 0.129143 -0.623884 0.200280 -0.043467 -0.078748 0.252802 0.539361 -0.115779 0.009689 -0.093336 -0.440753 0.016640 0.589645

java用编写一个4*4矩阵程序,并要求行列能够互换

各位大神帮帮忙,请编写一个程序,要求能够对一个4*4的矩阵进行行列互换,非常感谢!

哪位大神帮忙编写一个将输入复制到输出的程序,并将其中的多个空格用一个空格代替

哪位大神帮忙C++环境下,编写一个将输入复制到输出的程序,并将其中的多个空格用一个空格代替。

<《cuda 并行程序设计 gpu编程指南》书本的代码,这本书的例子代码,急求!!

希望大神们能帮我找找,真的很需要,不甚感激!!。。。。。。。。。。

用十字链表实现矩阵的A=A+B

C语言,希望能给出完整的源程序,在下感激不尽,希望哪位大神能够相助,在下感谢万分!

Matlab矩阵运算,矩阵相除

matlab写了段程序,其中一句A=B/P,运行一组数据结果没有问题,但运行别的数据就出错,但算出的B和P都是正确的,求大神指教可能是什么问题

难倒多数人的面试题,哪位大神给个完整答案

培训班组织技术学习与分享,有如下技术可供选择: VirtualBox Vagrant WebSocket JSONP Redis MongoDB Cassandra RabbitMQ ActiveMQ Kafka Lucene Solr ElasticSearch Hadoop HDFS HIVE PIG Mahout HBase Spark Guava Protobuf Avro Thrift Motan Docker DynamoDB Scala Groovy SpringBoot 学员每人选择其中两项进行学习,并在学习会以Demo的形式分享给其他同事。学员们的意向如下: 吕鹏飞 ElasticSearch Redis 丁虎 Redis SpringBoot 梁秀斗 Hadoop HDFS 李文鹏 Docker Kafka 苗恒飞 Lucene Solr 佘昊 Solr Redis 杜世阳 ActiveMQ Hadoop 刘翩 SpringBoot ActiveMQ 史建智 Docker Lucene 王帅 Cassandra Spark 张昌昌 SpringBoot MongoDB 王腾飞 SpringBoot Spark 杨小平 WebSocket RabbitMQ 请编写程序为学员安排最终的技术学习清单,要求: 如果一项技术只有一个学员选择,则直接为该学员指定该技术 如果一项技术有多个学员选择,则在选择了该项技术的学员中随机指定一位学习该技术 如果一个学员被指定的技术不足两项,则在未被指定的技术中随机指定一项或两项给该学员,以凑足两项但不能多于两项。 每个学员被指定的技术不能重复 需要输出最终的技术指定清单 需要输出未被指定给学员的技术清单。

求助Tensorflow下遇到Cuda compute capability问题

在Python下装了tensorflow-gpu,其中cuda为cuda_8.0.61_windows,cudnn为cudnn-8.0-windows7-x64-v5.1,安装没有问题,可以正常跑起来,但是在跑mnist手写体数据集时遇到以下问题: I c:\tf_jenkins\home\workspace\release-win\device\gpu\os\windows\tensorflow\core\common_runtime\gpu\gpu_device.cc:948] Ignoring visible gpu device (device: 0, name: GeForce GT 630M, pci bus id: 0000:01:00.0) with Cuda compute capability 2.1. The minimum required Cuda capability is 3.0. 究其原因是显卡不支持Cuda compute capability 3.0,看到网上caffe中此类问题的解决方法是在Makefile.config中注释掉USE_CUDNN,请问,哪位大神知道Tensorflow中如何解决这一问题呢?谢谢!_

如何 Python转JAVA java将32x32的二进制图像文本矩阵转换成1x1024的向量

#文本向量化 32x32 -> 1x1024 def img2vector(filename): returnVect = [] fr = open(filename) for i in range(32): lineStr = fr.readline() for j in range(32): returnVect.append(int(lineStr[j])) return returnVect 各位大神,求助怎样转化成JAVA

已知相机标定矩阵和旋转矩阵,如何求无穷单应矩阵?

情况是这样的:卫星上搭载相机(考虑相机与卫星固连),对太空中星星进行拍摄。t 时刻拍摄得到一幅图像M1,t+1时刻卫星旋转了一个小角度,平移了一个小距离,旋转矩阵已知为R, 平移分量也已知,此时再次拍摄一幅图像M2,求问M1和M2之间是否满足单应关系。 目前我的思路是:因为拍摄的对象是无穷远的星空,所以相机平移几乎不起作用就忽略,我考虑M1和M2之间存在一个单应关系,H=K*R.inv()*K.inv() 请问各位大神这么考虑对吗?

菜鸟急求!!哪位大神可以提供一个从零基础开始的extjs5教程,最好是视频教程

小弟实习生一枚,现在跟着团队做一个项目 需要用到extjs5的前台技术 以前一点都没有接触到 哪位大神有教程 送小弟一份

相关向量机(RVM)的C语言算法,求大神帮忙?

相关向量机(RVM)的C语言算法实现,不知哪位大神能给与指导……

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

搜狗输入法也在挑战国人的智商!

故事总是一个接着一个到来...上周写完《鲁大师已经彻底沦为一款垃圾流氓软件!》这篇文章之后,鲁大师的市场工作人员就找到了我,希望把这篇文章删除掉。经过一番沟通我先把这篇文章从公号中删除了...

总结了 150 余个神奇网站,你不来瞅瞅吗?

原博客再更新,可能就没了,之后将持续更新本篇博客。

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

2020阿里全球数学大赛:3万名高手、4道题、2天2夜未交卷

阿里巴巴全球数学竞赛( Alibaba Global Mathematics Competition)由马云发起,由中国科学技术协会、阿里巴巴基金会、阿里巴巴达摩院共同举办。大赛不设报名门槛,全世界爱好数学的人都可参与,不论是否出身数学专业、是否投身数学研究。 2020年阿里巴巴达摩院邀请北京大学、剑桥大学、浙江大学等高校的顶尖数学教师组建了出题组。中科院院士、美国艺术与科学院院士、北京国际数学...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《Oracle Java SE编程自学与面试指南》最佳学习路线图2020年最新版(进大厂必备)

正确选择比瞎努力更重要!

《Oracle Java SE编程自学与面试指南》最佳学习路线图(2020最新版)

正确选择比瞎努力更重要!

都前后端分离了,咱就别做页面跳转了!统统 JSON 交互

文章目录1. 无状态登录1.1 什么是有状态1.2 什么是无状态1.3 如何实现无状态1.4 各自优缺点2. 登录交互2.1 前后端分离的数据交互2.2 登录成功2.3 登录失败3. 未认证处理方案4. 注销登录 这是本系列的第四篇,有小伙伴找不到之前文章,松哥给大家列一个索引出来: 挖一个大坑,Spring Security 开搞! 松哥手把手带你入门 Spring Security,别再问密...

字节跳动面试官竟然问了我JDBC?

轻松等回家通知

面试官:你连SSO都不懂,就别来面试了

大厂竟然要考我SSO,卧槽。

阿里面试官让我用Zk(Zookeeper)实现分布式锁

他可能没想到,我当场手写出来了

终于,月薪过5万了!

来看几个问题想不想月薪超过5万?想不想进入公司架构组?想不想成为项目组的负责人?想不想成为spring的高手,超越99%的对手?那么本文内容是你必须要掌握的。本文主要详解bean的生命...

自从喜欢上了B站这12个UP主,我越来越觉得自己是个废柴了!

不怕告诉你,我自从喜欢上了这12个UP主,哔哩哔哩成为了我手机上最耗电的软件,几乎每天都会看,可是吧,看的越多,我就越觉得自己是个废柴,唉,老天不公啊,不信你看看…… 间接性踌躇满志,持续性混吃等死,都是因为你们……但是,自己的学习力在慢慢变强,这是不容忽视的,推荐给你们! 都说B站是个宝,可是有人不会挖啊,没事,今天咱挖好的送你一箩筐,首先啊,我在B站上最喜欢看这个家伙的视频了,为啥 ,咱撇...

代码注释如此沙雕,会玩还是你们程序员!

某站后端代码被“开源”,同时刷遍全网的,还有代码里的那些神注释。 我们这才知道,原来程序员个个都是段子手;这么多年来,我们也走过了他们的无数套路… 首先,产品经理,是永远永远吐槽不完的!网友的评论也非常扎心,说看这些代码就像在阅读程序员的日记,每一页都写满了对产品经理的恨。 然后,也要发出直击灵魂的质问:你是尊贵的付费大会员吗? 这不禁让人想起之前某音乐app的穷逼Vip,果然,穷逼在哪里都是...

立即提问
相关内容推荐