三维卷积 CUDA PYTHON

我试着用GPU做三维卷积,但是CPU计算出来的结果跟GPU的不一样(np.array_equal(k1,k2) return false).求大佬指教orz

import numpy as np
import math
from numba import cuda,float64,int64
import time

    
@cuda.jit("float64[:,:,:,:],float64[:,:,:],float64[:,:,:,:],float64[:,:,:],int64,int64,int64,int64")
def conv_step_forward3D(W,img,b,Z,stride,xlim,ylim,zlim):

    """
    W -- (fH,fW,n_C_prev,n_C)
    img -- (n_H_prev,n_W_prev,n_C_prev)
    Z -- (n_H,n_W,n_C)
    """

    fH,fW,n_C_prev,n_C = W.shape
    n_H_prev,n_W_prev,n_C_prev = img.shape
    
    n_H = cuda.threadIdx.x + cuda.blockIdx.x*cuda.blockDim.x
    n_W = cuda.threadIdx.y + cuda.blockIdx.y*cuda.blockDim.y
    n_C = cuda.threadIdx.z + cuda.blockIdx.z*cuda.blockDim.z

    if (n_H < xlim) and (n_W < ylim) and (n_C < zlim):

        #loop through height
        for h in range(fH):

            #loop through width
            for w in range(fW):

                #loop through channels
                for c in range(n_C_prev):

                    IMG_H = n_H*stride+h
                    IMG_W = n_W*stride+w

                    Z[n_H,n_W,n_C] = Z[n_H,n_W,n_C] + W[h,w,c,n_C]*img[IMG_H,IMG_W,c]

        #wait until result come out
        cuda.syncthreads()

        #add bias
        Z[n_H,n_W,n_C] = Z[n_H,n_W,n_C] + float(b[0,0,0,n_C])

        #wait until result come out
        cuda.syncthreads()
    


if __name__ == "__main__":


    #GPU
    W = np.random.randn(3,3,3,16)
    b = np.random.randn(1,1,1,16)
    Img = np.random.randn(1,1080,1920,3)

    m,n_H_prev,n_W_prev,n_C_prev = Img.shape

    fH,fW = W.shape[0],W.shape[1]
    
    stride = 2
    n_H = int((n_H_prev-fH)/stride)+1
    n_W = int((n_W_prev-fW)/stride)+1
    n_C = 16
    
    Z = np.zeros((n_H,n_W,16))
    
    threadsperblock = (8,8,2)

    blockspergrid_H = int(math.ceil(Z.shape[0]/threadsperblock[0]))
    blockspergrid_W = int(math.ceil(Z.shape[1]/threadsperblock[1]))
    blockspergrid_C = int(math.ceil(Z.shape[2]/threadsperblock[2]))

    blockspergrid = (blockspergrid_H,blockspergrid_W,blockspergrid_C)

    
    W_device = cuda.to_device(W)
    Img_device = cuda.to_device(Img[0,:,:,:])
    Z_device = cuda.to_device(Z)
    b_device = cuda.to_device(b)
    
    cuda.synchronize()
    
    gpu_time = time.time()
    conv_step_forward3D[blockspergrid,threadsperblock](W_device,Img_device,b_device,Z_device,stride,n_H,n_W,n_C)
    cuda.synchronize()
    k1 = Z_device.copy_to_host()
    print(f"With GPU:{time.time()-gpu_time}")
    

    #CPU
    obj = Layers.ConvLayer()
    cpu_time = time.time()
    Z = np.zeros((n_H,n_W,n_C))

    #Get a sample
    a_prev = Img[0,:,:,:]

    #Loop over vertical axis 
    for h in range(n_H):

         vert_start = h*stride
         vert_end = vert_start + fH
        
         #Loop over horizontal axis
         for w in range(n_W):

             hori_start = w*stride
             hori_end = hori_start + fW

             #Slice current sample
             a_slice_prev = a_prev[vert_start:vert_end,hori_start:hori_end,:]

             #For each filter
             for c in range(n_C):

                 Wc = W[:,:,:,c]
                 bc = b[:,:,:,c]
                    
                 Z[h,w,c] =  np.sum(a_slice_prev*Wc)+float(bc)           
    k2 = Z.copy()
    print(f"With CPU:{time.time()-cpu_time}")

    print(np.array_equal(k1,k2))

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2021-06-21 11:52
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，目前超出我们的服务范围，暂时无法为您解答。

首次提问人员可免费体验一次有问必答服务。目前首次提问的问题服务范围为：编程语言、Java开发、python、数据库、前端开发领域专业技术问题，为您提供问题的解决思路和指导。不提供源码代写、项目文档代写、论文代写、作业代写、安装包资源发送或安装、软件使用指导等服务。

我们后续会持续优化，扩大我们的服务范围，为您带来更好地服务。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

对一维数据进行二维卷积的方法机器学习深度学习
2021-11-04 13:38

回答 1 已采纳你这样做效果不好，因为二维卷积默有两个点：特征之前具有局部相关性特征之间有序性对号入座，自己评估一下你的特征
opencv- python自带的人脸识别lbph算法是否用到了卷积神经网络？ python 有问必答
2022-02-28 23:22

回答 2 已采纳没有用到卷积神经网络，照片数量感觉和准确率应该关系不大，lbph算法本身是通过比较不同人脸图像LBP编码直方图达到人脸识别的目的
一维卷积识别光谱峰强度进行三分类，训练集准确率上升，验证集不上升 cnn pytorch 深度学习
2022-04-12 11:56

回答 1 已采纳过拟合，model过分符合train的数据，没看过的数据就不行了。考虑你说的三分类，感觉是模型复杂度不够，这个project可能更加复杂
CUDA PYTHON 矩阵相乘
2020-07-12 16:05

Chermack的博客 CUDA PYTHON 矩阵相乘一、CUDA线程索引二、CUDA矩阵计算1、卷积计算2、矩阵相乘三、CUDA共享内存四、CUDA python 矩阵相乘代码实践参考内容一、CUDA线程索引线程索引即如何根据线程层次中的blockId，gridId以及...
一维卷积神经网络训练时遇到报错：Vexpected conv1d_input to have 3 dimensions, but got array with shape (20430, 2048) python 有问必答深度学习
2022-03-19 16:13

回答 2 已采纳 39行input_shape = (2048, 1)是说单个个样本shape，因此模型的输入数据shape应为(n, 2048, 1)，可将52行改为 model.fit(x[train].resha
卷积核更新权重是同时加/减算出来的更新值么？ python 人工智能机器学习
2022-12-08 11:48

回答 1 已采纳望采纳是的，在卷积神经网络中，每一个卷积核都会有一个对应的权重矩阵，当网络进行反向传播时，每一个权重矩阵都会计算出一个梯度值，然后乘上学习率之后，再将结果与原来的权重矩阵进行加减运算，得到新的权重矩阵
根据python代码算卷积层的深度、宽度、参数量 python 人工智能有问必答
2021-12-18 17:12

回答 1 已采纳首先看输入的通道有三个，那么每一个卷积核也应该有三个通道。其次看卷积核的大小，为3×3。最后看卷积核个数有32个。注意还要加上每个通道的bias。则一共有3×3×3×32+32=896
【深度学习】Pytorch 系列教程（六）：PyTorch数据结构：2、张量的数学运算（4）：一维卷积及其数学原理（步长stride、零填充pad；宽卷积、窄卷积、等宽卷积；卷积运算与互相关运算）
2024-02-19 23:45

QomolangmaH的博客本文介绍了一维卷积运算，包括步长、零填充；宽卷积、窄卷积、等宽卷积；卷积运算与互相关运算等及其PyTorch实现
卷积后为什么会得到inf python 深度学习神经网络
2021-04-28 09:32

回答 1 已采纳你第六层的输出是12次方，会不会是溢出错误啊，为什么不进行一下BN那
关于卷积运算以及池化层替代 python
2023-01-02 20:35

回答 1 已采纳答案是B：没有步幅的卷积层。池化层是一种常见的神经网络层，用于减小输入的空间尺寸。它通常用于减小输入的长度和宽度，例如通过将输入的长度和宽度减半。一种替代方法是使用具有较大步幅的卷积层，从而减小输入
有关卷积运算以及池化层替代 python
2023-01-02 20:38

回答 1 已采纳使用较大的池化大小的卷积层 (a) 是一种替代池化层的方法。其他选项都不是替代池化层的方法。步幅是卷积核在输入数据上的滑动步长，是控制卷积输出大小的重要参数。使用较大的步幅 (d) 可以减少输出大小
GCN-图卷积神经网络算法简单实现（含python代码）
2022-10-29 15:25

99.99％的博客 GCN-图卷积神经网络算法简单实现（含python代码）
卷积在同batch里共享权重吗人工智能深度学习神经网络
2023-02-27 12:10

回答 3 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ在卷积神经网络中，每个卷积层通常有多个滤波器（也称为卷积核或权重），每个滤波器负责从输入特征图中提取不同的特征。在进行卷积操作时，每个滤波器都会在输入特征图上进行滑动，计算
基于一维卷积Conv1D实现猫狗叫声语音识别
2022-10-19 12:26

海洋之心的博客 cat有164个WAV文件，对应1323秒的音频狗有113 WAV文件对应598秒的音频你可以在这里有一个Wav的可视化描述:可视...数据集下载链接序列顺序的特征提取，对于一维卷积来说，是通过长的卷积核和池化层对序列的缩放实现的。
人工智能：深度学习算法及应用——简单理解CNN卷积神经网络并python实现（带源码）
2021-04-20 23:28

Flechazo_z的博客实验四：深度学习算法及应用一、实验目的二、实验要求三、实验的硬件、软件平台四、实验原理1.1. 深度学习概述1.2. 深度学习的常见结构1.3. 卷积神经网络（CNN）**卷积****池化**全连接网络1.4. 卷积神经网络的...
没有解决我的问题, 去提问

悬赏问题

¥15 树莓派与pix飞控通信
¥15 自动转发微信群信息到另外一个微信群
¥15 outlook无法配置成功
¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题

三维卷积 CUDA PYTHON

1条回答 默认 最新

悬赏问题

1条回答默认最新