cuda-fp16 api调用问题

我想使用半精度计算,目前运行环境是win7 64位,gpu是泰坦x,我想尝试调用 cuda_fp16.h 里的__hisnan()、__hadd()等函数。
调用:
const half KZero = float2half(0.0);
const half aa = __float2half(1.0);
const half bb =
hadd(KZero, aa);
提示:
error : no suitable conversion function from "const half" to "int" exists。
我发现__hadd()函数不仅在cuda_fp16.h里有声明,在device_functions.h里也有声明,当我调用这个函数的时候我感觉总是调用device_functions.h里的这些函数。
请教:
请问有人知道问题所在吗?我怎么才能正确使用这些api函数呢?

1个回答

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
求助:ubuntu12.04 +cuda5.5安装问题????????
chester@chester-N81Vg:~/下载$ ls cuda_5.5.22_linux_64.run cuda在linux上的安装指南.doc cuda-repo-ubuntu1204_5.5-0_amd64.deb chester@chester-N81Vg:~/下载$ sudo dpkg -i cuda-repo-ubuntu1204_5.5-0_amd64.deb (正在读取数据库 ... 系统当前共安装有 180795 个文件和目录。) 正预备替换 cuda-repo-ubuntu1204 5.5-0 (使用 cuda-repo-ubuntu1204_5.5-0_amd64.deb) ... 正在解压缩将用于更替的包文件 cuda-repo-ubuntu1204 ... gpg: 密钥‘cudatools’找不到:eof gpg: cudatools: delete key failed: eof 正在设置 cuda-repo-ubuntu1204 (5.5-0) ... gpg: 找不到有效的 OpenPGP 数据。
cuda一个global函数里调用多个核函数出问题。
caffe编写loss层时, 我一个global函数里有多个核函数,但是有时前两个核函数不执行,有时候又执行,不清楚问题出在哪里? ``` template <typename Dtype> void PixelClustingLossLayer<Dtype>::Forward_gpu( const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) { const int num = bottom[0]->num(); const int data_channels = bottom[0]->channels(); const int mask_channels = bottom[1]->channels(); const int height = bottom[0]->height(); const int width = bottom[0]->width(); const int spatial_dim = height * width; const int nc = num * data_channels; const int data_count = bottom[0]->count(); const int mask_count = bottom[1]->count(); Dtype* pos_num_data = pos_num_.mutable_cpu_data(); Dtype* neg_num_data = neg_num_.mutable_cpu_data(); caffe_gpu_set(mask_count, Dtype(0.), pixel_mask_.mutable_gpu_data()); caffe_gpu_set(num, Dtype(0.), loss_mask_.mutable_gpu_data()); caffe_gpu_set(num*data_channels, Dtype(0.), pos_ave_.mutable_gpu_data()); caffe_gpu_set(num*data_channels, Dtype(0.), neg_ave_.mutable_gpu_data()); caffe_gpu_set(num, Dtype(0.), pos_loss_.mutable_gpu_data()); caffe_gpu_set(num, Dtype(0.), neg_loss_.mutable_gpu_data()); caffe_gpu_set(num, Dtype(0.), center_loss_.mutable_gpu_data()); for(int n=0; n<num; ++n) { caffe_gpu_asum(spatial_dim, bottom[1]->gpu_data() + n * spatial_dim, pos_num_.mutable_cpu_data() + n); neg_num_data[n] = spatial_dim - pos_num_data[n]; } //LOG(INFO)<<"There are "<<pos_num_.cpu_data()[0]<<" pos pixels and "<<neg_num_.cpu_data()[0]<<" neg pixels."; GetTotalValue<Dtype> <<<CAFFE_GET_BLOCKS(data_count), CAFFE_CUDA_NUM_THREADS>>>(data_count, bottom[0]->gpu_data(), bottom[1]->gpu_data(), pos_ave_.mutable_gpu_data(), neg_ave_.mutable_gpu_data(), data_channels, height, width); //LOG(INFO)<<"There are 111 neg pixels."; GetAveValue<Dtype> <<<CAFFE_GET_BLOCKS(nc), CAFFE_CUDA_NUM_THREADS>>>(nc, pos_num_.gpu_data(), neg_num_.gpu_data(), pos_ave_.mutable_gpu_data(), neg_ave_.mutable_gpu_data(), center_loss_.mutable_gpu_data(), data_channels); //LOG(INFO)<<"There are 222 neg pixels."; PowerEuclideanDistance<Dtype> <<<CAFFE_GET_BLOCKS(mask_count), CAFFE_CUDA_NUM_THREADS>>>(mask_count, bottom[0]->gpu_data(), bottom[1]->gpu_data(), pos_ave_.gpu_data(), neg_ave_.gpu_data(), euclidean_dis_.mutable_gpu_data(), mask_channels, data_channels, height, width); ComputePixelLoss<Dtype> <<<CAFFE_GET_BLOCKS(mask_count), CAFFE_CUDA_NUM_THREADS>>>(mask_count, bottom[1]->gpu_data(), euclidean_dis_.gpu_data(), pos_loss_.mutable_gpu_data(), neg_loss_.mutable_gpu_data(), pos_num_.gpu_data(), neg_num_.gpu_data(), pixel_mask_.mutable_gpu_data(), mask_channels, height, width, alpha_); ComputeClassLoss<Dtype> <<<CAFFE_GET_BLOCKS(num), CAFFE_CUDA_NUM_THREADS>>>(num, center_loss_.mutable_gpu_data(), loss_mask_.mutable_gpu_data(), beta_); caffe_gpu_add(num, neg_loss_.gpu_data(), pos_loss_.gpu_data(), loss_.mutable_gpu_data()); caffe_gpu_add(num, loss_.gpu_data(), center_loss_.gpu_data(), loss_.mutable_gpu_data()); Dtype loss; caffe_gpu_asum(num, loss_.gpu_data(), &loss); LOG(INFO)<<loss/Dtype(num); top[0]->mutable_cpu_data()[0] = loss / num; } ``` 主要是GetTotalValue()函数和GetAveValue()函数,偶尔执行,偶尔不执行,头都晕了。 有没有大神指点迷津。
CUDA-GPU加速-中值滤波-黑屏+显卡程序崩溃
新手刚接触CUDA C,这段中值滤波的代码一直跑不通,如果读取一张小图片(2790,2560)没有问题,如果读取一张大图片(5580,5120),就会导致黑屏+没有结果。 我的显卡是NVIDIA Geforce 820M ``` #include <iostream> #include "ImMedFilter.h" #define DIM_GRID 128 #define DIM_BLOCK 16 using namespace std; __device__ void mid(unsigned char* data, int size, int midIndex) { unsigned char temp = 0; for (int i = 0; i <= midIndex; i++) { for (int j = i+1; j < size; j++) { if (data[j] > data[i]) { temp = data[i]; data[i] = data[j]; data[j] = temp; } } } } __global__ void global_ZhongSmooth(unsigned char *dev_src, unsigned char *dev_dst, int width , int height, int bytesPerLine, int size, int markSize) { int x = threadIdx.x + blockIdx.x*blockDim.x; int y = threadIdx.y + blockIdx.y*blockDim.y; int step_x = blockDim.x * gridDim.x; int step_y = blockDim.y * gridDim.y; for (int t_y = y; t_y < height - markSize; t_y = t_y + step_y) { if (t_y < markSize || t_y > height-markSize-1) { continue; } for (int t_x = x; t_x < width - markSize; t_x = t_x + step_x) { if (t_x < markSize || t_x > width-markSize-1) { continue; } unsigned int index = t_x + t_y*width; if( index < size ) { unsigned char len = (markSize*2+1)*(markSize*2+1); unsigned char midIndex = len/2; // 创建保存中值区域的数组 // size = (marksize * 2 + 1) ^ 2; // 滤波大小:3、5、7、9、...、29、31 unsigned char*a = NULL; switch (markSize) { case 1: unsigned char c[9]; a = c; break; case 2: unsigned char d[25]; a = d; break; case 3: unsigned char e[49]; a = e; break; case 4: unsigned char f[81]; a = f; break; case 5: unsigned char g[121]; a = g; break; case 6: unsigned char h[169]; a = h; break; case 7: unsigned char v[225]; a = v; break; case 8: unsigned char w[289]; a = w; break; case 9: unsigned char x[361]; a = x; break; case 10: unsigned char z[441]; a = z; break; case 11: unsigned char u[529]; a = u; break; case 12: unsigned char q[625]; a = q; break; case 13: unsigned char i[729]; a = i; break; case 14: unsigned char o[841]; a = o; break; default: return; } unsigned char k = 0; for (int i = -markSize; i <= markSize; i++) { for (int j = -markSize; j <= markSize; j++) { a[k++] = dev_src[t_x+j+(t_y+i)*width]; } } mid(a, len, midIndex); dev_dst[index] = a[midIndex]; } } } } extern "C" void ImMedfilter(const unsigned char *host_src, unsigned char *host_dst, int width, int height, int bytesPerLine, int markSize) { int dataSize = bytesPerLine * height; unsigned char *dev_src = NULL; unsigned char *dev_dst = NULL; cudaMalloc((void**) &dev_src, dataSize); cudaMalloc((void**) &dev_dst, dataSize); cudaMemset(dev_dst, 0, dataSize); cudaMemcpy(dev_src, host_src, dataSize, cudaMemcpyHostToDevice); dim3 blocks(DIM_BLOCK, DIM_BLOCK); dim3 grids(DIM_GRID, DIM_GRID); global_ZhongSmooth<<<grids, blocks>>>(dev_src, dev_dst, width, height, bytesPerLine, dataSize, markSize); cudaMemcpy(host_dst, dev_dst, dataSize, cudaMemcpyDeviceToHost); cudaFree(dev_src); cudaFree(dev_dst); } ```
使用 CUDA 运行时 API 检查错误的规范方法是什么?
通过查看 CUDA 问题的答案和评论,以及在 CUDA 标记维基中,我看到经常有人建议检查每个 API 调用的返回状态是否有错误。 API 文档包含了诸如 cuda / etlasterror、 cuda / ekatlasterror 和 cudaigerstring 这样的功能,但是如何才能在不需要大量额外代码的情况下将这些功能组合在一起以可靠地捕获和报告错误呢?
ubuntu14.04.3下安装cuda7.5的问题
我在ubuntu14.04.3下安装cuda7.5。 安装完成后我使用命令nvcc -V,结果显示: nvcc未安装,若要安装请使用sudo apt-get install nvidia-cuda-toolkit. 所以我按照提示使用上面的命令安装了nvcc。然后使用nvcc -V,显示; Cuda compilation tools release5.5 V5.5.0 怎么会是5.5?而不是7.5。不管怎样,能用了。但是在~/samples目录下,make之后,./deviceQuery,显示: cuda driver version is insufficient for cuda runtime verdion。 所以我执行了这个命令sudo apt-get install cuda-drivers。其中因为以来关系,还安装了opencl。反正安装好了之后,./deviceQuery的结果就正确了。 但是问题来了,nvcc又显示未安装。 怎么办啊?
cmake3.4.3重新编译opencv,vs2013,cuda-8.0
最近想使用opencv的GPU模块,就需要用cmake重新编译opencv, 尝试很多中方法,一直不成功,编译老是出错,环境变量也设置了, 真的不知道是什么问题,望大神解答~![图片说明](https://img-ask.csdn.net/upload/201612/28/1482931144_726131.png)
一个关于tensorflow和CUDA安装的问题
我的系统是Linux,我用Anaconda安装tensorflow-gpu是否还需要单独安装CUDA,我看他已经给我顺便安了cudatoolkit和cudnn,是不是就不用再安CUDA了? 另一个问题是,如果我想用C++版的opencv调用CUDA,是不是还得再自己安装CUDA啊?
ffmpeg解码部分视频失败
我有一些视频,能够用播放器播放,但是用ffmpeg-3.4解不出来。 准确的说是用我自己编的ffmpeg库解不出来,用公司同样ffmpeg-3.4就能解出来。 但是我的编译应该没有大问题,因为大部分视频我都能够顺利解码的 视频解码错误时报: ``` [mov,mp4,m4a,3gp,3g2,mj2 @ 0x31b7120] STSC entry 1 is invalid (first=12 count=0 id=1) [mov,mp4,m4a,3gp,3g2,mj2 @ 0x31b7120] stream 0, contradictionary STSC and STCO [mov,mp4,m4a,3gp,3g2,mj2 @ 0x31b7120] error reading header ``` 正常解码出来的信息是: ``` Input #0, mov,mp4,m4a,3gp,3g2,mj2, from 'fail.mp4': Metadata: major_brand : mp42 minor_version : 0 compatible_brands: mp42isom creation_time : 2019-08-06T16:42:23.000000Z Duration: 00:00:10.89, start: 0.000000, bitrate: N/A Stream #0:0(und): Video: h264 (Baseline) (avc1 / 0x31637661), yuv420p, 1280x720, 2815 kb/s, 25.66 fps, 25.64 tbr, 1k tbn, 51.31 tbc (default) Metadata: creation_time : 2019-08-06T16:42:24.000000Z handler_name : encoder : VC Coding ``` 我的编译选项: ``` ./configure --prefix=./ --bindir=bin/ffmpeg --incdir=include/ffmpeg --libdir=lib64/ffmpeg --disable-x86asm --arch=x86_64 --optflags='-O2 -g -pipe -Wall -Wp,-D_FORTIFY_SOURCE=2 -fexceptions -fstack-protector-strong --param=ssp-buffer-size=4 -grecord-gcc-switches -m64 -mtune=generic' --extra-ldflags='-Wl,-z,relro' --enable-libx264 --enable-libx265 --enable-avfilter --enable-pthreads --enable-shared --enable-gpl --disable-debug --enable-cuda --enable-cuvid --enable-nvenc --enable-nonfree --enable-libnpp --extra-cflags=-I/usr/local/cuda-8.0/include --extra-ldflags=-L/usr/local/cuda-8.0/lib64 ``` 怀疑是我编译的时候有什么选项没有开,或者有人告诉我这个视频有什么特殊的地方需要我加特殊的编解码器吗?
tensorflow-gpu为何无法调用GPU进行运算?
如题,本人是小白级别的爱好者,使用的是联想台式机,win10系统,有一块GeForce GT730的独立显卡,想尝试安装tensorflow-gpu 进行加速。 在参考官网方法后,升级了显卡驱动,安装了CUDA9.0 及配套的cudnn7 并添加了环境变量。然后pip 安装tensorflow-gpu 安装成功后,import tensorflow as tf 不报错,但是运行如下代码时,始终显示GPU使用率为0 ``` import tensorflow as tf with tf.device('/cpu:0'): a=tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[2,3],name='a') b=tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[3,2],name='b') c=tf.matmul(a, b) sess=tf.Session(config=tf.ConfigProto(allow_soft_placement=False, log_device_placement=True)) print(sess.run(c)) ``` 试用如下代码检查是否有GPU可以被使用: ``` import os from tensorflow.python.client import device_lib os.environ["TF_CPP_MIN_LOG_LEVEL"] = "99" if __name__ == "__main__": print(device_lib.list_local_devices()) ``` 显示 只有一个CPU可以被调用 ``` [name: "/device:CPU:0" device_type: "CPU" memory_limit: 268435456 locality { } incarnation: 15723487639721858299 ] ``` 那么问题来了。。既然已经成功安装了tensorflow-gpu,为什么仍然无法调用gpu进行计算呢。。 而且,装好tensorflow-gpu之后,双击程序会闪退,但是从IDLE中run是可以运行的,也不报错,但就是不分配给GPU运算。 查看了一下cuda,显示GPU not supported ![图片说明](https://img-ask.csdn.net/upload/201811/08/1541662095_841538.jpg) 这就愈发郁闷了。。。。。。 深知肯定是自己还有什么地方没设置好,但是网上也找不到对应的教程了,只好在此想各位大了!!!! 万望赐教!!!! 感激不尽!!!!
tensorflow-gpu为何无法调用GPU进行运算???
如题,本人是小白级别的爱好者,使用的是联想台式机,win10系统,有一块GeForce GT730的独立显卡,想尝试安装tensorflow-gpu 进行加速。 在参考官网方法后,升级了显卡驱动,安装了CUDA9.0 及配套的cudnn7 并添加了环境变量。然后pip 安装tensorflow-gpu 安装成功后,import tensorflow as tf 不报错,但是运行如下代码时,始终显示GPU使用率为0 ``` import tensorflow as tf with tf.device('/cpu:0'): a=tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[2,3],name='a') b=tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[3,2],name='b') c=tf.matmul(a, b) sess=tf.Session(config=tf.ConfigProto(allow_soft_placement=False, log_device_placement=True)) print(sess.run(c)) ``` 试用如下代码检查是否有GPU可以被使用: ``` import os from tensorflow.python.client import device_lib os.environ["TF_CPP_MIN_LOG_LEVEL"] = "99" if __name__ == "__main__": print(device_lib.list_local_devices()) ``` 显示 只有一个CPU可以被调用 ``` [name: "/device:CPU:0" device_type: "CPU" memory_limit: 268435456 locality { } incarnation: 15723487639721858299 ] ``` 那么问题来了。。既然已经成功安装了tensorflow-gpu,为什么仍然无法调用gpu进行计算呢。。 而且,装好tensorflow-gpu之后,双击程序会闪退,但是从IDLE中run是可以运行的,也不报错,但就是不分配给GPU运算。 查看了一下cuda,显示GPU not supported ![图片说明](https://img-ask.csdn.net/upload/201811/08/1541663479_238541.jpg) 这就愈发郁闷了。。。。。。 深知肯定是自己还有什么地方没设置好,但是网上也找不到对应的教程了,只好在此想各位大了!!!! 万望赐教!!!! 感激不尽!!!!
Unexpected CUDA error: invalid argument
我在使用tensorflow-gpu时,运行如下的代码: ``` import tensorflow as tf a = tf.constant([1.0,2.0,3.0],shape = [3],name='a') print(a) ``` 能正确显示 ``tf.Tensor([1. 2. 3.], shape=(3,), dtype=float32)`` 但当我加入以下两行代码 ``` b = tf.constant([1.0,2.0,3.0], shape = [3],name='b') a+b ``` 会报如下的错误 ``` F tensorflow/stream_executor/cuda/cuda_driver.cc:209] Check failed: err == cudaSuccess || err == cudaErrorInvalidValue Unexpected CUDA error: invalid argument ``` 请大神帮忙解答 ================================================ 参照这篇博客,重新安装了一下,问题已经解决了 [https://blog.csdn.net/weixin_43411129/article/details/101390407](https://blog.csdn.net/weixin_43411129/article/details/101390407)
CUDA7.5+VS2012配置问题
小弟最近刚刚进入CUDA并行编程领域,下载了CUDA Toolkit 7.5和VS2012,安装好了以后开始编程,新建一个工程,自己带了一个实例,运行不成功,运行结果如下: cudaSetDevice failed! Do you have a CUDA-capable GPU installed?addWithCuda failed! 贴上我的GPU情况截图: ![GPU基本情况](https://img-ask.csdn.net/upload/201602/02/1454426112_598804.png) 还望大师帮我指点,怎么调通这个东西啊。。。小弟在此谢过了!
win10下配置CUDA和keras出错
Exception: The nvidia driver version installed with this OS does not give good results for reduction.Installing the nvidia driver available on the same download page as the cuda package will fix the problem: http://developer.nvidia.com/cuda-downloads win10系统,GTX 750Ti显卡,安装了最新版本的GeForce Game Ready Driver,CUDA 8.0,在Theano下配置.theanorc使用gpu,然后import keras提示如上异常,显示驱动程序有问题,请教如何解决
ubuntu下Theano使用GPU的问题
配置情况: 在ubuntu14.04下配置theano,在调用官方文档里GPU测试得函数是总是返回 Used CPU CUDA应该安装的没问题,安装完可以运行测试用例 显卡也是没问题得,支持CUDA妥妥儿得 用的IDE是spyder 使用另一个测试用例 from theano import function, config, shared, sandbox import theano.sandbox.cuda.basic_ops import theano.tensor as T import numpy import time vlen = 10 * 30 * 768 # 10 x #cores x # threads per core iters = 1000 rng = numpy.random.RandomState(22) x = shared(numpy.asarray(rng.rand(vlen), 'float32')) f = function([], sandbox.cuda.basic_ops.gpu_from_host(T.exp(x))) print(f.maker.fgraph.toposort()) t0 = time.time() for i in xrange(iters): r = f() t1 = time.time() print("Looping %d times took %f seconds" % (iters, t1 - t0)) print("Result is %s" % (r,)) print("Numpy result is %s" % (numpy.asarray(r),)) if numpy.any([isinstance(x.op, T.Elemwise) for x in f.maker.fgraph.toposort()]): print('Used the cpu') else: print('Used the gpu') 的时候偶尔会返回 找不到nvcc的错误,提示我应该将nvcc加入路径中,但有时候重启一下就不提示这问题了。。虽然仍然显示调用得是cpu 出现这个问题时候我试着查看 nvcc -V -i 提示nvcc未安装,可使用apt-get安装 然后我用apt-get时又会这样: Reading package lists... Done Building dependency tree Reading state information... Done Note, selecting 'cuda-core-7-5' instead of 'nvcc' cuda-core-7-5 is already the newest version. 0 upgraded, 0 newly installed, 0 to remove and 320 not upgraded. 刚才说了我CUDA都安装好了nvcc肯定妥妥儿的啊,尝试按照CUDA手册上把运行库再添加到路径中一次: gpu2@gpu2-All-Series:~$ export PATH=/usr/local/cuda-7.5/bin:$PATH gpu2@gpu2-All-Series:~$ export LD_LIBRARY_PATH=/usr/local/cuda-7.5/lib64:$LD_LIBRARY_PATH 并没有任何卵用 求各位大神协助!感激不尽!
CUDA编程中如何使用双精度FP64单元,计算单精度FP32指令
我的CUDA核函数中只使用了INT32和FP32的数据类型,可是在用NVprofiler拿到的profiling中: ![图片说明](https://img-ask.csdn.net/upload/201708/14/1502708584_799483.png) 却看到使用了FP64执行单元。 请问,这是什么原因呢? 另外,如何在kernel里面显式指定计算单元,比如指定使用FP64单元计算FP32指令?
cuda+mpi混合编程的函数调用和编译问题
我现在想用mpi实现两块GPU之间的数据通信,请问在cuda源文件里(xxx.cu)如果包含了<mpi.h>头文件,可以调用mpi函数(如mpi_send),并用nvcc正确编译吗。
cupy.cuda.memory.OutOfMemoryError
请教: 训练lda2vec的时候 ``` gpu_id = int(os.getenv('CUDA_GPU', '0')) cuda.get_device(gpu_id).use() print("Using GPU " + str(gpu_id)) ``` ![图片说明](https://img-ask.csdn.net/upload/201911/28/1574907888_199167.png) 训练几十个epoch以后cupy.cuda.memory.OutOfMemoryError,然后又重头开始训练 ``` data = prepare_topics(cuda.to_cpu(model.mixture.weights.W.data).copy(), cuda.to_cpu(model.mixture.factors.W.data).copy(), cuda.to_cpu(model.sampler.W.data).copy(), words) ```
/usr/bin/ld: cannot find -lOPTIONS 无法找到OPTIONS库。
我在UBUNTU 18.04 下用CUDA 10.2 和 C++11标准编译一个较大的工程。 Makefile 是用CMAKE文件生成的。当我在terminal完成编译时显示了如下错误: ``` /usr/bin/ld: cannot find -lOPTIONS collect2: error: ld returned 1 exit status CMakeFiles/cuda_othermain.dir/build.make:132: recipe for target 'bin/cuda_othermain' failed make[2]: *** [bin/cuda_othermain] Error 1 CMakeFiles/Makefile2:79: recipe for target 'CMakeFiles/cuda_othermain.dir/all' failed make[1]: *** [CMakeFiles/cuda_othermain.dir/all] Error 2 Makefile:83: recipe for target 'all' failed make: *** [all] Error 2 ``` 提示是找不到一个叫OPTIONS的库。我的camke和源码里都没有链接这个库,而且我在网上搜索也根本没有一个库叫做OPTIONS。我很疑惑,编译工程时没有显示任何其他错误,顶多就是有几个warning,我查了一下都是没有太大关系的。所以现在没有什么思路去解决这个问题。 所以想请教一下各位有没有什么解决思路。 CMAKE文件如下: ``` cmake_minimum_required (VERSION 3.8 FATAL_ERROR) #project (cusam_cuda) project(cusam_cuda LANGUAGES C CXX CUDA) find_package(CUDA 10.2 REQUIRED) set(CUDA_NVCC_FLAGS -std=c++11 -L/usr/local/cuda-10.2/lib64 -lcudart -lcuda) set(CMAKE_CXX_STANDARD 11) if (CUDA_VERBOSE_PTXAS) set(VERBOSE_PTXAS --ptxas-options=-v) endif (CUDA_VERBOSE_PTXAS) #set(CMAKE_BUILD_TYPE "Release") set(CMAKE_BUILD_TYPE "Debug") SET(CMAKE_CXX_FLAGS_DEBUG "$ENV{CUDA_NVCC_FLAGS} -O0 -Wall -g -ggdb") SET(CMAKE_CXX_FLAGS_RELEASE "$ENV{CUDA_NVCC_FLAGS} -O3 -Wall") set(CMAKE_RUNTIME_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}/bin) set(GENCODE_SM30 -gencode=arch=compute_30,code=sm_30 -gencode=arch=compute_30,code=compute_30) set(GENCODE_SM35 -gencode=arch=compute_35,code=sm_35 -gencode=arch=compute_35,code=compute_35) set(GENCODE_SM37 -gencode=arch=compute_37,code=sm_37 -gencode=arch=compute_37,code=compute_37) set(GENCODE_SM50 -gencode=arch=compute_50,code=sm_50 -gencode=arch=compute_50,code=compute_50) set(GENCODE_SM60 -gencode=arch=compute_60,code=sm_60 -gencode=arch=compute_60,code=compute_60) set(GENCODE_SM61 -gencode=arch=compute_61,code=sm_61 -gencode=arch=compute_61,code=compute_61) set(GENCODE_SM70 -gencode=arch=compute_70,code=sm_70 -gencode=arch=compute_70,code=compute_70) set(GENCODE_SM71 -gencode=arch=compute_71,code=sm_71 -gencode=arch=compute_71,code=compute_71) set(GENCODE_SM75 -gencode=arch=compute_75,code=sm_75 -gencode=arch=compute_75,code=compute_75) option(CUDAMATRIX_GENCODE_SM30 "GENCODE_SM30" OFF) option(CUDAMATRIX_GENCODE_SM35 "GENCODE_SM35" ON) option(CUDAMATRIX_GENCODE_SM37 "GENCODE_SM37" OFF) option(CUDAMATRIX_GENCODE_SM50 "GENCODE_SM50" OFF) option(CUDAMATRIX_GENCODE_SM60 "GENCODE_SM60" OFF) option(CUDAMATRIX_GENCODE_SM61 "GENCODE_SM61" OFF) option(CUDAMATRIX_GENCODE_SM70 "GENCODE_SM70" OFF) option(CUDAMATRIX_GENCODE_SM71 "GENCODE_SM71" OFF) option(CUDAMATRIX_GENCODE_SM75 "GENCODE_SM75" OFF) if (CUDAMATRIX_GENCODE_SM37) set(GENCODE ${GENCODE} ${GENCODE_SM37}) endif(CUDAMATRIX_GENCODE_SM37) if (CUDAMATRIX_GENCODE_SM50) set(GENCODE ${GENCODE} ${GENCODE_SM50}) endif(CUDAMATRIX_GENCODE_SM50) if (CUDAMATRIX_GENCODE_SM60) set(GENCODE ${GENCODE} ${GENCODE_SM60}) endif(CUDAMATRIX_GENCODE_SM60) if (CUDAMATRIX_GENCODE_SM61) set(GENCODE ${GENCODE} ${GENCODE_SM61}) endif(CUDAMATRIX_GENCODE_SM61) if (CUDAMATRIX_GENCODE_SM70) set(GENCODE ${GENCODE} ${GENCODE_SM70}) endif(CUDAMATRIX_GENCODE_SM70) if(CUDAMATRIX_GENCODE_SM71) set(GENCODE ${GENCODE} ${GENCODE_SM71}) endif(CUDAMATRIX_GENCODE_SM71) if(CUDAMATRIX_GENCODE_SM75) set(GENCODE ${GENCODE} ${GENCODE_SM75}) endif(CUDAMATRIX_GENCODE_SM75) include_directories(/usr/local/cuda/include) include_directories(utils) #include_directories(3rdparty/googletest/googletest) #include_directories(3rdparty/googletest/googletest/include) #add_subdirectory(3rdparty/googletest/googletest googletest.out) add_subdirectory(geometry) add_subdirectory(navigation) add_subdirectory(3rdparty) add_subdirectory(nonlinear) add_subdirectory(inference) add_subdirectory(mat) add_subdirectory(miniblas) add_subdirectory(miniblas/cblas) add_subdirectory(miniblas/blas) add_subdirectory(miniblas/permutation) add_subdirectory(miniblas/sys) add_subdirectory(miniblas/linalg) add_subdirectory(linear) #add_subdirectory(test) #cuda_add_executable(imukittiexamplegps_gaussiannewton imukittiexamplegps_gaussiannewton.cpp # OPTIONS ${GENCODE} ${CUDA_VERBOSE_PTXAS}) #target_link_libraries(imukittiexamplegps_gaussiannewton geometry miniblas blas cblas linalg permutation sys navigation 3rdparty linear nonlinear inference mat) #cuda_add_executable(othermain othermain.cpp # OPTIONS ${GENCODE} ${CUDA_VERBOSE_PTXAS}) #target_link_libraries(othermain geometry miniblas blas cblas linalg permutation sys navigation 3rdparty linear nonlinear inference mat) target_compile_features(nonlinear PUBLIC cxx_std_11) cuda_add_executable(cuda_othermain cuda_othermain.cu OPTIONS ${GENCODE} ${CUDA_VERBOSE_PTXAS}) target_compile_features(cuda_othermain PUBLIC cxx_std_11) set_target_properties(cuda_othermain PROPERTIES CUDA_SEPARABLE_COMPILATION ON) target_link_libraries(cuda_othermain geometry miniblas blas cblas linalg permutation sys navigation 3rdparty linear nonlinear inference mat) ``` 源代码就没发帖了,因为工程还算比较大。有劳各位了。
CMAKE里CUDA_SDK_ROOT_DIR怎么设置
Cmake Elastic Fusion Core时候提示NVCC参数数目错误 ![图片说明](https://img-ask.csdn.net/upload/201912/02/1575284685_856175.png) CAMKE里的CUDA_SDK_ROOT_DIR 默认是NOT FOUND 但是没找到CUDA的什么SDK,网上说和TOOK KIT一样的目录 然后我手动选了和TOOL KIT一样的目录 然后camake就会报错,求大神解答,CUDA_SDK_ROOT_DIR该怎么设置 ![图片说明](https://img-ask.csdn.net/upload/201912/02/1575284673_593245.png)
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
2019年11月中国大陆编程语言排行榜
2019年11月2日,我统计了某招聘网站,获得有效程序员招聘数据9万条。针对招聘信息,提取编程语言关键字,并统计如下: 编程语言比例 rank pl_ percentage 1 java 33.62% 2 cpp 16.42% 3 c_sharp 12.82% 4 javascript 12.31% 5 python 7.93% 6 go 7.25% 7 p...
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
将代码部署服务器,每日早上定时获取到天气数据,并发送到邮箱。 也可以说是一个小型人工智障。 知识可以运用在不同地方,不一定非是天气预报。
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
英特尔不为人知的 B 面
从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性」的软件早已经做到了全方位的支持与支撑,并持续发挥独特的生态价值,推动产业合作共赢。 而对于这一不知人知的 B 面,很多人将其称之为英特尔隐形的翅膀,虽低调,但是影响力却不容小觑。 那么,在...
腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹?
昨天,有网友私信我,说去阿里面试,彻底的被打击到了。问了为什么网上大量使用ThreadLocal的源码都会加上private static?他被难住了,因为他从来都没有考虑过这个问题。无独有偶,今天笔者又发现有网友吐槽了一道腾讯的面试题,我们一起来看看。 腾讯算法面试题:64匹马8个跑道需要多少轮才能选出最快的四匹? 在互联网职场论坛,一名程序员发帖求助到。二面腾讯,其中一个算法题:64匹...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
刷了几千道算法题,这些我私藏的刷题网站都在这里了!
遥想当年,机缘巧合入了 ACM 的坑,周边巨擘林立,从此过上了"天天被虐似死狗"的生活… 然而我是谁,我可是死狗中的战斗鸡,智力不够那刷题来凑,开始了夜以继日哼哧哼哧刷题的日子,从此"读题与提交齐飞, AC 与 WA 一色 ",我惊喜的发现被题虐既刺激又有快感,那一刻我泪流满面。这么好的事儿作为一个正直的人绝不能自己独享,经过激烈的颅内斗争,我决定把我私藏的十几个 T 的,阿不,十几个刷题网...
为啥国人偏爱Mybatis,而老外喜欢Hibernate/JPA呢?
关于SQL和ORM的争论,永远都不会终止,我也一直在思考这个问题。昨天又跟群里的小伙伴进行了一番讨论,感触还是有一些,于是就有了今天这篇文。 声明:本文不会下关于Mybatis和JPA两个持久层框架哪个更好这样的结论。只是摆事实,讲道理,所以,请各位看官勿喷。 一、事件起因 关于Mybatis和JPA孰优孰劣的问题,争论已经很多年了。一直也没有结论,毕竟每个人的喜好和习惯是大不相同的。我也看...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
【图解经典算法题】如何用一行代码解决约瑟夫环问题
约瑟夫环问题算是很经典的题了,估计大家都听说过,然后我就在一次笔试中遇到了,下面我就用 3 种方法来详细讲解一下这道题,最后一种方法学了之后保证让你可以让你装逼。 问题描述:编号为 1-N 的 N 个士兵围坐在一起形成一个圆圈,从编号为 1 的士兵开始依次报数(1,2,3…这样依次报),数到 m 的 士兵会被杀死出列,之后的士兵再从 1 开始报数。直到最后剩下一士兵,求这个士兵的编号。 1、方...
吐血推荐珍藏的Visual Studio Code插件
作为一名Java工程师,由于工作需要,最近一个月一直在写NodeJS,这种经历可以说是一部辛酸史了。好在有神器Visual Studio Code陪伴,让我的这段经历没有更加困难。眼看这段经历要告一段落了,今天就来给大家分享一下我常用的一些VSC的插件。 VSC的插件安装方法很简单,只需要点击左侧最下方的插件栏选项,然后就可以搜索你想要的插件了。 下面我们进入正题 Material Theme ...
如何防止抄袭PCB电路板
目录 1、抄板是什么 2、抄板是否属于侵权 3、如何防止抄板 1、抄板是什么 抄板也叫克隆或仿制,是对设计出来的PCB板进行反向技术研究;目前全新的定义:从狭义上来说,抄板仅指对电子产品电路板PCB文件的提取还原和利用文件进行电路板克隆的过程;从广义上来说,抄板不仅包括对电路板文件提取、电路板克隆、电路板仿制等技术过程,而且包括对电路板文件进行修改(即改板)、对电子产品外形模具进行三维...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU...
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1...
Python 植物大战僵尸代码实现(2):植物卡片选择和种植
这篇文章要介绍的是: - 上方植物卡片栏的实现。 - 点击植物卡片,鼠标切换为植物图片。 - 鼠标移动时,判断当前在哪个方格中,并显示半透明的植物作为提示。
相关热词 c# 二进制截断字符串 c#实现窗体设计器 c#检测是否为微信 c# plc s1200 c#里氏转换原则 c# 主界面 c# do loop c#存为组套 模板 c# 停掉协程 c# rgb 读取图片
立即提问