cuda 支持 uncoalesced access吗？

我用的cuda8,0，GPU N960，对于全局内存的访问，有资料说coalesced access可能会导致错误的结果，有的则是说只是影响效率，
在CPU端应该只是影响效率，但不知道GPU是否一样？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
nkakaxi 2016-12-25 07:14
关注
支持的，只不过coalesced access效率更高

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【CUDA】Nsight profile驱动的CUDA优化
2024-05-29 00:24

Dovake的博客 3.3.2 Memoy Workload Analysis The memory access pattern for global loads in L1TEX might not be optimal. On average, this kernel accesses 8.0 bytes per thread per memory request; but the address ...
【CUDA调优指南】缓存&访存流程
2025-06-25 21:18

爱听歌的周童鞋的博客【CUDA调优指南】缓存&访存流程
cuda编程学习笔记第二章 cuda memory management
2021-09-12 22:03

叶子心情你不懂的博客这俩是调试工具，不知道是不是基于CUPTI (CUDA Profiler Tools Interface)。 NVPROF是命令行工具，nvvp是可视化工具。 nvvp有四个模块：Timeline，Summary，Guide，Analysis results 其中 Guide 适合新手，新手应该...
cuda合并访问的要求,CUDA 5.0内存对齐和合并访问
2020-12-29 08:40

澾慟的博客 I have a 2D host array with 10 rows and 96 ... I load this array to my cuda device global memory linearly i.e. row1, row2, row3 ... row10.The array is of type float. In my kernel each thread acce...
在CUDA中优化矩阵转置
2024-08-20 18:51

Polaris北极星少女的博客矩阵转置优化CUDA内存管理本文档讨论了CUDA应用程序性能的各个方面，这些方面与有效使用GPU内存和应用于矩阵转置的数据管理有关。主机和设备之间的数据传输，以及常量和纹理存储器。这里没有讨论高效内存使用的其他...
CUDA~Memory coalescing
2024-07-27 02:48

鱼儿小可爱的博客本篇主要介绍CUDA编程中的Memory coalescing概念。翻译整理自 Programming Massively Parallel Processors 4thmemory coalescing就是内存合并，通常用于高效地在全局内存、共享内存、寄存器之间传输数据。CUDA ...
解锁GPU性能：CUDA全局内存访问优化指南
2025-12-27 09:37

codeshare1135的博客所有当前支持CUDA的GPU的线程束大小（实际上是SIMT宽度）是32个线程。在CUDA中访问全局内存时，您需要考虑的一个关键方面是同一线程束内不同线程所访问的内存位置之间的关系。这些内存访问的模式直接影响内存访问...
Cuda中Global memory中coalescing例程解释
2015-05-20 03:03

qqlu_did_lq的博客 Global memory是cuda中最常见的存储类型，又叫做Device memory，位于Host主机区域上，它的生命周期是在整个Grid里面，大约具有500个cycle latency。在cuda并行程序中，尽量用Coalesing accessing的策略来最大化带宽...
基于CUDA共享与恒定内存的2D图像卷积高效实现
2025-09-08 05:08

weixin_42668301的博客在下一章中，我们将进一步讨论CUDA图像卷积实现的关键编程技术，包括内存管理、kernel函数设计、线程同步机制以及性能调优工具的使用。这些内容将进一步帮助开发者在实际项目中构建高效稳定的CUDA图像处理系统。
CUDA之Global memory合并访问Coalesced详解
2017-03-23 18:59

Bruce_0712的博客合并访问是指所有线程访问连续的对齐的内存块，对于L1 cache，内存块大小支持32字节、64字节以及128字节，分别表示线程束中每个线程以一个字节（1*32=32）、16位（2*32=64）、32位（4*32=128）为单位读取数据。...
没有解决我的问题, 去提问

cuda 支持 uncoalesced access吗？

1条回答 默认 最新

1条回答默认最新