关于mali-T860这款GPU的带宽问题

问题遇到的现象和发生背景

我有一块开发板使用的是rk3399这款瑞芯微的芯片，带有一个mali-T860的GPU，烧入了ubuntu18.04系统，系统中有用OpenCL。
我是用OpenCL测试了GPU带宽性能，发现Device2Host和Host2Device这两个方向的带宽是4000MB/s，而Device2Device这个方向的带宽是2000MB/s。
请问为何Device2Host和Host2Device这两个方向的带宽会比Device2Device这个方向的带宽多一倍？个人认为因为mali-gpu和cpu是共享内存的，难道不应该是三个方向都差不多吗？

问题相关代码，请勿粘贴截图

///////////////////////////////////////////////////////////////////////////////
//  test the bandwidth of a device to host memcopy of a specific size
///////////////////////////////////////////////////////////////////////////////
double testHostToDeviceTransfer(unsigned int memSize, accessMode accMode, memoryMode memMode)
{
    double elapsedTimeInSec = 0.0;
    double bandwidthInMBs = 0.0;
    unsigned char* h_data = NULL;
    cl_mem cmPinnedData = NULL;
    cl_mem cmDevData = NULL;
    cl_int ciErrNum = CL_SUCCESS;

    // Allocate and init host memory, pinned or conventional
    if(memMode == PINNED)
   { 
        // Create a host buffer
        cmPinnedData = clCreateBuffer(cxGPUContext, CL_MEM_READ_WRITE | CL_MEM_ALLOC_HOST_PTR, memSize, NULL, &ciErrNum);
        oclCheckError(ciErrNum, CL_SUCCESS);

        // Get a mapped pointer
        h_data = (unsigned char*)clEnqueueMapBuffer(cqCommandQueue, cmPinnedData, CL_TRUE, CL_MAP_WRITE, 0, memSize, 0, NULL, NULL, &ciErrNum);
        oclCheckError(ciErrNum, CL_SUCCESS);

        //initialize 
        for(unsigned int i = 0; i < memSize/sizeof(unsigned char); i++)
        {
            h_data[i] = (unsigned char)(i & 0xff);
        }
    
        // unmap and make data in the host buffer valid
        ciErrNum = clEnqueueUnmapMemObject(cqCommandQueue, cmPinnedData, (void*)h_data, 0, NULL, NULL);
        oclCheckError(ciErrNum, CL_SUCCESS);
        h_data = NULL;  // buffer is unmapped
    }
    else 
    {
        // standard host alloc
        h_data = (unsigned char *)malloc(memSize);

        //initialize 
        for(unsigned int i = 0; i < memSize/sizeof(unsigned char); i++)
        {
            h_data[i] = (unsigned char)(i & 0xff);
        }
    }

    // allocate device memory 
    cmDevData = clCreateBuffer(cxGPUContext, CL_MEM_READ_WRITE, memSize, NULL, &ciErrNum);
    oclCheckError(ciErrNum, CL_SUCCESS);

    // Sync queue to host, start timer 0, and copy data from Host to GPU
    clFinish(cqCommandQueue);
    shrDeltaT(0);
    if(accMode == DIRECT)
    { 
        if(memMode == PINNED) 
        {
            // Get a mapped pointer
            h_data = (unsigned char*)clEnqueueMapBuffer(cqCommandQueue, cmPinnedData, CL_TRUE, CL_MAP_READ, 0, memSize, 0, NULL, NULL, &ciErrNum);
            oclCheckError(ciErrNum, CL_SUCCESS);
        }

        // DIRECT:  API access to device buffer 
        for(unsigned int i = 0; i < MEMCOPY_ITERATIONS; i++)
        {
                ciErrNum = clEnqueueWriteBuffer(cqCommandQueue, cmDevData, CL_FALSE, 0, memSize, h_data, 0, NULL, NULL);
                oclCheckError(ciErrNum, CL_SUCCESS);
        }
        ciErrNum = clFinish(cqCommandQueue);
        oclCheckError(ciErrNum, CL_SUCCESS);
    } 
    else 
    {
        // MAPPED: mapped pointers to device buffer and conventional pointer access
        void* dm_idata = clEnqueueMapBuffer(cqCommandQueue, cmDevData, CL_TRUE, CL_MAP_WRITE, 0, memSize, 0, NULL, NULL, &ciErrNum);
        oclCheckError(ciErrNum, CL_SUCCESS);
        if(memMode == PINNED ) 
        {
            h_data = (unsigned char*)clEnqueueMapBuffer(cqCommandQueue, cmPinnedData, CL_TRUE, CL_MAP_READ, 0, memSize, 0, NULL, NULL, &ciErrNum); 
            oclCheckError(ciErrNum, CL_SUCCESS); 
        } 
        for(unsigned int i = 0; i < MEMCOPY_ITERATIONS; i++)
        {
            memcpy(dm_idata, h_data, memSize);
        }
        ciErrNum = clEnqueueUnmapMemObject(cqCommandQueue, cmDevData, dm_idata, 0, NULL, NULL);
        oclCheckError(ciErrNum, CL_SUCCESS);
    }
    
    //get the the elapsed time in seconds
    elapsedTimeInSec = shrDeltaT(0);
    
    //calculate bandwidth in MB/s
    bandwidthInMBs = ((double)memSize * (double)MEMCOPY_ITERATIONS)/(elapsedTimeInSec * (double)(1 << 20));

    //clean up memory
    if(cmDevData)clReleaseMemObject(cmDevData);
    if(cmPinnedData) 
    {
        clEnqueueUnmapMemObject(cqCommandQueue, cmPinnedData, (void*)h_data, 0, NULL, NULL);
        clReleaseMemObject(cmPinnedData);
    }
    h_data = NULL;

    return bandwidthInMBs;
}
///////////////////////////////////////////////////////////////////////////////
//  test the bandwidth of a device to host memcopy of a specific size
///////////////////////////////////////////////////////////////////////////////
double testDeviceToDeviceTransfer(unsigned int memSize)
{
    double elapsedTimeInSec = 0.0;
    double bandwidthInMBs = 0.0;
    unsigned char* h_idata = NULL;
    cl_int ciErrNum = CL_SUCCESS;
    
    //allocate host memory
    h_idata = (unsigned char *)malloc( memSize );
        
    //initialize the memory
    for(unsigned int i = 0; i < memSize/sizeof(unsigned char); i++)
    {
        h_idata[i] = (unsigned char) (i & 0xff);
    }

    // allocate device input and output memory and initialize the device input memory
    cl_mem d_idata = clCreateBuffer(cxGPUContext, CL_MEM_READ_ONLY, memSize, NULL, &ciErrNum);
    oclCheckError(ciErrNum, CL_SUCCESS);
    cl_mem d_odata = clCreateBuffer(cxGPUContext, CL_MEM_WRITE_ONLY, memSize, NULL, &ciErrNum);         
    oclCheckError(ciErrNum, CL_SUCCESS);
    ciErrNum = clEnqueueWriteBuffer(cqCommandQueue, d_idata, CL_TRUE, 0, memSize, h_idata, 0, NULL, NULL);
    oclCheckError(ciErrNum, CL_SUCCESS);

    // Sync queue to host, start timer 0, and copy data from one GPU buffer to another GPU bufffer
    clFinish(cqCommandQueue);
    shrDeltaT(0);
    for(unsigned int i = 0; i < MEMCOPY_ITERATIONS; i++)
    {
        ciErrNum = clEnqueueCopyBuffer(cqCommandQueue, d_idata, d_odata, 0, 0, memSize, 0, NULL, NULL);                
        oclCheckError(ciErrNum, CL_SUCCESS);
    }    

    // Sync with GPU
    clFinish(cqCommandQueue);
    
    //get the the elapsed time in seconds
    elapsedTimeInSec = shrDeltaT(0);
    
    // Calculate bandwidth in MB/s 
    //      This is for kernels that read and write GMEM simultaneously 
    //      Obtained Throughput for unidirectional block copies will be 1/2 of this #
    bandwidthInMBs = 2.0 * ((double)memSize * (double)MEMCOPY_ITERATIONS)/(elapsedTimeInSec * (double)(1 << 20));

    //clean up memory on host and device
    free(h_idata);
    clReleaseMemObject(d_idata);
    clReleaseMemObject(d_odata);

    return bandwidthInMBs;
}

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

展开全部

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
有问必答小助手 2022-01-17 02:30
关注
你好，我是有问必答小助手，非常抱歉，本次您提出的有问必答问题，技术专家团超时未为您做出解答

本次提问扣除的有问必答次数，将会以问答VIP体验卡（1次有问必答机会、商城购买实体图书享受95折优惠）的形式为您补发到账户。

因为有问必答VIP体验卡有效期仅有1天，您在需要使用的时候【私信】联系我，我会为您补发。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报
编辑

预览
轻敲空格完成输入
显示为

卡片

标题

链接
评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

编辑

预览

报告相同问题？

关注问题

用荣耀9调试显示[ThreadDexHotfixMonitor]Bind hotfix monitor service fail! android android-studio
2019-10-02 09:17

回答 2 已采纳我也碰到了类似的问题，但是我的情况是点击按钮app就退出了，后来我检查是逻辑代码的问题，在onCreat中的setContentView方法的参数弄错了，修改成正确的参数就好了。
java中Map容器的填充(java编程思想中的一个例子，看不明白) java
2019-02-13 16:23

回答 1 已采纳这个代码的本质是把二维数组DATA包装（或者说伪装）成一个Map。因此，它不需要额外的存储，也不需要所谓的初始化。你的想象中，似乎你现有这么一个二维数组，然后需要一个把它依次添加到Map里面的过程
STM32中 use of undeclared identifier"KEY_ON"怎么解决 stm32
2022-04-01 16:51

回答 2 已采纳感觉你这个文件没有include key.h
关于mali-T860这款GPU的带宽问题
2022-01-14 08:19

地推的博客问题遇到的现象和发生背景我有一块开发板使用的是rk3399这款瑞芯微的芯片，带有一个mali-T860的GPU，烧入了ubuntu18.04系统，系统中有用OpenCL。我是用OpenCL测试了GPU带宽性能，发现Device2Host和Host2Device这两个...
请大神来看看这是不是内存泄漏的错误，在真机调试的时候，有时候运行到一会儿就会奔溃，报这个错误 android
2018-04-23 19:07

回答 2 已采纳用LeakCanary检测下 https://www.liaohuqiu.net/cn/posts/leak-canary/ https://blog.csdn.net/u010198148/ar
js如何禁止弹出层中的日期空间随着底层滚动的问题啊
2015-06-24 22:04

回答 2 已采纳这个只要用css把显示坐标设为固定定位就可以了。 [详解CSS相对定位，绝对定位与固定定位](http://blog.sina.com.cn/s/blog_66765d670100y0av.html
FILE_APPEND与file_put_contents无法正常工作 ajax jquery json php
2014-01-28 08:13

回答 1 已采纳 If I understood ( after seeing hackingarticles.com/marketer/your_data.txt).Your code look as worki
Mali Midgard架构解析
2018-07-05 08:23

James-0的博客 Mali-T800系列GPU采用Midgard架构，如上图所示，其中Shader Core负责执行所有的类型的计算操作，在T800的系类中最高可以拓展的16个SC。RK3399芯片包括4个SC因此简写T864。所有的计算请求被放入到请求队列中，按...
android平板电脑怎么进行硬件解码高清音视频? android arm
2012-11-07 07:28

回答 1 已采纳我研究过，VPlayer就有，方向很明确，去看stagefright，如果是做针对某些机型的Rom的话，会方便一些。如果要做通用的播放器，比如VPlayer这种的，就要适配各种机型的参
未定义属性：Illuminate \ Database \ Eloquent \ Builder :: $ [{“id”：22，“title” laravel php
2018-11-08 13:53

回答 1 已采纳 Remove the $ from ->$product You need to create a relationship first: <?php use Illumin
rk3399pro
2024-09-06 00:00

炭烤毛蛋的博客内置的 Mali-T860 MP4 四核图形处理器支持多种显示接口，包括 DP1.2、HDMI 2.0、MIPI-DSI 和 eDP，能够实现双屏同显或异显功能。RK3399Pro 支持多种视频解码和编码格式，涵盖 4K VP9、4K 10bit H.265/H.264 以及 ...
芯片介绍-RK3399微处理器
2021-03-29 02:33

漂泊在海上的星星的博客芯片介绍-RK3399微处理器一、产品简介一、六核 64 位高性能一体板二、板载 AI 神经...1.8GHz，集成四核 Mali-T860 GPU。拥有超强的通用计算性能，集成更多带宽压缩技术，整体性能优异。二、板载 AI 神经网络加速芯片
ARM Mali-T800全面解析
2015-07-02 06:20

weixin_33705053的博客移动硬件如今的进化速度实在是快得让人眼花缭乱，ARM Mali-T700系列移动GPU才刚刚宣布一年，Mali-T800系列就来了。事实上，ARM的新战略中，Mali GPU今后基本上都会每年升级一次，当然升级力度也就可想而知了。 ARM ...
ARM推出高效、丰富的多媒体解决方案.pdf
2021-09-21 10:50

ARM公司近日宣布推出一款全新的集成多媒体IP套件，这一套件以ARM Mali多媒体IP为基础，旨在为智能手机和平板电脑等移动设备提供更加高效的视觉处理解决方案。ARM Mali多媒体IP套件由多个组件组成，包括Mali-V550视频...
信息化硬件配置需求(或有更好的方案).pdf
2023-08-19 14:46

- GPU：Mali-T860，处理图形和多媒体任务。 - 触摸屏：多点电容触控屏，2.5D设计，支持带指套操作和双击唤醒，适合医疗环境中的无菌操作。 - ROM：16GB/32GB/64GB可选，存储医疗数据。 - RAM：1GB/2GB up to 4GB...
【ARM CoreLink 系列 3 -- CCI-550 控制器介绍】
2023-09-04 01:52

主公讲 ARM的博客它在 big.LITTLE 处理器集群之间提供完整的缓存一致性，并为其他代理（如 Mali GPU、网络接口或加速器）提供 I/O 一致性。CoreLink CCI-550 提供可扩展和可配置的互连，使 SoC 设计人员能够以尽可能小的面积和功耗...
[RK3399][Android7.1] 调试笔记 --- 显示屏使用VOPL通道后无法显示
2018-12-25 09:27

KrisFei的博客 ifeq ($(strip $(TARGET_BOARD_PLATFORM_GPU)), mali-t860) MALI_AFBC_GRALLOC := 1 -USE_AFBC_LAYER = 1 +USE_AFBC_LAYER = 0 LOCAL_CFLAGS += -DMALI_PRODUCT_ID_T86X=1 endif 替换system.image或者...
RK3399_LP4D366 PCB AD版.zip
2021-07-25 05:09

它还配备了强大的GPU，如ARM Mali-T860 MP4，提供卓越的图形处理能力。 LPDDR4是一种低功耗双倍数据速率同步动态随机存取存储器，相比于LPDDR3，它在保持低功耗的同时提供了更高的带宽和性能，适合于移动设备和...
瑞芯微 RK3399 VR Android参数配置和调试说明
2018-10-10 04:11

szhebin的博客 RK3399的CPU采用big.LITTLE大小核... RK3399的GPU采用四核ARM新一代高端图像处理器Mali-T860，集成更多带宽压缩技术：如智能迭加、ASTC、本地像素存储等，还支持更多的图形和计算接口，总体性能比上一代提升45%。 ...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月17日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月14日

悬赏问题

¥15 没输出运行不了什么问题
¥20 输入import torch显示Intel MKL FATAL ERROR，系统驱动1%，: Cannot load mkl_intel_thread.dll.
¥15 点云密度大则包围盒小
¥15 nginx使用nfs进行服务器的数据共享
¥15 C#i编程中so-ir-192编码的字符集转码UTF8问题
¥15 51嵌入式入门按键小项目
¥30 海外项目，如何降低Google Map接口费用？
¥15 fluentmeshing
¥15 手机/平板的浏览器里如何实现类似荧光笔的效果
¥15 盘古气象大模型调用（python）