"with torch.cuda.stream()" 为什么会阻塞，而不是异步的？

起因

我在尝试实现dualpipe中的两个model chunk前向和反向之间的overlap。我打算先用torch.cuda.stream简单实现，一下：

def overlapped_forward_backward(
    module0: torch.nn.Module,
    inputs0: List[torch.Tensor],
    labels0: Optional[List[torch.Tensor]],
    loss_masks0: Optional[List[torch.Tensor]],
    loss1: Optional[torch.Tensor],
    outputs1: Optional[List[torch.Tensor]],
    output_grads1: Optional[List[torch.Tensor]],
    forward_step_func: Callable,
    is_last_stage0: bool,
) -> tuple[torch.Tensor, Optional[torch.Tensor]]:
    """
    You should implement custom forward-backward overlap strategy.
    The code below is just an example.
    """
    device = inputs0[0].device
    if not hasattr(overlapped_forward_backward, 'backward_streams'):
        overlapped_forward_backward.backward_streams = {}
    if device not in overlapped_forward_backward.backward_streams:
        overlapped_forward_backward.backward_streams[device] = torch.cuda.Stream(device=device)
    backward_stream = overlapped_forward_backward.backward_streams[device]

    with torch.cuda.stream(backward_stream):
        if loss1 is not None:
            loss1.backward()
            loss1.detach_()
        else:
            run_backward(outputs1, output_grads1)

    if len(inputs0) == 1:
        from megatron.core.utils import get_attr_wrapped_model
        set_input_tensor = get_attr_wrapped_model(module0, "set_input_tensor")
        set_input_tensor(inputs0)
    if is_last_stage0:
        inputs0_with_labels_loss_masks = list(inputs0)
        inputs0_with_labels_loss_masks.append(labels0)
        inputs0_with_labels_loss_masks.append(loss_masks0)
        outputs0, loss_func = forward_step_func(inputs0_with_labels_loss_masks, module0)
    else:
        outputs0, loss_func = forward_step_func(inputs0, module0)
    outputs0 = [outputs0] if isinstance(outputs0, torch.Tensor) else outputs0
    if is_last_stage0:
        loss0 = loss_func(outputs0[0])[0]
    else:
        loss0 = None

    torch.cuda.current_stream().wait_stream(backward_stream)

    return outputs0, loss0

我发现前向和反向并没有overlap，反向那块代码运行时间和没有加stream的情况是相同的。

小实验

于是我做了下面这个小实验：


import torch
import time

# GPU warmup
a = torch.randn(10000, 10000, device='cuda')
b = torch.randn(10000, 10000, device='cuda')
c = torch.mm(a, b)

# Count calculation time
calc_start = time.time()
a = torch.randn(10000, 10000, device='cuda')
b = torch.randn(10000, 10000, device='cuda')
for i in range(100):
    c = torch.mm(a, b)
calc_end = time.time()
print(f"calc time: {calc_end - calc_start}")

# Count stream time
calc_stream = torch.cuda.Stream()
torch.cuda.synchronize()
stream_start = time.time()
with torch.cuda.stream(calc_stream):
    a = torch.randn(10000, 10000, device='cuda')
    b = torch.randn(10000, 10000, device='cuda')
    for i in range(100):
        c = torch.mm(a, b)
stream_end = time.time()
print(f"stream time: {stream_end - stream_start}")

torch.cuda.synchronize()

测试了用stream和不用stream的时间，发现时间是差不多的，stream的时间反而更长：

问题

按照我的理解，"with torch.cuda.stream()"应该是异步的，不会阻塞，其中的代码块运行时间应该趋近于零。这样才可以和后续的程序并行计算或通信。但是实验结果貌似说明它是阻塞的，整个计算做完之后才会往后继续执行。我代码哪里不对吗，还是有其他可能原因，请指点一下！

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阿里嘎多学长 2025-07-10 19:54
关注
阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程

with torch.cuda.stream() 为什么会阻塞，而不是异步的？

你使用 torch.cuda.stream() 试图实现异步计算，但是实际上它并没有实现异步计算，而是阻塞的原因是因为 CUDA Stream 的实现机制。

torch.cuda.stream() 创建了一个 CUDA Stream 对象，这个对象可以控制 GPU 上的计算流程，但是它并不是真正的异步计算机制。实际上，它只是将计算流程排队到 GPU 上，然后等待计算完成。

在你的代码中，使用 with torch.cuda.stream(stream) 语句创建了一个 CUDA Stream 对象，然后将计算流程排队到这个对象上。但是，这个对象并没有真正地异步计算，而是阻塞的，因为它需要等待计算完成。

如果你想实现真正的异步计算，可以使用 torch.cuda.async_copy_to_device 和 torch.cuda.async_copy_from_device 函数，它们可以异步地将数据从 CPU 复制到 GPU 或从 GPU 复制到 CPU。

例如：

import torch import torch.cuda # 创建 CUDA Stream 对象 stream = torch.cuda.Stream() # 将数据从 CPU 复制到 GPU torch.cuda.async_copy_to_device(data, device) # 在 GPU 上执行计算 torch.cuda.synchronize(stream) # 将结果从 GPU 复制到 CPU torch.cuda.async_copy_from_device(result, device)

在上面的代码中，我们使用 torch.cuda.async_copy_to_device 和 torch.cuda.async_copy_from_device 函数异步地将数据从 CPU 复制到 GPU 和从 GPU 复制到 CPU，然后使用 torch.cuda.synchronize 函数等待计算完成。

结论

torch.cuda.stream() 创建的 CUDA Stream 对象并不是真正的异步计算机制，而是阻塞的。要实现真正的异步计算，可以使用 torch.cuda.async_copy_to_device 和 torch.cuda.async_copy_from_device 函数。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【PyTorch】torch.cuda.synchronize() 函数：同步GPU计算流
2025-02-27 17:11

彬彬侠的博客在PyTorch进行GPU计算时，CUDA操作是异步执行的，而torch.cuda.synchronize()主要用于确保CUDA操作已经完成，通常用于性能测试或确保正确的时间测量。但不要在正常训练中频繁调用，否则会降低PyTorch的GPU计算效率。...
实现dualpipe中的两个model chunk前向和反向之间的overlap：发现“with torch.cuda.stream()“ 会阻塞，没有 overlap，而不是异步的？如何解决？？
2026-02-03 10:49

bug菌¹的博客本文收录于《全栈 Bug 调优（实战版）》专栏。专栏聚焦真实项目中的各类疑难 Bug，从成因剖析 → 排查路径 → 解决方案 → 预防优化全链路拆解，形成一套可复用、可沉淀的实战知识体系。无论你是初入职场的开发者...
torch.cuda.synchronize解析[代码]
2025-12-17 08:56

为了避免这种情况，需要使用torch.cuda.synchronize()函数，它能够在CPU线程中起到阻塞的作用，直到GPU上所有的CUDA核心完成当前的任务。在使用深度学习框架进行模型训练或推理时，通常会涉及到多个迭代的epoch，...
CUDA流（Stream）并发执行提升PyTorch计算效率
2025-12-29 00:14

徐校长的博客通过CUDA流实现计算与数据传输的重叠，有效提升GPU利用率。结合PyTorch的非默认流和事件机制，可在训练中隐藏数据加载延迟，尤其适用于I/O密集型场景。配合官方Docker镜像，快速构建稳定高性能环境，实现开箱即用的...
CUDA流(Stream)并行优化：提升PyTorch训练吞吐量
2025-12-29 22:59

codingdie的博客通过CUDA流实现计算与数据传输的重叠，有效提升GPU利用率，减少训练等待时间。结合异步预取、内存锁定和流调度，可在ResNet-50等模型上显著缩短单epoch耗时，尤其适用于小批量或高分辨率场景，是深度学习高性能训练...
突破GPU瓶颈：PyTorch Stream与Event异步计算完全指南
2025-09-19 07:02

谭妲茹的博客本文将通过PyTorch的Stream（流）与Event（事件）机制，带你掌握异步计算的核心技术，轻松提升模型训练效率30%以上。读完本文，你将能够： - 理解GPU异步计算的底层原理 - 掌握Stream的创建与任务调度技巧 - 学会用...
pytorch 同步机制
2024-09-21 22:48

Jakari的博客在 PyTorch 中，当多个算子（operators）和内核（kernels）被...CUDA 是一个异步计算平台，计算任务会被放入一个队列中异步执行，PyTorch 为了确保不同算子之间的依赖关系正确，使用了流和事件来管理任务的调度和同步。
动手学深度学习 - 计算性能 - 13.2 异步计算
2025-05-29 08:48

夏驰和徐策的博客 2）同步操作（如打印、类型转换）会阻塞计算；3）合理使用同步点（如每批次同步一次）可平衡性能和稳定性。文章还给出工程建议，如避免频繁数据转换、使用专业分析工具等，帮助开发者充分利用硬件并行能力。理解异步...
PyTorch-CUDA-v2.6镜像中的CUDA流（Stream）优化技巧
2025-12-29 05:38

老光私享的博客通过PyTorch中的CUDA流实现数据加载与模型计算的并行化，有效消除GPU空转，显著提升训练和推理效率。结合双流设计、预分配缓冲区和显式同步，可在I/O密集场景下充分发挥A100/H100硬件性能，尤其适用于PyTorch 2.6 + ...
CUDA流与异步
2024-04-23 21:09

Cheny1m的博客基于流的异步的内核启动和数据传输支持以下类型的粗粒度并发：1.重叠主机计算和设备计算；2.重叠主机计算和主机与设备间的数据传输；3.重叠主机与设备间的数据传输和设备计算；4.并发设备计算。理解一个CUDA程序，...
CUDA流式传输Stream：Miniconda-Python3.9异步执行计算任务
2025-12-30 15:55

创新工场的博客通过CUDA流实现数据传输与计算的重叠执行，显著提升GPU利用率；结合Miniconda-Python3.9构建可复现、轻量化的开发环境，解决依赖混乱问题...二者协同优化异步AI计算性能与工程稳定性，适用于实时推理与大规模训练场景。
【CUDA编程】getCurrentCUDAStream 详解
2025-06-17 22:14

量化投资和人工智能的博客 getCurrentCUDAStream 是 PyTorch 中用于获取当前线程绑定的 CUDA 流对象的关键函数，它在 GPU 异步计算、多流并行优化中扮演核心角色。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月10日

"with torch.cuda.stream()" 为什么会阻塞，而不是异步的？

起因

小实验

问题

6条回答 默认 最新

with torch.cuda.stream() 为什么会阻塞，而不是异步的？

结论

问题事件

6条回答默认最新