如何正确设置DistributedSampler的数据集长度？

在使用PyTorch的DistributedSampler时，正确设置数据集长度（dataset length）对训练过程的均匀性和效率至关重要。一个常见的问题是：**当数据集不能被进程数整除时，如何正确设置dataset长度以避免数据丢失或重复？** 若设置不当，可能导致某些进程在一轮训练（epoch）中无法遍历完整数据，或重复加载样本，影响模型收敛。通常，DistributedSampler默认将数据均匀分配给各个进程，多余的样本会被丢弃（drop_last=False时），或直接忽略（drop_last=True时）。为避免数据偏倚，应如何设置dataset的真实长度？是否应在定义Dataset时手动扩展样本数量？是否需要结合drop_last参数与自定义Sampler共同使用？这是分布式训练中必须掌握的关键技巧。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
诗语情柔 2025-08-09 10:35
关注
在PyTorch中使用DistributedSampler时如何正确设置数据集长度

在分布式训练中，PyTorch的DistributedSampler是一个关键组件，用于确保每个进程访问数据的不同子集。然而，当数据集长度不能被进程数整除时，可能会出现数据丢失或重复的问题。本文将从基础概念入手，逐步深入探讨这一问题的成因、影响及解决方案。

1. DistributedSampler的基本工作原理

DistributedSampler通过将数据集划分为多个部分，每个进程只处理属于自己的那一部分。其核心公式为：

每个进程的起始索引为 rank，步长为 num_replicas（即进程数）
每个进程处理的数据量为 ceil(len(dataset) / num_replicas) 或 floor(len(dataset) / num_replicas)

当 drop_last=False 时，最后一个不完整的 batch 会被保留；当 drop_last=True 时，该 batch 会被丢弃。

2. 数据丢失与重复的原因分析

假设我们有一个长度为1000的数据集，使用4个进程进行训练：

进程编号处理样本数是否重复或缺失
0 250 否
1 250 否
2 250 否
3 250 否

但若数据集长度为1003，进程数为4，则每个进程应处理约250.75个样本。此时，若未设置 drop_last=True，最后一个进程可能多处理一个样本，导致整体数据分布偏移。

3. 解决方案一：使用drop_last参数控制

设置 drop_last=True 可以避免最后一个不完整的 batch 被处理，从而避免数据重复。但这也意味着部分数据在每个 epoch 中会被丢弃，影响训练效果。

from torch.utils.data.distributed import DistributedSampler sampler = DistributedSampler(dataset, num_replicas=world_size, rank=rank, drop_last=True)

优点：简单易用；缺点：数据利用率下降。

4. 解决方案二：手动扩展数据集长度

为了使数据集长度能被进程数整除，可以在定义 Dataset 时手动扩展样本数量。例如：

class PaddedDataset(torch.utils.data.Dataset): def __init__(self, base_dataset, total_size): self.base_dataset = base_dataset self.total_size = total_size self.original_len = len(base_dataset) def __len__(self): return self.total_size def __getitem__(self, idx): return self.base_dataset[idx % self.original_len]

这样可以确保每个进程都能均匀地访问数据，但需要注意扩展部分的数据是否会影响训练效果。

5. 解决方案三：自定义Sampler结合drop_last

如果希望更精细地控制每个进程的数据分布，可以实现自定义的 Sampler，并结合 drop_last 参数使用。例如：

class CustomDistributedSampler(Sampler): def __init__(self, dataset, num_replicas, rank, drop_last=False): self.dataset = dataset self.num_replicas = num_replicas self.rank = rank self.drop_last = drop_last def __iter__(self): indices = list(range(len(self.dataset))) if not self.drop_last: padding_size = self.num_replicas - len(indices) % self.num_replicas if padding_size != self.num_replicas: indices += indices[:padding_size] return iter(indices[self.rank::self.num_replicas])

这种方式可以灵活控制数据重复策略，适用于对数据分布敏感的场景。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

进程编号	处理样本数	是否重复或缺失
0	250	否
1	250	否
2	250	否
3	250	否

报告相同问题？

关注问题

【完整源码+数据集+部署教程】人员落水与救援设备人员检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
2025-12-17 14:48

飞翔的佩奇的博客【完整源码+数据集+部署教程】人员落水与救援设备人员检测系统源码分享[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
PyTorch解读：torch.utils.data的数据解析处理
2021-07-28 22:18

机器学习与AI生成创作的博客用于连接多个 IterableDataset 数据集，在 IterableDataset 的 __add__() 方法中被调用 ● torch.utils.data.Subset：用于获取指定一个索引序列对应的子数据集 class Subset(Dataset[T_co]): dataset: Dataset...
PyTorch 的并行计算——PyTorch 中文文档
2023-08-09 03:50

程序员光剑的博客近年来，随着深度学习模型规模和数据集的不断增长，训练时间成为了制约模型性能提升的关键因素。为了加速模型训练，并行计算技术应运而生，并逐渐成为深度学习领域的研究热点。PyTorch 作为一款流行的深度学习框架，...
Transformer Networks: Transformer模型的一些关键要素和应用
2023-07-28 00:49

程序员光剑的博客 2017年，在深度学习领域中最火热的框架之一——TensorFlow被提出，其出现改变了神经网络模型的构建方式。随后基于Transformer模型的...Robinson先生是谷歌AI语言团队的成员之一，也是一位颇受欢迎的计算机科学教授。
使用 PyTorch 进行分布式训练
2020-12-09 21:00

小北的北的博客欢迎关注“小白玩转Python”，发现更多 “有趣”引言在本教程中，您将学习如何在单个节点上跨多个 GPU 并行 ML 模型训练的实践方面。您还将学习 PyTorch 的分布式数据并行...
PyTorch 多机多卡训练：DDP 实战与技巧
2020-12-25 11:03

视学算法的博客我们要如何把结果合并到一起如何把数据split到各个进程中：新的data sampler 大家肯定还记得，在训练的时候，我们用的 torch.utils.data.distributed.DistributedSampler帮助我们把数据不重复地分到各个进程上去。...
大模型最新面试题系列：微调篇之微调框架（三）
2025-03-29 20:39

人肉推土机的博客例如使用DistributedSampler： from torch.utils.data.distributed import DistributedSampler from torch.utils.data import DataLoader # 假设已有数据集 dataset sampler = DistributedSampler(dataset, num_...
PyTorch 多机多卡训练：分布式实战与技巧
2021-07-28 19:07

datayx的博客我们要如何把结果合并到一起如何把数据split到各个进程中：新的data sampler 大家肯定还记得，在训练的时候，我们用的 torch.utils.data.distributed.DistributedSampler帮助我们把数据不重复地分到各个进程上去。...
【一起来学AI大模型】PyTorch DataLoader 实战指南
2025-07-09 14:45

运器123的博客主要内容包括：1）创建自定义数据集和基础DataLoader；2）处理图像和文本数据集的示例；3）并行加载、数据预取和内存映射等优化方法；4）分布式数据加载策略；5）数据增强技术；6）常见问题解决方案。文章还总结了批...
Debug调试深度学习代码，当批量大小设置较小时，断点后重新运行会卡住的问题。
2025-04-26 20:10

不会编程的-程序猿的博客每次在 PyCharm 里按「恢复运行」后整条训练线卡住，看上去好像哪儿都没动，其实不是 PyCharm “抽风”——而是你无意间在用多进程、又把 batch 批得太小，导致部分进程（或 DataLoader worker）一次都拿不到数据，...
李沐精读论文：transformer 《Attention Is All You Need》 by Google
2022-12-17 12:30

iwill323的博客 CSDN博客_transformer实战本文主要参考博文并摘取文字和图片：李沐论文精读系列一： ResNet、Transformer、GAN、BERT_神洛华的博客 Transformer模型详解_爱编程真是太好了的博客 The Illustrated Transformer – ...
转战pytorch——实现自己的任务（4）
2020-02-29 21:07

AI让世界更懂你的博客在前面的三章中，我们分别介绍了pytorch的组件，详细解读了官方的代码示例，了解python的运行过程，并利用最新的自然语言处理模型Albert实现了一次文本分类。但是，如果我们需要构建属于自己的数据处理、模型以及...
Batch采样策略的优化
2023-04-20 15:42

Pennyyu0214的博客算法描述如下：输入：数据集D，序列最大长度l，区间i，计划训练步数total_step，批量大小Batch_Size 输出：None s ← 0 buckets ← [[] for _ in range(l//i + 1)] # 建立(l//i + 1)个空列表，每个列表代表一个桶...
从入门到精通：HuggingFace Transformers库的PyTorch适配指南
2025-04-17 08:00

计算机学长的博客 HuggingFace Transformers 库是自然语言处理领域中一颗璀璨的明星，它为开发者提供了极为丰富的资源和强大的工具。这个库中包含了大量基于 Transformer 架构的预训练模型，如 BERT、GPT-2、RoBERTa、T5 等。这些预...
【学习笔记】从零构建大模型
2025-10-07 16:43

红宝村村长的博客 torch.pi)) * (x + 0.044715 * torch.pow(x, 3)) )) gelu, relu = GELU(), nn.ReLU() x = torch.linspace(-3, 3, 100) # 在-3 和 3 之间创建 100 个样本数据点 y_gelu, y_relu = gelu(x), relu(x) plt.figure...
快速全面掌握PyTorch框架— 并行使用篇（必背）—从并行到分布式的训练全景与实践要点，全面掌握DP、DDP、FSDP及流水线并行技术（完结篇）
2025-01-29 18:45

快撑死的鱼的博客正如 PyTorch 官方文档中所提到的，在“分布式和并行训练教程”与“PyTorch 分布式概述”这两大板块中，已经对底层通信方式、分布式数据并行的工作机制做了详尽介绍。后端（Backend）PyTorch 分布式最常见的后端包括...
dataset__getitem___PyTorch源码解析与实践（1）：数据加载Dataset，Sampler与DataLoader
2020-11-27 00:31

weixin_39954698的博客 </li></ul>Sampler负责提供一种遍历数据集所有元素索引的方式。Dataloader负责加载数据，同时支持map-style和iterable-style Dataset，支持单进程/多进程，还...
pytorch 单卡改多卡详细教程
2022-12-24 09:47

程序员奇奇的博客另外，作者在实现Sampler的时候是继承了torch.utils.data.Sampler这个类的，目的在于agenda数据集的文本长度严重不均衡，如下：为了让模型更快train完，把长度相近的文本打包成一个batch（温馨提醒，torchtext也有...
Pytorch框架深度学习-图像分类经典模型
2023-03-16 21:30

1025hl的博客提供基于pytorch框架深度学习图像分类的经典模型和数据集，代码实用性强，可套改模板，适合新手入门深度学习。
【完结】囚生CYの备忘录（20221121-20230123）
2022-11-22 11:14

囚生CY的博客理想中子女能够跟我一样热爱跑步，小时候能教会TA编程乃至TA精通一门语言。但是又如何能做到这一点呢？这使我陷入困惑，我想是不会去强迫TA做什么事情，因为我也不喜欢被人PUSH去做事。看起来似乎只能听天由命，或许...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 10月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月9日

如何正确设置DistributedSampler的数据集长度？

1条回答 默认 最新

在PyTorch中使用DistributedSampler时如何正确设置数据集长度

1. DistributedSampler的基本工作原理

2. 数据丢失与重复的原因分析

3. 解决方案一：使用drop_last参数控制

4. 解决方案二：手动扩展数据集长度

5. 解决方案三：自定义Sampler结合drop_last

问题事件

1条回答默认最新