训练大模型也不怕，轻量级TorchShard库减少GPU内存消耗，API与PyTorch相同

2024-05-08 22:29:54

第一时间获取价值内容

来自：机器之心

训练大模型时，如何优雅地减少 GPU 内存消耗？你不妨试试这个 TorchShard 库，兼具模型并行与数据并行等特点，还具有与 PyTorch 相同的 API 设计。

模型并行性能够促进视觉任务的性能。但是目前，还没有一个标准库可以让我们像采用混合精度等其他 SOTA 技术那样轻松地采用模型并行性。

最近，马里兰大学帕克分校计算机科学系的研究者 Kaiyu Yue 开源了一个工具TorchShard，这是一个轻量级的引擎，用于将 PyTorch 张量切片成并行的 shard。当模型拥有大量的线性层（例如 BERT、GPT）或者很多类（数百万）时，TorchShard 可以减少 GPU 内存并扩展训练规模，它具有与 PyTorch 相同的 API 设计。

项目地址：https://github.com/KaiyuYue/torchshard

BERT 和 GPT 等超大模型正在成为 NLP 领域应用中的趋势。然而训练这种大模型面临内存限制的问题，为了解决这个难题，研究者使用 Megatron-LM 和 PyTorch-Lightning 模型并行性扩大训练。其中，Megatron-LM 只专注于大规模训练语言模型，而 PyTorch-Lightning 仅基于 sharded 优化器状态和梯度，如 DeepSpeed。

在计算机视觉任务中，我们会在训练基于 Transformer、MLP 模型或在数百万个类中训练模型时遇到同样的问题。TorchShard 的目标是：

建立一个标准的 PyTorch 扩展库，用于使用模型并行性进行扩展训练；
以一种简单、自然的方式使用 PyTorch。

TorchShard 是对模型并行单元（mpu）的彻底重写，是 Megatron-LM 核心。最重要的是，TorchShard 具有与 PyTorch 相同的 API 设计，这意味着所有的子类和子函数都保持与 PyTorch 相同。例如，如果你想让原来的线性层 torch.nn. linear 是并行的，只需将 torch 变成 ts，并调用带有 dim 参数的子类 nn.ParallelLinear，如下所示：

import torchshard as ts

ts.init_process_group(group_size=2) # init parallel groups

m = torch.nn.Sequential( torch.nn.Linear(20, 30, bias=True), ts.nn.ParallelLinear(30, 30, bias=True, dim=None), # equal to nn.Linear() ts.nn.ParallelLinear(30, 30, bias=True, dim=0), # parallel in row dimension ts.nn.ParallelLinear(30, 30, bias=True, dim=1), # parallel in column dimension).cuda()

x = m(x) # forwardloss = ts.nn.functional.parallel_cross_entropy(x, y) # parallel loss functionloss.backward() # backward

torch.save( ts.collect_state_dict(m, m.state_dict()), 'm.pt') # save model state

除此之外，TorchShard 还支持与 DDP 一起使用时的各种特性，保存和加载 shard checkpoints，初始化 shard 参数，以及跨多台机器和 GPU 处理张量。具体如下：

torchshard 包含必要的功能和操作，如 torch 包；
torchshard.nn 包含图形的基本构建块，如 torch.nn 包；
torchshard.nn.functional 包含 torchshard.nn 的相应功能操作，如 torch.nn.functional 包；
torchshard.distributed 包含处理分布式张量和组的基本功能，如 torch.distributed 包更容易使用。

如何开始 TorchShard？

安装要求：Python 版本 3.6 以上（含）以及 PyTorch 版本 1.9.0 以上（含）。通过 pip 安装 TorchShard 库：

pip install torchshard

这里以 ImageNet 上训练 ResNet-50 为例，展示仅需几行代码就能在项目中使用 TorchShard。通常 ResNet-50 设计范式包含两部分：卷积块和全连接层，如下图 1 所示。一般来说，由于大量的类依赖于数据集，最后的线性层比卷积块有更多的参数。所以我们切片最后一个线性层来检查其最大尺寸。

图 1：DDP 以及 DDP + TorchShard 前向训练流。

在上图 1 中，左边展示了传统的 DDP 训练范式。假设我们有两个等级，DDP 将强制每个等级有重复的模型参数。然而，TorchShard 会将层级参数切片到不同的等级，从而减少整个 GPU 内存。现在向 ImageNet 官方训练脚本添加一些代码，修改后的版本已经成为 TorchShard 项目的一部分。

首先将 torchshard import 进来：

import torchshard as ts

然后需要初始化模型并行的进程组，就像初始化 DDP 进程组的方法一样。只需要设置一个功能参数来告诉 torchshard 应该从目标层中切片出多少个 shard。

ts.distributed.init_process_group(group_size=args.world_size)

接下来将模型转换为并行版本，其中可以直接将整个模型输入到转换辅助函数中，无需特殊处理。

import resnetmodel = resnet.__dict__[args.arch](pretrained=args.pretrained)ts.nn.ParallelLinear.convert_parallel_linear( model, dim=args.model_parallel_dim)print('=> paralleling model'{}''.format(args.arch))

此外，不要忘记损失函数 torchshard.nn.ParallelCrossEntropy ，该损失函数可以根据输入张量在原始 PyTorch 版本和并行版本之间切换运行模式。例如，如果输入张量是由 torchshard 并行层产生的，torchshard.nn.ParallelCrossEntropy 将以并行方式计算损失值。

criterion = ts.nn.ParallelCrossEntropyLoss().cuda(args.gpu)

当模型并行模式（TorchShard）和数据并行模式（DDP）一起工作时，我们需要处理并行层的输入。每个等级中的参数和训练数据都不同。因此，我们在 ResNet forward 中的并行线性层之前收集输入张量。

x = ts.distributed.gather(x, dim=0) # gather input along the dim of batch size x = self.fc(x)

同样地，我们在计算损失值之前收集目标张量。

output = model(images)if args.enable_model_parallel:    target = ts.distributed.gather(target, dim=0)loss = criterion(output, target)

最后，使用 TorchShard 函数保存和加载 checkpoints 非常简单。TorchShard 提供了名为 torchshard.collect_state_dict 基本函数用于保存 checkpoints，torchshard.relocate_state_dict 用于加载 checkpoints。

保存检查点：

state_dict = model.state_dict()# collect states across all ranksstate_dict = ts.collect_state_dict(model, state_dict)if ts.distributed.get_rank() == 0: torch.save(state_dict, 'resnet50.pt') # save as before

加载检查点：

if ts.distributed.get_rank() == 0:     state_dict = torch.load('resnet50.pt')# relocate state_dict() for all ranksstate_dict = ts.relocate_state_dict(model, state_dict)model.load_state_dict(state_dict) # load as before

现在我们已经完成了在 ImageNet 上为 shard 训练添加代码，然后可以通过增加类的数量来扩展它，即最后一个线性层的输出特征维度。训练脚本可以在 torchshard/project/imagenet 中找到。下图展示了在 8 个 NVIDIA TITAN-XP (12196 MiB) GPU 、类数 ≤ 1000000 上和 16 个 GPU 、类数为 2000000 上训练 ResNet-50 扩展能力。

图 2：在不同并行策略下使用标准 ResNet 训练设置（即输入大小 224 和批量大小 256）的 GPU 内存成本。

使用 AMP 与 ZeRO

TorchShard 以简单自然的 PyTorch 方式与其他技术（例如自动混合精度 AMP 以及 ZeRO）一起混合使用。

# gradscalerscaler = torch.cuda.amp.GradScaler(enabled=args.enable_amp_mode)

with torch.cuda.amp.autocast(enabled=args.enable_amp_mode): # compute output output = model(images) if args.enable_model_parallel: target = ts.distributed.gather(target, dim=0) loss = criterion(output, target)

# compute gradient and do SGD stepscaler.scale(loss).backward()scaler.step(optimizer)scaler.update()optimizer.zero_grad()

图 3：在不同并行策略以及 AMP 下，使用标准的 ResNet 训练设置时（输入尺寸 224，batch 大小 256），使用 GPU 内存的成本。

ZeRO 是 DeepSpeed 的核心，与 PyTorch >= 1.9.0 一起使用。如果你想测试一个函数，请安装最新版本的脚本来运行，代码如下：

from torch.distributed.optim import ZeroRedundancyOptimizerif args.enable_zero_optim:    print('=> using ZeroRedundancyOptimizer')    optimizer = torch.distributed.optim.ZeroRedundancyOptimizer(        model.parameters(),        optimizer_class=torch.optim.SGD,        lr=args.lr,        momentum=args.momentum,        weight_decay=args.weight_decay)else:    optimizer = torch.optim.SGD(model.parameters(), args.lr,                                momentum=args.momentum,                                weight_decay=args.weight_decay)

图 4：在不同的并行策略和 ZeRO 优化器下，在标准 ResNet 训练设置（输入大小 224 和批大小 256）的 GPU 内存成本。

此外，TorchShard 还提供了基本的 Python API 以及和相应的模板文件，以简化自定义并行层的实现。

研究者将持续开发 TorchShard，如 TorchShard 下一个特性是新的数据采样器 torchshard.utils.data.DistributedGroupSampler，它的命名遵循 torch.utils.data.DistributedSampler。该采样器旨在帮助用户构建 M-way 数据并行、N-way 模型并行，使得其就像 DDP 中的 DistributedSampler 一样简单。用户唯一要做的就是设置模型并行组号，然后 DistributedGroupSampler 来确保同一模型并行组中的模块具有相同的训练数据。

原文链接：https://medium.com/pytorch/torchshard-a31fcbfdc354

-结束-

👆 长按识别，即可关注

【pytorch速成】Pytorch图像分类从模型自定义到测试

言有三毕业于中国科学院,计算机视觉方向从业者,有三工作室等创始人作者 | 言有三(微信号Longlongtogo) 编辑 | 言有三前面已跟大家介绍了Caffe和TensorFlow,链接如下. ...
实操教程 | GPU多卡并行训练总结（以pytorch为例）

极市导读本文的论述分为"为什么要使用多GPU并行训练"."常见的多GPU训练方法"."误差梯度如何在不同设备之间通信"."BN如 ...
零基础入门语义分割-Task5 模型训练与验证

一个成熟合格的深度学习训练流程至少具备以下功能: 在训练集上进行训练,并在验证集上进行验证: 模型可以保存最优的权重,并读取权重: 记录下训练集和验证集的精度,便于调参. 5 模型训练与验证为此本章 ...
Pytorch量化入门之超分量化（二）

来源:AIWalker 最近Happy在尝试进行图像超分的INT8量化,发现:pytorch量化里面的坑真多,远不如TensorFlow的量化好用.不过花了点时间终于还是用pytorch把图像超分模型 ...
PyTorch 学习笔记（五）：Finetune和各层定制学习率

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...
MLP三大工作超详细解读：why do we need?

作者|科技猛兽审稿丨邓富城编辑丨极市平台极市导读本文作者详细介绍了最近火爆CV圈三项关于MLP的工作. >>加入极市CV技术交流群,走在计算机视觉的最前沿专栏目录:https:/ ...
小白学PyTorch | 4 构建模型三要素与权重初始化

文章目录: 1 模型三要素 2 参数初始化 3 完整运行代码 4 尺寸计算与参数计算这篇文章内容不多,比较基础,里面的代码块可以复制到本地进行实践,以加深理解. 喜欢的话,可以给公众号加一个星标,点 ...
遥感资源大放送（上）：用开源代码，训练土地分类模型

好奇心Log 以下文章来源于HyperAI超神经 ,作者神经三羊 HyperAI超神经人工智能说明书,了解 AI 的功效与副作用好奇心Log 带着好奇心,记录高效的「数据获取」途径,便捷的「数据处理 ...
遥感资源大放送：用开源代码，训练土地分类模型

深蓝学院 3天前以下文章来源于HyperAI超神经 ,作者神经三羊内容概要:土地分类是遥感影像的重要应用场景之一,本文介绍了土地分类的几个常用方法,并利用开源语义分割代码,打造了一个土地分类模型. ...
ML之分类预测之ElasticNet之PLoR：在二分类数据集上调用Glmnet库训练PLoR模型(T2)

ML之分类预测之ElasticNet之PLoR:在二分类数据集上调用Glmnet库训练PLoR模型(T2) 输出结果设计思路核心代码 for iStep in range(nSteps): lam ...
高中数学|数列知识点总结通项公式递推9大模型精讲专项训练题

数列作为历年的高考重点考查内容之一,往往会结合函数出现在压轴题的位置.数列试题呈现综合性强.立意新.角度新.难度大的特点.今天这篇文章可以帮助同学们完美解决数列问题! 等差数列的定义与性质等比数列的 ...
中考数学必会8大模型

中考数学必会8大模型
动点最值问题：19大模型例题详解，彻底解决压轴难题！

成才路上初中精品学习资料 104篇原创内容公众号 1.将军饮马模型 2.利用三角形两边差求最值 3.手拉手全等取最值 4.手拉手相似取最值 5.平移构造平行四边形求最小 6.两点对称勺子型连接两端 ...
三角形再认识十大模型，十全十美

(本文发布于几何数学公众号) 教师训练营-解题游刃有余 (系统视频课) (点此查看) 初学初中数学,遇到的第一个比较有意思的章节就是:三角形的再认识(有的教材版本叫初步认识,但是其实小学已经认识过了, ...
高中物理力学中常见的九大模型

力学中常考的九大模型,同学们一定要知道 ●高中物理34个易错知识点解析,附经典易错题150道 ●高中物理公式大全 15张物理知识结构图, 从高一到高三都有用! ●高中物理常数表,全记下来考试不用再翻书 ...
动点最值问题19大模型、例题详解

动点最值问题19大模型、例题详解

训练大模型也不怕，轻量级TorchShard库减少GPU内存消耗，API与PyTorch相同

相关推荐