起初为调用大规模的模型训练,单卡GPU是不够使用的,需要借用服务器的多GPU使用。就会涉及到单机多卡,多机多卡的使用。在这里记录一下使用的方式和踩过的一些坑。 … Continue reading 分布式训练 – 多机多卡 (DDP)
标签: DDP
PyTorch:DistributedDataParallel(DDP)学习
鉴于Transformer盛行,导致模型训练已经ImageNet打底了,因此这里得学点分布式训练的知识,不然大数据集都训练不起来,本文是根据参考 … Continue reading PyTorch:DistributedDataParallel(DDP)学习