apt install libnccl2=2.23.4-1+cuda12.6 libnccl-dev=2.23.4-1+cuda12.6

 

apt install openmpi-bin

apt-get install libopenmpi-dev

 

nvidia-smi

nvidia-smi topo -m  #查看NVLINK 状态

How to Enable or Disable NVLink | DigitalOcean Documentation

 

gpustat

 

git clone https://github.com/NVIDIA/nccl-tests

cd nccl-tests

make CUDA_HOME=/usr/local/cuda NCCL_HOME=/usr/local MPI=1 MPI_HOME=/usr/lib/x86_64-linux-gnu/openmpi

 

apt install ucx-utils libucx-dev

 

内核优化:dmesg

ENC 等 网卡队列之类的 基流很专业

 

 

我简单说明下流程哈~

1. 基础驱动安装
CUDA 层:nvidia 驱动、cuda Toolkit、cuDNN
RDMA 层:Mellanox OFED 驱动、配置 RoCE
2. 配置网络
设置 IP 地址、配置交换机
3. 安装分布式训练框架
基础环境:python、torch
分布式训练环境:NCCL、MPI、Horovod
4. 配置分布式训练环境
设置 SSH 免密
配置主机文件
5. 运行分布式训练任务

发表评论

邮箱地址不会被公开。 必填项已用*标注