ubuntu 24.04 安装 NCCL 和 CUDE。mpirun
apt install libnccl2=2.23.4-1+cuda12.6 libnccl-dev=2.23.4-1+cuda12.6
apt install openmpi-bin
apt-get install libopenmpi-dev
nvidia-smi
nvidia-smi topo -m #查看NVLINK 状态
How to Enable or Disable NVLink | DigitalOcean Documentation
gpustat
git clone https://github.com/NVIDIA/nccl-tests
cd nccl-tests
make CUDA_HOME=/usr/local/cuda NCCL_HOME=/usr/local MPI=1 MPI_HOME=/usr/lib/x86_64-linux-gnu/openmpi
apt install ucx-utils libucx-dev
内核优化:dmesg
ENC 等 网卡队列之类的 基流很专业
我简单说明下流程哈~
1. 基础驱动安装
CUDA 层:nvidia 驱动、cuda Toolkit、cuDNN
RDMA 层:Mellanox OFED 驱动、配置 RoCE
2. 配置网络
设置 IP 地址、配置交换机
3. 安装分布式训练框架
基础环境:python、torch
分布式训练环境:NCCL、MPI、Horovod
4. 配置分布式训练环境
设置 SSH 免密
配置主机文件
5. 运行分布式训练任务