ubuntu 24.04 安装 NCCL 和 CUDE。mpirun

发表于： 2024年12月11日 2024年12月12日
分类：人工智能

apt install libnccl2=2.23.4-1+cuda12.6 libnccl-dev=2.23.4-1+cuda12.6

apt install openmpi-bin

apt-get install libopenmpi-dev

nvidia-smi

nvidia-smi topo -m #查看NVLINK 状态

How to Enable or Disable NVLink | DigitalOcean Documentation

gpustat

git clone https://github.com/NVIDIA/nccl-tests

cd nccl-tests

make CUDA_HOME=/usr/local/cuda NCCL_HOME=/usr/local MPI=1 MPI_HOME=/usr/lib/x86_64-linux-gnu/openmpi

apt install ucx-utils libucx-dev

内核优化：dmesg

ENC 等网卡队列之类的基流很专业

我简单说明下流程哈～

1. 基础驱动安装
CUDA 层：nvidia 驱动、cuda Toolkit、cuDNN
RDMA 层：Mellanox OFED 驱动、配置 RoCE
2. 配置网络
设置 IP 地址、配置交换机
3. 安装分布式训练框架
基础环境：python、torch
分布式训练环境：NCCL、MPI、Horovod
4. 配置分布式训练环境
设置 SSH 免密
配置主机文件
5. 运行分布式训练任务

tingyuxinsheng@gmail.com

1294

tingyuxinsheng@gmail.com

发表评论 取消回复

发表评论取消回复