AI集群网络技术
NVLink:通常是GPU与GPU之间的通信,也可以用于CPU与GPU之间的通信。NVIDIA推出了能够提升GPU通信性能的技术——GPUDirect P2P技术,使GPU可以通过 PCI Express 直接访问目标GPU的显存,避免了通过拷贝到CPU host memory作为中转,大大降低了数据交换的延迟,但受限于PCI Express总线协议以及拓扑结构的一些限制,无法做到更高的带宽。此后,NVIDIA 提出了 NVLink 总线协议
为什么InfiniBand网络成为了AI训练网络的主流? - 知乎 (zhihu.com)
全以太网超低时延HPC网络方案 - 星融元Asterfusion InfiniBand和ROCEV2对比
AI 集群该用 RoCEv2 还是 Infiniband | Bojie Li (01.me) 协议对比
【RDMA】技术详解(一):RDMA概述 - bdy - 博客园 (cnblogs.com) 非常详细,ROCE2和infiniband是RDMA的实现。
针对LLM大模型承载网的AI网络方案-腾讯云开发者社区-腾讯云 (tencent.com) 带宽对AI集群的GPU利用率的影响,以及动态时延对GPU利用率的影响