AI集群网络技术

发表于： 2024年9月10日 2024年9月18日
分类：网络

NVLink：通常是GPU与GPU之间的通信，也可以用于CPU与GPU之间的通信。NVIDIA推出了能够提升GPU通信性能的技术——GPUDirect P2P技术，使GPU可以通过 PCI Express 直接访问目标GPU的显存，避免了通过拷贝到CPU host memory作为中转，大大降低了数据交换的延迟，但受限于PCI Express总线协议以及拓扑结构的一些限制，无法做到更高的带宽。此后，NVIDIA 提出了 NVLink 总线协议

为什么InfiniBand网络成为了AI训练网络的主流? - 知乎 (zhihu.com)

全以太网超低时延HPC网络方案 - 星融元Asterfusion InfiniBand和ROCEV2对比

AI 集群该用 RoCEv2 还是 Infiniband | Bojie Li (01.me) 协议对比

【RDMA】技术详解（一）：RDMA概述 - bdy - 博客园 (cnblogs.com) 非常详细，ROCE2和infiniband是RDMA的实现。

深入浅出谈谈，AI集群、NVLink、光模块深入浅出谈AI光模块需求性能提升的秘密武器：缓存CPU访问一次DDR内存空间，需要几百个时钟周期，如果没有其他办法，将会... - 雪球 (xueqiu.com) 网络架构设计和胖树架构

针对LLM大模型承载网的AI网络方案-腾讯云开发者社区-腾讯云 (tencent.com) 带宽对AI集群的GPU利用率的影响，以及动态时延对GPU利用率的影响

1684313521798632.pdf (ecconsortium.org) 中国移动AI技术白皮书