10 月 29 日消息,科技媒体 servethehome 昨日(10 月 28 日)发布博文,应 xAI 公司邀请,参观了 Colossus 全球最大 AI 训练集群。
曾于今年 9 月报道,xAI 在 Supermicro 的帮助下,在短短 122 天时间内搭建 10 万张英伟达 H100,而该公司计划未来将再翻倍增加 10 万张 GPU,其中 5 万张为更先进的 H200。
xAI Colossus 配备了英伟达 HGX H100 服务器,每台服务器内含 8 张 H100 GPU,所有服务器都在 Supermicro 的 4U 水冷系统中运行,确保高效散热。
每个机架可容纳 8 台服务器,8 台服务器组成 1 个阵列,意味着每个阵列有 512 个 GPU。Colossus 集群内有超过 1,500 个 GPU 机架,支持高带宽的网络互联。
每个 GPU 配备 400GbE 的网络接口控制器,确保每台 HGX H100 服务器达到 3.6 Terabit 每秒的以太网带宽。