本周,又是一年一度的高性能计算大会 ISC。今天,是超级计算机 TOP500 榜单更新的时间。根据 TOP500 刚刚发布的超算 TOP500 榜单,中国部署了 226 台位列第一,美国部署了 114 台名列第二,日本以 30 台位居第三。
2020 年 6 月更新的 TOP500 超算系统排名
细看这份最新的榜单,可以发现 TOP10 的超级计算机中有 8 台采用了英伟达 GPU、InfiniBand 网络技术,或同时采用了两种技术。TOP500 榜单的系统中,有 333 套(三分之二)采用了英伟达的技术。
TOP500 超算系统采用 NVIDIA GPU、Mellanox 网络技术,或同时采用了这两种技术数量
三年前的 2017 年 6 月,TOP500 榜单使用英伟达和 Mellanox(被英伟达以 69 亿美元收购)的系统为 203 套,不到 TOP500 个超算系统的一半。为什么在超算领域英伟达能进展如此迅猛?TOP100 超算为何要选英伟达?
高速数据互联技术普及
英伟达愿意以高价收购 Mellanox 的重要原因是高速数据互联在大数据时代变得越来越重要,在超算系统里尤为明显。自 2019 年 11 月以来,TOP500 榜单上使用 HDR InfiniBand 的系统数量几乎增加了一倍。共有 141 台超级计算机使用了 InfiniBand,自 2019 年 6 月以来增长了 12%。
如今,TOP500 榜单上有将近四分之三(74%)的全新 InfiniBand 系统采用了 NVIDIA Mellanox HDR 200G InfiniBand,这是智能高速数据互联技术迅速普及的一个体现。另外,在 TOP500 超级计算机中,有 305 套系统使用了 NVIDIA Mellanox InfiniBand 和 Ethernet 网络(占 61%)。
InfiniBand 为排名前 10 的超级计算机中的 7 台提速
ISC 期间,英伟达又宣布推出 Mellanox UFM Cyber-AI 平台,新的平台运用 AI 分析技术检测安全威胁和运行问题并预测网络故障,能够大幅减少 InfiniBand 数据中心的停机时间。
收购 Mellanox 和智能高速数据互联迅速普及是让英伟达的产品在 TOP500 榜单中比例迅速提升的一个关键,但作为超算系统,性能更为关键。
超高性能系统像积木一样搭建
特别是,当下 AI 和分析已成为科学计算中的新需求,全球各地的研究者都正在使用深度学习和数据分析预测各种最具潜力的领域,进而开展实验。GTC2020 上,英伟达就表示位于美国阿贡国家实验室的研究者使用 24 台 NVIDIA DGX A100 系统组成的集群对数十亿种药物进行扫描,以寻找 COVID-19 的治疗方法。
英伟达最新发布的安培(Ampere)架构 GPU A100 正是推动超算系统选用英伟达产品的关键之一。在一台 6U 服务器中集成了 8 颗 A100 GPU 以及 NVIDIA Mellanox HDR InfiniBand 网络技术的 NVIDIA DGX A100 AI 系统单节点性能达到了创纪录的 5 petaflops。由 140 台 DGXA100 系统组成的新一代 DGX SuperPOD 的 AI 算力更是高达 700 Petaflop。
这对于竞争已经到了百万兆级超算而言,意义重大,并且,这个系统具有很好的扩展性。英伟达表示, DGX SuperPOD 架构设计展示了如何像搭积木一样使用高性能 NVIDIA Mellanox InfiniBand 交换机连接 20 台 DGX A100 系统。4 名操作人员仅需不到 1 个小时,就能组装起一套由 20 台系统组成的 DGX A100 集群,创建出一套性能可以达到2-petaflops 的系统。
据悉,通过添加 NVIDIA Mellanox InfiniBand 交换机层,英伟达工程师将 14 套分别配置有 20 台 DGX A100 系统的模块组的相连接,打造出了 Selene。Selene 系统具有:
-
280 台 DGX A100 系统
-
2240 颗 NVIDIA A100 GPU
-
494 台 NVIDIA Mellanox Quantum 200G InfiniBand 交换机
-
56 TB/s的网络架构
-
7PB 的高性能全闪存
Selene 最重要的性能规格之一是可以提供超过 1 exaflops 的 AI 性能。并且,在 TPCx-BB 关键数据分析基准测试中,使用了 16 台 DGX A100 系统就创造了新纪录,性能表现高出其他系统 20 倍。
在 ISC 2020 期间,英伟达还宣布推出 PCIe 版本的 A100,为的是补充上月发布的四卡和八卡 NVIDIA HGX A100 配置,这样,服务器制造商就能够提供从内置单个 A100 GPU 的系统到内置 10 个或 10 个以上 GPU 的服务器,进一步更好地满足超算系统构建需求。
除了性能,TOP500 超算系统也非常关注能耗,这也是英伟达能吸引超算系统制造商的另一大原因。
能效平均提升 2.8 倍
根据英伟达的说法,在能效方面,TOP500 超算使用英伟达 GPU 的系统与不使用的相比,能效(以 gigaflops/watt 为单位)平均高出 2.8 倍。最能证明这个优势的是上面提到的英伟达内部研究集群新成员 Selene。
据悉,Selene 在 Linpack 基准测试中以 27.5 petaflops 的性能表现,在最新 Green500 榜单中排名第二,TOP500 榜单中排名第七。Selene 的功耗为 20.5 gigaflops/watt,与 Green500 榜单上的第一名相差不大,但排名第一的 MN-3 系统体积更小,性能表现排在第 394 位。
NVIDIA GPU 平均提高 TOP500 超级计算机能效 2.8 倍
值得一提的是,Selene 是 TOP100 系统中唯一突破 20 20 gigaflops/watt 能效表现大关的系统,也是全球性能排名第二的工业超级计算机,仅次于意大利能源巨头 Eni S.p.A. 的 No. 6 系统。
而 Selene 的能效比 TOP500 系统的平均表现比未使用英伟达 GPU 的超算系统高出了 6.8 倍。这种性能和能效是归功于 A100 GPU 中的第三代 Tensor Core 核心,最新一代 Tensor Core 可以为传统的 64 位数学模拟及精度较低的 AI 工作提供加速。
雷锋网小结
高性能计算处理器是一家公司产品性能领导力的体现,更是生态实力的体现。英伟达在 ISC 2020 期间宣布,今年夏天预计有 30 款搭载 A100 的服务器上市,年底还会有 20 多款系统上市。包括华硕、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、联想、One Stop Systems、Quanta/QCT 和 Supermicro。
黄仁勋在 GTC2020 上强调,DGX A100 系统可以实现高利用率和低总拥有成本。当以高售价广为人知的英伟达高性能 GPU 开始强调总体拥有成本和能效时,对于市场时的其他竞争者而言无疑是一个坏消息,这也正是吸引更多超算系统使用英伟达产品的关键因素。
并且,英伟达也推出了为安培架构和 A100 优化的软件支持,包括 CUDA 11、50 多个 CUDA-X 库的新版本; 多模式对话式 AI 服务框架 NVIDIA Jarvis;深度推荐应用框架 NVIDIA Merlin; RAPIDS 开源数据科学软件库套件;NVIDIA HPC SDK。
正在通过软硬件产品帮助开发者构建并加速 HPC、基因组学、5G、数据科学、机器人学等领域的应用的英伟达,未来重点的提升方向会在哪?