作者:上方文Q
日前有媒体曝料称,Intel Xe 架构独立显卡会采用瓦片式(Tiled)小芯片堆叠的设计思路,每个瓦片有 128 个执行单元(EU),而每个单元内 8 个核心,四片式结构就有 4096 个核心,但是功耗高达 400W 甚至是 500W。
这无疑是极为疯狂的。要知道,NVIDIA、AMD 显卡现在最多分别 4608 个、4096 个核心,对应功耗 280W、295W。虽然三家不同架构的核心不具备直接可比性,但总归不会差太远,Intel 的能效不可能这么低。
果然,很快就翻转了。WCCFTech 从内部线人那里打探到了最新情报,远要震撼的多。
我们知道,Intel Xe 架构是面向从轻薄笔记本直到高性能计算的全领域的,并为此划分成了三个不同的子架构,从低到高分别是低功耗的 Xe LP、高性能的 Xe HP、高性能计算的 Xe HPC。
WCCFTech 声称,Xe LP 架构才是每个瓦片 128 个执行单元,其内部编号为 Xe 12.1;Xe HP 架构的编号则是 Xe 12.5,每个瓦片有 512 个执行单元。
Xe HP 又分为三种不同规格:
- 单瓦片:总共 512 个执行单元、4096 个核心,功耗 150W 左右,核心频率 1.5GHz 的话浮点性能 12.2TFlops
- 双瓦片:总计 1024 个执行单元、8192 个核心,功耗 300W 左右,核心频率 1.25GHz 的话浮点性能 20.48TFlops
- 四瓦片:总计 2048 个执行单元、16384 个核心,功耗 400/500W 左右,核心频率 1.1GHz 的话浮点性能 36TFlops
这是什么概念?NVIDIA 最顶级的 Titan RTX 单精度浮点性能也不过 16.3TFlops,AMD RX Vega 64 则只有 12.66TFlops,Intel 分别是它们的 2.2 倍、2.8 倍!
最顶级的 Xe HPC 什么规格还不得而知,但必然会更上一层。
那么 16384 个核心到底性能会达到什么程度呢?在探讨这个问题之前,我们先来参考一下 Intel 核显的性能表现。
这是戴尔 XPS 13 2in1 笔记本的 3DMark FSE 的测试成绩!这款笔记本搭载的似乎 Intel i7-1065G7 处理器,内置 64 个 EU 执行单元,总共 512 个核心,频率 1.1GHz。它的 3DMark FSE 图形分数为 1404 分,这个分数要比满血版 MX150 的 1500 分差了 10% 左右(满血 MX150 Boost 频率 1532MHz)。
当然,一定会有很多同学提出质疑,Intel 核显跑分厉害,但游戏帧率方面的表现却不尽如人意。
其实这是核显的通病,核显不仅要与 CPU 分享 15W 的 TDP,还要与系统共享内存带宽;而满血的 MX150 不仅可以独享 25W TDP,还能独占 2GB 的 GDDR5 显存。从这里就可以看出核显在游戏中表现失常到底是什么原因了。
不只是 Intel 的核显,AMD 的核显也面临着相同的问题!锐龙 5 3500U 内置 512 个流处理器的 Vega8 GPU,在参数上与移动版的 RX 550 相当,3DMark 的跑分与相差不大,但是在到了实际游戏中,二者会呈现出非常大的差距。
因此我们可以设想,将 i7-1065G7 的 Iris Plus Graphics 拿出来单独做成独立显卡,提供 25W 的 TDP 以及 2GB GDDR5 显存,其实际性能表现不会比 384 个流处理器的 MX150 差多少。
现在回到 Intel Xe 显卡这里,最高 2048 个 EU 执行单元,16384 个核心,整体规格是 i7-1065G7 的 32 倍,换算下来至少相当于 12288 个图灵流处理器,也即是 2.8 个 RTX 2080 Ti。当然前提是 Intel 的驱动程序能够完全发挥 GPU 的性能。
2048 个 EU 的 Intel Xe 显卡单精度浮点性能为 36 TFlops,和 RTX 2080 Ti 的 13.4 TFlops 单精度浮点性能比起来,二者之间正好也是 2.7 倍的差距。
时隔 12 年,Intel 再次回到独显领域的决心非比寻常,我们也相信 Intel 有实力能在独显方面挑战 NVIDIA 的垄断地位!毕竟在一家独大的情况下,消费者已经是很难买到便宜的显卡了。
根据 NVIDIA 最新的财报,2020 财年 Q4 毛利润达到了 20.3 亿美元,毛利率高达 64.5%。