编者注:苹果于 3 月 9 日公布其迄今最强自研电脑芯片 M1 Ultra,它将两个 M1 Max 芯片拼在一起,使得芯片各项硬件指标直接翻倍,这背后的关键技术即是苹果创新定制的封装架构 UltraFusion。千芯科技董事长陈巍通过分析苹果公司与其芯片代工厂台积电的专利和论文,对这一先进封装技术进行解读。
2022 年 3 月,苹果又一次触动了芯片界的游戏规则。苹果发布的 M1 Ultra 芯片,是迄今为止该公司最强大的芯片,却是一个“拼装货”。尽管很多计算芯片已采用 Chiplet(芯粒)技术提升性能,但“拼装货”M1 Ultra 的性能还是让 PC 界震撼了。
M1 Ultra 支持高达 128GB 的高带宽、低延迟统一内存,支持 20 个 CPU 核心、64 个 GPU 核心和 32 核神经网络引擎,每秒可运行高达 22 万亿次运算,提供的 GPU 性能是苹果 M1 芯片的 8 倍,提供的 GPU 性能比最新的 16 核 PC 台式机还高 90%。
苹果的新 M1 Ultra 芯片“拼装”性能之所以成为可能,要归功于其 UltraFusion 架构。其实,UltraFusion 功能早已内置于之前发布的苹果 M1 Max 芯片中,但直到 3 月的苹果 Peek Performance 活动才被明确提出。
▲ 苹果公司 M1 Ultra 的 UltraFusion 架构
M1 Ultra 芯片的 UltraFusion 架构使用硅中介层(Silicon Interposer)和微型凸块(Micro-Bump),将芯片连接到超过 10,000 个信号。
该技术提供 2.5TB / s 的超高处理器间带宽,以及低延迟。这一性能是其他多芯片互连技术带宽的 4 倍多。这个速率带宽也明显领先于英特尔、AMD、Arm、台积电和三星等众多行业巨头组成的通用芯粒互连联盟(UCIe)当前的性能。
▲ 英特尔等巨头主推的 UCIe
根据苹果公司和台积电已发表的专利和论文,我们从 2.5D / 3D 互连和技术层面解析 UltraFusion 封装架构。
01. 芯片封装走向 2.5D / 3D 互连
按摩尔定律描述,芯片上的晶体管数量每 24 个月翻一番。这对于 CPU、GPU、FPGA 和 DSA 依然适用。
▲ 芯片晶体管数量逐渐增长(Y. H. Chen et al., 2020)
随着芯片算力呈指数级增长,芯片尺寸逐渐超出光刻掩模版尺寸,系统级封装(System on Package,SoP),特别是 Chiplet 技术,成为维持摩尔定律,超越掩模版限制的有效方式。(Y. H. Chen et al., 2020)
图灵奖得主姚期智院士也非常重视 Chiplet 技术,在 2020 年指导成立了中国自己的 Chiplet 产业联盟,该联盟与北极雄芯共同为国内设计企业提供 Chiplet 交流合作的平台和高性价的解决方案。
▲ 高性价比的 Chiplet 方案(北极雄芯 / 中国 Chiplet 产业联盟提供)
通过快速发展的片间互连技术和封装技术,摩尔定律从单独的晶体管缩放(摩尔定律 1.0)演变为系统级缩放(被业界戏称为摩尔定律 2.0)。
▲ 片间互连技术逐年快速发展(Y. H. Chen et al., 2020)
封装从 2D(二维)逐渐发展到 2.5D 和 3D。集成电路从扩大面积和立体发展两条路来提升整体性能。
▲ 封装从 2D(二维)逐渐发展到 2.5D 和 3D(Kuo-Chung Yee et al., 2020)
02. 从苹果台积电专利论文,解析 UltraFusion 架构
从 M1 Ultra 发布的 UltraFusion 图示,以及苹果及其代工厂(台积电)的公开专利和论文来看,UltraFusion 应是基于台积电第五代 CoWoS Chiplet 技术的互连架构。
▲ 苹果公司 Chiplet 专利与 M1 Ultra(参考专利 US 20220013504A1)
Chip-on-Wafer-on-Substrate with Si interposer(CoWoS-S)是一种基于 TSV 的多芯片集成技术,被广泛应用于高性能计算(HPC)和人工智能(AI)加速器领域。
随着 CoWoS 的进步,可制造的中介层(Interposer)面积稳步增加,从一个全掩模版尺寸(大约 830mm2)到两个掩模版尺寸(大约 1700mm2)。中介层的面积决定了最大的封装后的芯片的面积。
第 5 代 CoWoS-S(CoWoS-S5)达到了大至三个全光罩尺寸(~2500mm2)的水平。通过双路光刻拼接方法,该技术的硅中介层可容纳 1200mm2 的多个逻辑芯粒和八个 HBM(高带宽内存)堆栈。芯粒与硅中介层的采用面对面(Face to Face,互连层与互连层对接)的连接方式。
▲ CoWoS 技术所能承载的总芯片面积逐渐增大(P. K. Huang 2021)
在 UltraFusion 技术中,通过使用裸片缝合(Die Stitching)技术,可将 4 个掩模版拼接来扩大中介层的面积。在这种方法中,4 个掩模被同时曝光,并在单个芯片中生成四个缝合的“边缘”。
▲ UltraFusion 架构互连技术(单层与多层,参考专利 US 20220013504A1 / US 20210217702A1)
根据苹果公司的专利显示,在这一技术中,片间互连可以是单层金属,也可以是多层金属。(US 20220013504A1 / US 20210217702A1)
03. 六大技术特别优化
UltraFusion 不仅仅是简单的物理连接结构。在这一封装架构中,有几项特别优化过的技术。(P. K. Huang 2021)
1)低 RC 互连
在 UltraFusion 中,有新的低 RC(电容 x 电阻 = 传输延迟)金属层,以在毫米互连尺度上提供更好的片间信号完整性。
与多芯片模块(MCM)等其他封装解决方案相比,UltraFusion 的中介层在逻辑芯粒之间或逻辑芯粒和存储器堆栈之间提供密集且短的金属互连。片间完整性更好,且能耗更低,并能以更高的时钟速率运行。这种新的中介层互连方案将走线电阻和通孔电阻降低了 50% 以上。
▲ 跨中介层传输的互连功耗控制(US 20210217702A1)
2)互连功耗控制
苹果的专利显示,UltraFusion 使用了可关闭的缓冲器(Buffuer),进行互连缓冲器的功耗控制,有效降低暂停的互连线的能耗。
3)优化 TSV
高纵横比的硅通孔(TSV)是硅中介层技术另一个非常关键的部分。UltraFusion / CoWoS-S5 重新设计了 TSV,优化了传输特性,以适合高速 SerDes 传输。
4)集成在中介层的电容(iCAP)
UltraFusion 在中介层集成了深沟槽电容器(iCap),帮助提升芯片的电源完整性。集成在中介层的电容密度超过 300nF / mm2,帮助各芯粒和信号互连享有更稳定的供电。
5)新的热界面材料
UltraFusion 通过集成在 CoWoS-S5 中的新型非凝胶型热界面材料(TIM),热导率 > 20W / K,覆盖率达到 100%,为各个高算力芯粒提供更好的散热支持,从而增强整体散热。
▲ 通过 Die-Stitching 提高良率并降低成本(US 20220013504A1)
6)通过 Die-Stitching 技术有效提升封装良率降低成本
UltraFusion 中,仅将 KGD(Known Good Die)进行键合,这样避免了传统的 WoW(Wafer on Wafer)或 CoW(Chip on Wafer)中失效的芯粒被封装的问题,进而提升封装后的良率,降低了整体的平均成本。(坏的芯片越少,在固定的流片和研发费用前提下,单芯片平均成本就越低)
04. 结语:为更强算力芯片提供想象空间
本文中,我们从苹果公司和台积电的专利和论文出发,对 UltraFusion 技术进行了初步的解析。
UltraFusion 充分结合了封装互连技术、半导体制造和电路设计技术,为整合面积更大、性能更高的算力芯片提供了巨大的想象空间,为计算架构的发展提供了非常好的助力和参照。