M1 Ultra 就是终极目标!解密苹果电脑芯片三步走计划

今夜凌晨,苹果又开了一场“芯片上”的发布会!

意料之内,芯片再次成为苹果春季新品发布中最亮眼的存在;意料之外,传闻已久的 M2 芯片没有登场,反而是 M1 系列推出旗舰版 M1 Ultra,以将两块 M1 Max 芯片“粘”在一起的设计思路,震惊全场。

作为 M1 系列 Mac 电脑芯片的第四弹,M1 Ultra 成为了苹果电脑芯片的终极武器。苹果通过一个三步走的策略,接近实现给 Mac 两年换芯的大计,而且几乎每次都在“干翻”自己,也几乎每次都在“教”芯片同行做事。

1140 亿颗晶体管、20 核 CPU、最高 64 核 GPU、32 核神经网络引擎、2.5TB / s 数据传输速率、800GB / s 内存带宽、最高 128GB 统一内存…… 这些堪称恐怖的规格全部集聚于一块“至尊版”电脑芯片上。

至此,苹果在 M1 系列电脑芯片棋局上的落子,得以清晰而完整的展现。

▲ 苹果 M1 系列四大芯片,从左至右:M1、M1 Pro、M1 Max、M1 Ultra

好马配好鞍,M1 Ultra 芯片被搭载于单台 3 万元起售的台式机主机 Mac Studio 上,号称比最快的 iMac 性能最高提升 3.4 倍,比顶配 Mac Pro 性能提升 80%。

这是苹果继早前圆柱形“垃圾桶”式外形、长方形机箱式外形后,对专业级桌面主机形态的又一次尝试。虽然外形第一眼看起来像一个加厚版的 Mac mini,但其内里从结构到配置则完全不同。

▲ Mac Studio

除了首次在顶级专业台式 Mac 中采用自研 M1 系列芯片外,苹果还第一次往显示器新品 Studio Display 里塞了一颗 A13 仿生芯片,A13 之前被用在 2019 年 iPhone 11 系列智能手机、2021 年入门级 iPad 9 中。

而加入手机 SoC 级别的芯片,用来强化摄像头和音箱功能,也是苹果的显示器形态的一次新尝试。不过目前苹果专业显示器的天花板仍然是那台售价超 4 万元的 XDR 6K 专业显示器。

▲ Studio Display(图左)和 Mac Studio(图右)

Mac Studio 主机和 Studio Display 显示器都从 3 月 10 日 9 点起预购,主机 3 月 18 日发售,显示器则要等获批后发售。

此外,新款 iPad Air 5 首次搭载与 iPad Pro 同款的 M1 芯片,第三代 iPhone SE 智能手机也换上了与最新 iPhone 13 系列同款的 A15 仿生芯片,两款新品将从 3 月 11 日 21 点起预购,3 月 18 日发售。

苹果 Mac 换芯的策略是什么?这个性能突破天际的电脑芯片解决了哪些核心难题?下面,芯东西将着重复盘和解读这背后的技术逻辑。

一、M1 Max + M1 Max = M1 Ultra

从 2020 年 6 月宣布 Mac 换芯计划,并在当年 11 月首推电脑芯片 M1,到现在不到两年的时间,苹果已接近完成既定的“两年芯片过渡计划”,只差最后一款 Mac Pro。

去年苹果推出性能爆棚的 M1 Max 芯片时,大家普遍以为这已经是 M1 系列芯片的封顶之作,毕竟 M1 Max 芯片已经触及台积电 N5 制程可制造的极限,面积达到 432mm²。

结果,苹果这次直接掀翻了台式机芯片的天花板,亮出 M1 系列的真正收官之作 ——M1 Ultra。

据芯东西得知,M1 Ultra 就是苹果 M1 系列的最后一颗芯片,不会有第五颗了。而且从一开始,苹果就有清晰计划要分为三个阶段来将 M1 用到 Mac 产品:第一阶段,进入到普及性的 Mac,包括 MacBook Air、Mac Mini 乃至入门版 MacBook Pro;第二阶段,来到更高阶的 MacBook Pro;第三阶段,进入专业级台式机主机,将桌面电脑性能推升到一个新的高度。

M1 Ultra 采用台积电 5nm 工艺,由两块 M1 Max 芯片拼接而成,这样的“组合”使得其晶体管数量达到 1140 亿颗,这也是苹果自研芯片的晶体管数量首次突破 1000 亿颗。

该芯片的各项硬件指标也翻番:20 核 CPU 包含 16 个高性能核心、4 个高能效核心;GPU 核心数量增至 64 核;32 核神经网络引擎能够带来每秒 22 万亿次的运算能力;统一内存最高规格达到 128GB;内存带宽提升至 800GB / s,达到最新型号台式 PC 芯片的 10 倍以上。同时,M1 Ultra 最高支持 8TB 的 SSD 固态硬盘存储。

尤其是多 die(Multi-die)GPU 配置,可以说是做了大胆而惊人的设计,这里的核心难度在于高端部件通常消耗的内部带宽过高,超过 1TB / s,致使将它们连接起来在技术上很难实现。

像之前 Mac Pro 中用的传统多 GPU 系统,每个 GPU 都是独立的。因为带宽不够,多个 GPU 难以在单个图形任务上进行有效地协同。但如果能通过某种方式将多个 GPU 借助 die-to-die 技术连接起来,就可能在一个任务中同时使用它们。

这是多家芯片公司都在研究的问题,目前看来,苹果似乎成为了第一家实现目标的公司。

在介绍 M1 Ultra 前,苹果高管也就两块芯片“粘”在一起的难点卖了个关子,他说直接采用两块芯片来增加芯片核心面积的方式很常见,但以前这种做法会增加功耗、拖慢传输速率,给开发者增加负担。

那么苹果怎么做呢?

今天,苹果揭晓了其秘密武器 ——UltraFusion。

在对 M1 Ultra 做规划时,苹果考虑到对统一内存的扩充,重点思考了延迟、带宽、功耗和性能等指标,选择采用了融合拼接的方式,并与合作伙伴(芯片代工制造方)进行了非常密切的合作,来实现 UltraFusion 技术的应用。

这里涉及复杂的技术难关,比如,为了做到统一的架构,上面和下面的芯片延迟需相同,CPU 看到的必须是一致的。苹果要求其延迟不要超过一般的延迟,对性能的影响不到 10%。

此前 M1 系列芯片一直采用苹果自己定制的封装方式来实现高速统一内存架构,而 UltraFusion 作为苹果创新定制的多晶粒架构,是 2.5D 先进封装的一个最新例子。

其基本原理应该是某种硅中介层(interposer)被铺在两个 M1 Max 芯片下面,两个芯片之间的信号可以通过硅中介层的布线。这使得 M1 Ultra 芯片可同时传输超过 10000 个信号,其连接密度是现有技术的两倍,实现高达 2.5TB / s 低延迟处理器间带宽,比业内高端多芯片带宽的 4 倍还多。

这意味着,M1 Ultra 芯片虽然是两个芯片的组合体,但在工作时会表现出一枚芯片的整体性,被所有软件识别为一枚完整芯片,开发者无需重写代码就能直接运用它的强大性能。

可以说,史无前例。

总而言之,借助 UltraFusion 架构,苹果成为第一家将两个 GPU 拼在一起而且实现 2.5TB / 秒超高传输速率的芯片供应商。

苹果这些不按常理出牌的做法,背后其实是一种以解决问题为第一目的实用主义原则在做指导,比如他们把这个“粘接融合多个芯片”的 UltraFusion 架构没有当做一个标准接口,只是他们为了实现 M1 Ultra 性能功耗目标的一个工具,而如果后面遇到更大的挑战,说不定还会整出怎样更脑洞大开的“工具”。

除了这些以外,M1 Ultra 内还集成了多种定制的苹果技术,如能够同时驱动多台外接显示器的显示引擎、雷电 4 控制器集成、同类最佳的安全技术,包括苹果最新的安全隔区、基于认证硬件的安全启动和运行时防漏洞利用技术。

二、性能实测:GPU 功耗远低于英伟达 3090

苹果在特定电脑系统上进行了性能测试,大致可以反映 Mac Studio、Mac Pro 和 iMac 的性能对比。

参与测试的 Mac Studio 系统配置为 M1 Ultra 芯片、128GB RAM、8TB 固态硬盘,Mac Pro 系统配备了 3.2GHz 16 核英特尔 Xeon W 处理器、192GB RAM、4TB 固态硬盘,27 英寸 iMac 系统配备了 3.6GHz 10 核英特尔 Core i9 处理器、128GB RAM、8TB 固态硬盘。

根据苹果提供的数据,在相同功耗下,M1 Ultra 处理多线程任务的速度比 16 核英特尔旗舰至强 i9-12900K 提升了 90%;实现同样性能时,M1 Ultra 的功耗比 12900K 少 100W。

这里需注意的是,在多线程工作负载方面,苹果可以说一直都是顶级守擂者,但其在单线程方面有点挤牙膏,高性能核心已经被英特尔新架构超越。

GPU 方面尤其值得一提。

苹果声称实现同样的性能,M1 Ultra 的功耗只有主流独立 GPU 的 1/3,或比最强显卡英伟达 GeForce RTX 3090 少 200W。

当然,考虑到苹果 M1 Ultra 采用的是台积电 5nm 工艺,而英伟达 3090 采用的是三星 8nm 工艺,这里制造工艺的升级贡献了一部分能效的提升。

相比 27 英寸 iMac 中的 AMD Radeon Pro 5700XT 独立显卡,M1 Ultra 的 GPU 性能提升高达 4.5 倍,甚至比起 Mac Pro 中的 AMD Radeon Pro W6900X,性能提升幅度也达到了 80%。下图是 8K 渲染速度提升情况的测试结果。

M1 Ultra 的媒体处理引擎资源同样翻倍,其处理 ProRes 格式视频编解码任务的吞吐能力提升至史上最高,最多可同时播放 18 条 8K ProRes 422 格式的视频流。

三、将 A13 仿生芯片塞入显示器

为了配合 Mac Studio 主机,苹果还推出了一款分辨率达 5K 级别的新显示器产品 Studio Display。

这款显示器首次内置了苹果的自研旗舰手机芯片 A13,用于优化视频人物居中、空间音频和“嘿 Siri”等功能的处理能力。

同时,新款 iPhone SE 用上和 iPhone 13 系列同款的 A15 仿生芯片,有 6 核 CPU 和 4 核 GPU,CPU 性能比 iPhone 8 提升 1.8 倍,GPU 处理速度比二代 SE 最高提升 1.2 倍,神经网络处理能力提升 26 倍。

iPad Air 5 亦换上与 iPad Pro 同款的 M1 芯片,相比上代 A14 性能提升达到了 60%,8 核图形处理器最高提速至 2 倍,16 核神经网络引擎也让机器学习性能大幅提升。

当然,软硬件协同是苹果产品体验的一贯优势,macOS 系统和各款专业 App 已为苹果 M1 系列芯片优化,能够充分利用 M1 Ultra 的性能。

面向碳中和,苹果称其定制芯片的出色能效帮助 Mac Studio 在整个产品生命周期内消耗更少电力,并称 Mac Studio 在一整年里所消耗的电力比起一台高端配置的台式 PC 可节省最高达 1000 千瓦时。

苹果目前在全球公司运营方面已实现碳中和,计划在 2030 年年底前让全部公司业务实现碳中和,包括制造供应链和所有产品生命周期在内。这意味着苹果所生产的每一枚芯片,从设计到制造,都将实现 100% 碳中和。

结语:苹果芯,干翻自己!

如今,苹果已经在几乎所有的 Mac 产品线中全面应用了其自研芯片。

今天苹果的推出 M1 Ultra 芯片,虽说与此前盛传的 M2 芯片不符,但其直接将两块 GPU 连在一起的设计思路,乍一看有些出乎意料,但细想其实是非常合理的进化方向。

决心在自研电脑芯片上一往无前后,苹果每一次推出的 M1 系列芯片新品类都是各种先进技术的集大成者,并且每一次都创造了一个新的芯片设计高地,谁能想到当初惊艳登场的 M1 芯片,如今竟成了 M1 系列中最低配的存在呢?

在单个芯片触达实际尺寸极限后,苹果开始走堆料路线,并通过创新架构将多个芯片封在一起,实现更强悍的性能效果。理论上,三个乃至更多芯片的组合,也是可以实现的,不过据芯东西了解,苹果暂无这么做的兴趣。

至于 M1 芯片终极版本究竟能在实际产品中发挥出怎样的水准?我们非常期待看到它在后续实测的表现。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注