本文来自微信公众号:芯东西(ID:aichip001),作者:陈巍(千芯科技),头图来自:视觉中国
2022年3月,苹果又一次触动了芯片界的游戏规则。苹果发布的M1 Ultra芯片,是迄今为止该公司最强大的芯片,却是一个“拼装货”。尽管很多计算芯片已采用Chiplet(芯粒)技术提升性能,但“拼装货”M1 Ultra的性能还是让PC界震撼了。
M1 Ultra支持高达128GB的高带宽、低延迟统一内存,支持20个CPU核心、64个GPU核心和32核神经网络引擎,每秒可运行高达22万亿次运算,提供的GPU性能是苹果M1芯片的8倍,提供的GPU性能比最新的16核PC台式机还高90%。
苹果的新M1 Ultra芯片“拼装”性能之所以成为可能,要归功于其UltraFusion架构。其实,UltraFusion功能早已内置于之前发布的苹果M1 Max芯片中,但直到3月的苹果Peek Performance活动才被明确提出。
▲苹果公司M1 Ultra的UltraFusion架构
M1 Ultra芯片的UltraFusion架构使用硅中介层(Silicon Interposer)和微型凸块(Micro-Bump),将芯片连接到超过10000个信号。
该技术提供2.5TB/s的超高处理器间带宽,以及低延迟。这一性能是其他多芯片互连技术带宽的4倍多。这个速率带宽也明显领先于英特尔、AMD、Arm、台积电和三星等众多行业巨头组成的通用芯粒互连联盟(UCIe)当前的性能。
▲英特尔等巨头主推的UCIe
根据苹果公司和台积电已发表的专利和论文,我们从2.5D/3D互连和技术层面解析UltraFusion封装架构。
一、芯片封装走向2.5D/3D互连
按摩尔定律描述,芯片上的晶体管数量每24个月翻一番。这对于CPU、GPU、FPGA和DSA依然适用。
▲芯片晶体管数量逐渐增长(Y. H. Chen et al., 2020)
随着芯片算力呈指数级增长,芯片尺寸逐渐超出光刻掩模版尺寸,系统级封装(System on Package,SoP),特别是Chiplet技术,成为维持摩尔定律,超越掩模版限制的有效方式。(Y. H. Chen et al., 2020)
图灵奖得主姚期智院士也非常重视Chiplet技术,在2020年指导成立了中国自己的Chiplet产业联盟,该联盟与北极雄芯共同为国内设计企业提供Chiplet交流合作的平台和高性价的解决方案。
▲高性价比的Chiplet方案(北极雄芯/中国Chiplet产业联盟提供)
通过快速发展的片间互连技术和封装技术,摩尔定律从单独的晶体管缩放(摩尔定律1.0)演变为系统级缩放(被业界戏称为摩尔定律2.0)。
▲片间互连技术逐年快速发展(Y. H. Chen et al., 2020)
封装从2D(二维)逐渐发展到2.5D和3D。集成电路从扩大面积和立体发展两条路来提升整体性能。
▲封装从2D(二维)逐渐发展到2.5D和3D(Kuo-Chung Yee et al., 2020)
二、从苹果台积电专利论文,解析UltraFusion架构
从M1 Ultra发布的UltraFusion图示,以及苹果及其代工厂(台积电)的公开专利和论文来看,UltraFusion应是基于台积电第五代CoWoS Chiplet技术的互连架构。
▲苹果公司Chiplet专利与M1 Ultra(参考专利US 20220013504A1)
Chip-on-Wafer-on-Substrate with Si interposer(CoWoS-S)是一种基于TSV的多芯片集成技术,被广泛应用于高性能计算(HPC)和人工智能(AI)加速器领域。
随着CoWoS的进步,可制造的中介层(Interposer)面积稳步增加,从一个全掩模版尺寸(大约830mm2)到两个掩模版尺寸(大约1700mm2)。中介层的面积决定了最大的封装后的芯片的面积。
第5代CoWoS-S(CoWoS-S5)达到了大至三个全光罩尺寸(~2500mm2)的水平。通过双路光刻拼接方法,该技术的硅中介层可容纳1200mm2的多个逻辑芯粒和八个HBM(高带宽内存)堆栈。芯粒与硅中介层的采用面对面(Face to Face,互连层与互连层对接)的连接方式。
▲CoWoS技术所能承载的总芯片面积逐渐增大(P. K. Huang 2021)
在UltraFusion技术中,通过使用裸片缝合(Die Stitching)技术,可将4个掩模版拼接来扩大中介层的面积。在这种方法中,4个掩模被同时曝光,并在单个芯片中生成四个缝合的“边缘”。
▲UltraFusion架构互连技术(单层与多层,参考专利US 20220013504A1/US 20210217702A1)
根据苹果公司的专利显示,在这一技术中,片间互连可以是单层金属,也可以是多层金属。(US 20220013504A1/US 20210217702A1)
三、六大技术特别优化
UltraFusion不仅仅是简单的物理连接结构。在这一封装架构中,有几项特别优化过的技术。(P. K. Huang 2021)
1)低RC互连
在UltraFusion中,有新的低RC(电容x电阻=传输延迟)金属层,以在毫米互连尺度上提供更好的片间信号完整性。
与多芯片模块(MCM)等其他封装解决方案相比,UltraFusion的中介层在逻辑芯粒之间或逻辑芯粒和存储器堆栈之间提供密集且短的金属互连。片间完整性更好,且能耗更低,并能以更高的时钟速率运行。这种新的中介层互连方案将走线电阻和通孔电阻降低了50%以上。
▲跨中介层传输的互连功耗控制(US 20210217702A1)
2)互连功耗控制
苹果的专利显示,UltraFusion使用了可关闭的缓冲器(Buffuer),进行互连缓冲器的功耗控制,有效降低暂停的互连线的能耗。
3)优化TSV
高纵横比的硅通孔(TSV)是硅中介层技术另一个非常关键的部分。UltraFusion/CoWoS-S5重新设计了TSV,优化了传输特性,以适合高速SerDes传输。
4)集成在中介层的电容(iCAP)
UltraFusion在中介层集成了深沟槽电容器(iCap),帮助提升芯片的电源完整性。集成在中介层的电容密度超过300nF/mm2,帮助各芯粒和信号互连享有更稳定的供电。
5)新的热界面材料
UltraFusion通过集成在CoWoS-S5中的新型非凝胶型热界面材料(TIM),热导率>20W/K,覆盖率达到100%,为各个高算力芯粒提供更好的散热支持,从而增强整体散热。
▲通过Die-Stitching提高良率并降低成本(US 20220013504A1)
6)通过Die-Stitching技术有效提升封装良率降低成本
UltraFusion中,仅将KGD(Known Good Die)进行键合,这样避免了传统的WoW(Wafer on Wafer)或CoW(Chip on Wafer)中失效的芯粒被封装的问题,进而提升封装后的良率,降低了整体的平均成本。(坏的芯片越少,在固定的流片和研发费用前提下,单芯片平均成本就越低)。
四、结语:为更强算力芯片提供想象空间
本文中,我们从苹果公司和台积电的专利和论文出发,对UltraFusion技术进行了初步的解析。
UltraFusion充分结合了封装互连技术、半导体制造和电路设计技术,为整合面积更大、性能更高的算力芯片提供了巨大的想象空间,为计算架构的发展提供了非常好的助力和参照。
本文来自微信公众号:芯东西(ID:aichip001),作者:陈巍(千芯科技)