作者:Puneet Gupta 和 Subramanian S. Iyer 都是加利福尼亚大学洛杉矶分校(UCLA)电气工程系的成员。Gupta 是计算机工程教授兼副主任,Iyer 是杰出教授兼 Charles P. Reames 讲座教授。
硅互连结构上的裸小芯片将使计算机尺寸更小巧、功能更强大。
粘合计算机小芯片的示意图(配图来源:Harry Campbell)
长期以来,我们需要一些硬件系统越来越小巧、需要另一些硬件系统越来越庞大,这一直在推动电子产品方面的创新。可以从笔记本电脑、智能手机、智能手表到听戴式设备及其他“隐形”电子产品的发展过程中看到前者。后者定义了当今的商业数据中心,这些耗能大户塞满了世界各地的专用仓库。值得关注的是,同样的技术限制了这两个领域的进展,但是原因不一样。
我们认为,罪魁祸首是印刷电路板。而解决办法就是摈弃印刷电路板。
我们的研究表明,印刷电路板可以用构成与其相连的芯片的相同材料(即硅)来替换。此举将带来更小巧更轻盈的系统用于可穿戴设备及其他尺寸有限的设备,还能带来功能异常强大的高性能计算机,它们可将数十台服务器的计算能力整合到一块餐盘大小的硅圆片上。
这种全硅技术就是所谓的硅互连结构(silicon-interconnect fabric),让裸芯片可以直接连接到另一块硅片上的连线。与印刷电路板上的连接不同,这种结构上芯片之间的连线就跟芯片内的连线一样细小。因此可以实现多得多的芯片间连接,那些连接能够在耗能较少的情况下更快地传输数据。
硅互连结构(Si-IF)提供了一个额外的好处。它是消除目前用于从智能手机到超级计算机各种电子产品的相对庞大、复杂且难以制造的片上系统(SoC)的绝佳途径。系统设计师可以使用一组更小巧、更易设计、更易制造的小芯片,这些小芯片在 Si-IF 上紧密互连,以取代 SoC。这场小芯片革命已经在如火如荼地进行中,AMD、英特尔、英伟达及其他公司在提供先进封装件内组装的小芯片。硅互连结构扩大了这个愿景,使系统脱离了封装件,可以包括整个计算机。
想了解摈弃印刷电路板的意义,不妨考虑使用典型的 SoC 会发生什么。由于摩尔定律,一块 1 平方厘米的硅片可以塞入驱动智能手机所需的几乎所有部件。遗憾的是,由于种种原因——主要与印刷电路板有关,这块硅片随后做入到(通常是)塑料材质的封装件中,封装件的尺寸可能是芯片本身的 20 倍之大。
芯片和封装件之间的尺寸差异至少带来了两个问题。首先,封装芯片的体积和重量远大于原始硅片的体积和重量。很显然,这对于所有需要小巧轻薄的东西来说都是个问题。其次,如果最终硬件需要多块芯片相互通信(大多数系统这样),那么信号传输经过的距离将增加 10 倍以上。该距离是速度和能耗瓶颈,如果芯片交换大量数据更是如此。对于图形、机器学习和搜索等数据密集型应用而言,该瓶颈可能是最大的问题。更糟糕的是,封装芯片很难做到冷却。的确,几十年来,散热一直是计算机系统的限制因素。
既然这些封装件是如此严重的问题,为什么索性不扔掉它们?这归咎于印刷电路板。当然,印刷电路板(PCB)的目的是将芯片、无源部件及其他装置连成一个工作系统,但它不是理想的技术。PCB 很难做到完全平整,还容易翘曲。芯片封装件通常通过一系列焊接凸点连接到 PCB,这些凸点在制造过程中被熔化并重新固化。焊接技术的局限性加上表面容易翘曲,意味着这些焊接凸点之间的距离不小于 0.5 毫米。换句话说,每平方厘米的芯片面积最多只能塞入 400 个连接。对于许多应用而言,连接数量太少了,无法为芯片供电、无法让信号进出。比如说,英特尔凌动处理器的一块晶片所占的面积很小,只能塞得下 100 个 0.5 毫米连接,离所需的 300 个连接相差甚远。设计师使用芯片封装件来满足每个单位面积的连接数。封装件拿来硅芯片上微小的输入/输出连接(宽度从 1 微米至 50 微米不等),使它们呈扇形散开到 PCB 的 500 微米量级。
最近,半导体行业已尝试通过开发先进的封装工艺(比如硅中介层技术)来限制印刷电路板的问题。中介层是一层薄薄的硅,少量的裸硅芯片安装在上面,通过数量比两个封装芯片之间的连接更多的连接相互连起来。但是中介层及其芯片仍必须封装起来、安装到 PCB 上,因此这种布局会增添复杂性,又没有解决任何其他问题。此外,中介层势必很薄、易碎、尺寸受限制,这意味着很难用它们构建大尺寸系统。
我们认为,一种更好的解决办法是完全摈弃封装件和 PCB,改而将芯片粘合到比较厚(500 微米至 1 毫米)的硅圆片上。处理器、存储器晶片、模拟及射频小芯片、稳压器模块、甚至无源部件(比如电感器和电容器)都可以直接粘合到硅片上。相比通常使用的 PCB 材料(名为 FR-4 的玻璃纤维和环氧树脂复合材料),硅圆片具有刚性,可以抛光至接近完美的平整度,因此翘曲不再是问题。此外,由于芯片和硅基片在受热遇冷时以相同的速度膨胀收缩,因此不再需要像芯片与基片之间的焊接凸点那样的大尺寸柔性连接。
焊接凸点可以换成做在硅基片上的微米级铜柱。使用热压缩(基本上是精准施加的热和力),随后可以将芯片的铜I/O端口直接粘合到铜柱上。精心优化热压粘合工艺可以生成比焊接接点可靠得多的铜铜接点,所用材料更少。
摈弃 PCB 及其缺点意味着芯片的I/O端口之间的距离可以做到 10 微米这么小,而不是原来的 500 微米。因此,我们可以在硅芯片上封装数量多 2500 倍的I/O端口,无需用于改变间隙的封装件。
更好的是,我们可以利用标准的半导体制造工艺在 Si-IF 上放置多层连线。这些连线可能比印刷电路板上的连线细得多。它们的间距小于 2 微米,而 PCB 的间距是 500 微米。与使用 PCB 的 1 毫米或更大间距相比,该技术甚至可以做到芯片间隔小于 100 微米。结果是,Si-IF 系统节省了空间和耗电,并缩短了信号到达目的地所需的时间。
此外,与 PCB 和芯片封装件材料不同,硅是一种相当好的热导体。可以将散热片安装在 Si-IF 的两侧,以加大散热效果——我们估计散热量最多可以增加 70%。散发更多热量让处理器可以运行得更快。
虽然硅的抗拉强度和刚度非常好,但有点脆。幸好,数十年来,半导体行业已开发出了在不弄坏大尺寸硅圆片的情况下处理它们的方法。如果正确固定和处理基于 Si-IF 的系统,我们预计它们能够通过大多数可靠性测试,包括抗震性、热循环和环境应力。
晶体硅的材料成本高于 FR-4,这一点无法回避。虽然有很多因素会影响成本,但 8 层 PCB 的每平方毫米成本可能仅为 4 层 Si-IF 晶片的十分之一。然而我们的分析表明,如果你去除封装和复杂电路板结构的成本,加上 Si-IF 节省空间的优点,成本差异可以忽略不计,而且在许多情况下,Si-IF 更胜一筹。
硅互连结构与芯片封装和印刷电路板
硅互连结构用更密集、更高带宽的连接来互连芯片;它使芯片更紧密地封装在一起,且散热效果更好。
不妨看几个表明 Si-IF 集成如何使计算机系统受益的例子。我们在一项针对服务器设计的研究中发现,由于更强的连接性和更佳的散热性,使用基于 Si-IF 的无封装处理器可以使传统处理器的性能提升一倍。更棒的是,硅“电路板”(需要更贴切的术语)的尺寸可以从 1000 平方厘米缩小到 400 平方厘米。如此大幅缩减系统尺寸对所需的数据中心空间和冷却基础设施来说具有重大实际的影响。在另一个极端,我们查看了基于 Arm 微控制器的小型物联网系统。在这里使用 Si-IF 不仅将电路板的尺寸缩小了 70%,还将其重量从 20 克减轻到 8 克。
除了缩减现有系统并提高性能外,Si-IF 还有望让系统设计师可以制造出原本不可能制造出来,或至少极其不实用的计算机。
典型的高性能服务器在 PCB 上含有 2 个至 4 个处理器,但是一些高性能计算应用需要多台服务器。数据需要在不同的处理器和 PCB 之间移动时,通信延迟和带宽瓶颈随之而来。但是如果所有处理器都在同一块硅片上,会怎么样?这些处理器几乎可以像整个系统是一个大处理器那样紧密地集成起来。
这个概念最早由 Gene Amdahl 在他的 Trilogy Systems 公司提出。Trilogy 失败了,原因是制造流程无法生产出足够的实用系统。制造芯片时始终有可能出现次品,出现次品的可能性会随芯片的面积急剧提高。如果芯片有餐盘那么大,几乎可以保证芯片上会出现毁了系统的缺陷。
但是若使用硅互连结构,可以从小芯片入手,我们已经知道可以无缺陷地制造出小芯片,然后将它们连接成一个系统。加利福尼亚大学洛杉矶分校和伊利诺伊大学厄巴纳尚佩恩分校的研究人员设计出了包含 40 个 GPU 的这种圆片级系统。模拟时发现,与使用最新的多芯片封装件和印刷电路板制造的尺寸相同的 40 个 GPU 系统相比,它可将计算速度提高五倍以上,而能耗降低 80%。
这些是令人信服的结果,但是任务并不轻松。我们必须考虑许多限制因素,包括可以从圆片上散热多少、GPU 如何最快速地彼此通信以及如何为整块圆片供电。
小芯片与 100 毫米宽圆片上的硅互连结构连接起来。与印刷电路板上的芯片不同,小芯片可以相距仅 100 微米,加快了信号传输并降低了能耗。
事实证明,耗电是一大制约因素。按芯片的标准 1 伏供电计算,圆片的窄连线其耗电量将达到整整 2 千瓦。我们而是选择将电源电压提高到 12 V,以减少所需的电流量,从而减少耗电量。该解决方案需要在圆片周围遍布稳压器和信号调节电容器,占用了原本更多 GPU 模块所使用的空间。受早期结果的鼓舞,我们现正在构建圆片级计算系统原型,希望在 2020 年底之前完成。
硅互连结构可能在计算机行业的这个重要趋势中发挥作用:将片上系统(SoC)分解为有机集成的小芯片。在过去的二十年,力求更好的性能和降低成本促使设计师把整组的芯片换成尺寸更大的集成 SoC。尽管 SoC 好处颇多(对于大容量系统而言更是如此),但缺点也很多。
举例说,SoC 是一块大芯片;如上所述,确保大芯片有很高的成品率很困难,涉及最先进的半导体制造工艺时尤为困难。(别忘了,随着芯片面积增加,芯片的成品率会急剧下降。)SoC 的另一个缺点是,高昂的一次性设计和制造成本,比如光刻掩模至少需要 200 万美元,这样的成本使得 SoC 对大多数设计而言基本上无法承受。此外,只要制造过程的设计或升级有任何变动(哪怕很小的变动),都需要对整个 SoC 进行大规模的重新设计。最后,SoC 方法试图强迫所有子系统设计都遵循单一的制造工艺,即使其中一些子系统使用不同的工艺来制造,会有更高的性能。因此,SoC 内没有任何部件能达到峰值性能或效率。
无封装件的 Si-IF 集成方法避免了所有这些问题,同时保留了 SoC 的小尺寸和性能优势,还提供了设计和成本优势。它将 SoC 分解为部件系统,并重新做成圆片上系统或 Si-IF 上系统(SoIF)。
这种系统由独立制造的小芯片组成,这些小芯片在 Si-IF 上连起来。小芯片之间的最小间隔(几十微米)与 SoC 内两个功能块之间的最小间隔相当。Si-IF 上的连线与 SoC 的最上层内使用的连线一样,因此互连密度也相当。
带宽、延迟和能耗:与印刷电路板上的常规系统相比,使用硅互连结构的圆片级集成可提高带宽、缩短延迟并减少能耗。
SoIF 方法相对于 SoC 的优势来自小芯片的尺寸。小芯片的制造成本比大 SoC 的便宜,这是由于如前所述,芯片尺寸较小时,工作芯片的成品率较高。SoIF 唯一尺寸较大的是硅基片本身。由于基片只是由几个易于制造的层组成,因此不太可能出现成品率问题。芯片制造中成品率降低主要来自晶体管层的缺陷或超密集金属底层的缺陷,而硅互连结构没有这两种缺陷。
除此之外,改用小芯片,SoIF 将拥有业界寻找的种种优点。比如说,将 SoIF 升级到新的制造节点应该更省钱、更轻松。每个小芯片可以有各自的制造技术,只有值得升级的小芯片才需要更换。从新节点的较小晶体管中不会得到多大好处的那些小芯片不需要重新设计。这种异构集成让你可以制造一类全新的系统,这类系统可以混合搭配多代小芯片以及通常与 CMOS 不兼容的技术。比如说,我们的研究小组最近演示了将磷化铟芯片连接到 SoIF 上,有望应用于高频电路。
由于小芯片将在连接到 SoIF 之前进行制造和测试,因此它们可用于不同的系统中,从而大大分摊了成本。我们估计,因此,设计和制造 SoIF 的总成本比 SoC 最多低 70%。对于大尺寸小批量系统(比如用于航空航天业和国防业的系统)而言尤其如此,这些行业的需求量仅为几百到几千个系统。自定义系统作为 SoIF 也更容易制造了,因为设计成本和时间都减少了。
我们认为,对系统成本和多样性的影响可能会开启一个新的创新时代,到时新型硬件对于多得多的设计师、初创公司和大学来说成本合理、易于获取。
在过去几年,我们在 Si-IF 集成技术方面取得了重大进展,但仍有许多工作要做。首先是演示商业上可行、成品率高的 Si-IF 制造工艺。制作圆片级 Si-IF 的图案可能需要“无掩模”光刻技术方面的创新。当今使用的大多数光刻系统只能制作尺寸约 33 x 24 毫米的图案。最终,我们需要能够将图案印制到 300 毫米直径圆片上的工艺。
我们还需要一些机制来测试裸小芯片和未组装的 Si-IF。随着芯片制造商开始向用于先进封装件和 3D 集成的小芯片迈进,业界已经在裸芯片测试方面取得了稳步进展。
接下来,我们将需要充分利用硅的良好导热性的新散热器或其他散热策略。我们与 UCLA 的同事一直在开发一种名为 PowerTherm 的集成圆片级冷却和供电解决方案。
此外,需要设计用于硅圆片的机架、底座、连接器和电缆,以打造完整系统。
我们还需要对设计方法进行几处变动,以兑现 SoIF 的承诺。Si-IF 是一种无源基片(它只是导体,没有开关),因此,小芯片间连接需要很短。如果是可能需要连接圆片级系统上远距离小芯片的较长连接,我们需要中间小芯片以帮助将数据传输得更远。为了充分利用这种类型的集成,需要全面改变进行布局、分配引脚的设计算法。我们还需要开发新的方法来探究利用 SoIF 的异构性和可升级性的不同系统架构。
我们还需要考虑系统可靠性。如果发现小芯片在粘合后出现故障或操作过程中发生故障,就很难更换。因此,SoIF(尤其是大型 SoIF)需要内置容错机制。容错机制可以在网络层面或小芯片层面加以实施。在网络层面,小芯片间路由将需要能够绕过有故障的小芯片。在小芯片层面,我们可以考虑采用物理冗余技巧,比如为每个I/O端口使用多个铜柱。
当然,小芯片组装的好处很大程度上依赖将有用的小芯片集成到新系统中。在现阶段,业界仍在设法搞清楚制造哪些小芯片。你无法简单地为 SoC 的每个子系统制造小芯片,因为一些单个的小芯片可能太小而无法处理。一种大有前途的方法是对现有 SoC 和 PCB 设计进行统计挖掘,以识别哪些功能“喜欢”彼此挨得很近。如果这些功能还涉及相同的制造技术,并遵循相似的升级周期,它们应仍然集成在同一块小芯片上。
这似乎是一长串需要解决的问题,但是研究人员已经通过国防高级研究计划局(DARPA)的通用异构集成和 IP 重用策略(CHIPS)计划以及通过行业联盟来解决其中的一些问题。而且,如果我们能解决这些问题,那么这对于我们延续摩尔定律更小巧、更快速、更便宜的传统将大有帮助。