作为模拟人类大脑处理信息的计算技术,神经形态计算被认为是实现通用人工智能的重要方向之一。
它与传统的计算技术相比,最主要的一个区别在于其摆脱冯·诺依曼架构存算分离的枷锁,追求人脑神经元的高效整合形式,将数据存储和处理的功能集中在相同的计算单元上,从而可以能效更高、性能更好、速度更快地进行数据的处理,因此颇受人工智能领域的关注。
其中,一种名为“忆阻器”的硬件元件是神经形态计算实现的关键。简单来说,忆阻器即同时兼备记忆和电阻的功能。
近日,密歇根大学卢伟教授及其团队迈出了重要一步,成功研发出全球第一款基于忆阻器阵列的通用 AI 芯片。这款新型 AI 芯片的创新之处在于所有的存储计算功能都集成在同一个芯片上,从而真正实现了存算一体化,而且可以通过编程应用于多种人工智能算法,进一步提高计算速度,并减少能量损耗。相关研究于 7 月 15 日发表在 Nature Electronics 上。芯片设计的合作者包括密歇根大学的张振亚(Zhengya Zhang)教授和 Mike P. Flynn 教授的团队。
卢伟、张振亚、Mike P. Flynn。来源:学校官网
在接受 DeepTech 独家专访时,卢伟教授表示,目前来看,基于推理的边缘计算场景(edge computing)是这种新型 AI 芯片很适合切入的一个应用场景。另外,团队已经成立了公司以推动下一代产品的商业化。
“我们发表的这个芯片还是用于科研和验证概念,并没有深度优化。我们已经开始研究设计更优化和功能更完善的下一代芯片”,卢伟教授表示。
而除了卢伟的团队,投入到神经形态计算芯片研究中的公司还包括 IBM(TrueNorth 项目)、英特尔(Loihi 项目)、高通(Zeroth 项目)等行业巨头,以及知存科技、西井科技等国内外初创公司,上个月刷屏的清华“天机”类脑计算芯片同样也属于存算一体方向下的创新突破。随着越来越多创新突破的实现,下一世代的计算技术正离我们越来越近。
忆阻器阵列芯片。来源:Robert Coelius,Michigan Engineering
下一世代的计算趋势:存算一体
现有的冯·诺依曼计算体系靠不同的单元存储数据和执行计算,随着数据量的增加以及算法复杂程度的提升,数据在存储器和运算器之间存取的时间消耗,是进一步提升计算性能的瓶颈。
尤其是在人工智能算法的运行过程中,一旦将数据存入硬盘而不是系统内存中,计算速度就会成百倍地降低,电源消耗也会成百倍地增长。即使所有数据都能够存储在内存中,现有的中央处理芯片也需要从内存中读取数据,但是数据在内存和中央处理器之间的来回存取过程,会消耗大量的时间和电力能源。
针对这一问题,诸多的芯片公司、初创公司和科学家们投入了大量的时间和资金,来研究如何将计算机中的运算从中央处理器转入内存中进行,这种方法也被称为存算一体化。这一方式不仅可以提升计算速度,也可以减少计算功耗。
来源:格罗宁根大学
卢伟介绍,存算一体架构对于需要处理大量数据的应用场景如 AI 非常有吸引力,理想的存算一体架构能把整个 AI 模型存在芯片上并直接在存储单元上运行。这样可以彻底舍弃外置存储单元如 DRAM,以极大地提高芯片的功耗比和处理量。现有和正在研发的解决方案大概有以下几种:
1. 使用现有的存储技术比如 SRAM,这种方案比较成熟,被很多初创公司和科研机构所采用。但是,由于 SRAM 密度和功耗的限制,它只能用在很小的“玩具模型(toy model)”上。大的模型还需要将参数储存在外置的 DRAM 上,整个系统的功耗比会因此迅速下降。
2. 新型的非易失性存储器(non-volatile memory, NVM)比如 RRAM、STT-MRAM,这个方向同样有很多公司感兴趣。这类嵌入式 NVM 有希望实现整个模型的片上存储,但其局限是,模型的运算还需要通过中央处理器 CPU,并不能彻底解决数据传输比如总线的堵塞问题。
3. 真正意义上的存算一体结构会尽量避免使用 CPU,而通过嵌入的 NVM 直接做运算。其中的困难在于,怎么解决使用存储单元做运算带来的模拟信号的误差问题,以及怎么实现足够精度和高效的模拟/数字信号转换。
“第三种方案理论上最有效率,不过目前的进展还在方案 1,2 的后面”,卢伟教授说。
在这次研究中,团队则成功验证了小规模的、真正的存算一体架构(方案 3),实现了包括推理(inference)和在线学习(online learning)等多种功能,同时仔细分析了模拟信号的误差问题以及模拟/数字信号转换电路的影响。
另外,现有的存算一体化芯片,往往是为某个特定的人工智能问题而设计,或者需要额外的处理器来驱动,这在很大程度上限制了存算一体化芯片的推广和应用,而由卢伟团队研究开发的这款芯片,不需要额外的辅助就能实现对于多种算法的存算一体化。
首个基于忆阻器的通用 AI 芯片
忆阻器以及其他非易失性内存器件是实现存算一体化非常合适的选择。
在人工智能和深度学习算法中, 核心运算主要是大量的向量-矩阵乘法(Vector-Matrix Multiplication, VMM)。由于基于忆阻器阵列的芯片使用了模拟电路而非数字电路,使得其对于 VMM 的计算是非常高效的,并且已经在多项研究中显示出在人工智能计算领域中的潜力。
忆阻器的概念最先由加州大学伯克利分校教授 Leon O. Chua(蔡少棠)于 1971 年提出,并在 2008 年由惠普公司研发出首个固态忆阻器。忆阻器是一个具有两个端口的被动电子元件,类似于公众熟知的电阻元件。不同的是,其电阻值可以通过流经这个电阻的电流改变,也就是说这种电阻具有记忆电流和电荷的能力 。忆阻器阵列的电路结构是类似矩阵的纵横阵列。在 VMM 的运算中,芯片使用纵横阵列中的电阻值来储存矩阵数据,通过输入的电压值来控制与矩阵相乘的向量,从而可以从输出的电压中获得向量-矩阵相乘的结果。
电阻、电容和电感器之外,应该还有一种元件,代表着电荷与磁通量,即忆阻器(来源:维基百科)
这款新研发的芯片,就是将 5832 个忆阻器元件和一个 OpenRISC 处理器集成在一起,还添加了 486 个特制数字-模拟电路转换器, 162 个特制模拟-数字电路转换器,以及两个混合信号接口用来实现忆阻器模拟电路和中央处理器电路的衔接。
全功率工作下,芯片只需 300 毫瓦的功耗,就能实现每秒每瓦特 1880 亿次运算。虽然计算速度相比于英伟达最新推出的人工智能芯片(每秒每瓦特可达 9.09 万亿次运算)略显逊色,但这款芯片在功耗和数据存取上有着明显的优势。
而在通用性的验证上,团队使用忆阻器阵列芯片,实现了三种人工智能的算法。首先是称为“感知器”(perceptron)的著名机器学习算法,该算法也是最为常见的用来进行信息分类的机器学习算法之一。团队用这款芯片成功地实现了单层感知器的运算,并将其用来识别希腊字母的有噪图片。
这款芯片实现的另一种更复杂的算法是“稀疏编码”(sparse coding)算法。这种算法通过比较神经元来优化神经网络,剔除无效的神经元,找出最优的神经元连接方式,进而针对目标找出最优的神经网络,可以用来有效地进行特征提取、数据压缩以及数据分类等工作。
最后,这款芯片实现的是双层神经网络的无监督学习算法,用来识别和判断乳房肿瘤图像。神经网络中的第一层使用主成分分析方法,来自主识别图像中的特征,第二层使用感知器来进一步判断图像中的肿瘤是否是恶性的。这种算法在这款芯片上运行的准确率可以高达 94.6%,这一结果已经非常接近在传统芯片上运行得到的 96.8% 的准确率。这一细微差距,主要是忆阻器元件在分类边界上的电荷不确定性造成的。
忆阻器阵列芯片。来源:Robert Coelius,Michigan Engineering
当然,这款忆阻器芯片仍有很大的优化和提升空间。IEEE Spectrum 称,他们在芯片中使用了 40 年前的 180 纳米的晶体管,而如果使用 2008 年 40 纳米的晶体管技术, 就可以将功耗继续降低至 42 毫瓦,并可将计算效率提高至每秒每瓦特 1.37 万亿次运算。相较而言,英伟达的最新人工智能芯片使用的是更为先进的 2014 年的晶体管制造工艺。
卢伟也表示,已经开始研究设计更优化和功能更完善的下一代芯片,会使用更快和更先进的晶体管,以及更多的忆阻器阵列,从而可以通过多个阵列运行更复杂的神经网络算法。现在,团队已经成立了一家名为“ MemryX”的初创公司,会进一步将这款芯片商业化。
来源:MemryX
“MemryX 的目标是提供成熟的、商用性的存算一体架构解决方案。我们目前已经有了非常实质性的进展”,他说。
值得一提的是,卢伟教授参与创建的另一家初创公司 Crossbar 也专注于忆阻器的研究以及在人工智能芯片领域的开发。在存储器行业, Crossbar 向市场推出 Crossbar ReRAM 解决方案,已经成为新型存储技术的引领者之一,中芯国际早在 2016 年就宣布和 Crossbar 合作,将其 ReRAM 技术集成到多种设备上;2018 年,Crossbar 也与航空航天芯片制造商 Microsemi 签订了合作协议,并且推出了人脸识别和汽车牌照识别的芯片原型。