Fork me on GitHub

FPGA适合AI边缘计算吗?

  文:包永刚 

  FPGA 要在边缘 AI 计算中应用,高成本和开发难度大是两个问题。

  新一轮的 AI 热潮对芯片提出了更高要求,不过,AI 芯片的定义还没有严格和公认的标准。因此,可以运行深度学习算法的 CPU、GPU 以及 FPGA 和 ASIC 都可以被称为 AI 芯片。虽然都称为 AI 芯片,但在 2019 年 AI 落地的大背景下,AI 芯片的效率更值得关注。

  那么,在边缘端,FPGA 能与专为边缘 AI 设计的 ASIC 共同推动 AI 的普及吗?

  三大 FPGA 公司整体向上

  历经并购和整合,目前全球排名前三的 FPGA 供应商分别是赛灵思、英特尔、莱迪思。有意思的是,前两大供应商在今年相继推出“最大”FPGA。8 月,赛灵思宣布推出全球最大容量的 FPGA Virtex UltraScale+ VU19P,这款 FPGA 基于台积电 16nm 工艺,集成 350 亿个晶体管、900 万个系统逻辑单元,有每秒达 1.5 Terabit 的 DDR4 存储器带宽、每秒达 f 4.5 Terabit 的收发器带宽和超过 2000 个用户I/O。

  三个月后的 11 月,英特尔宣布推出全球容量最大的 FPGA Stratix 10 GX 10M,采用 14nm 工艺制造,集成了 443 亿个晶体管,核心面积约 1400 平方毫米,在 70×74 毫米的封装面积内拥有 1020 万个逻辑单元,还有 25920 个数据接口总线(EMIB),是此前记录的两倍多,每个接口吞吐量 2Gbps,内部总带宽 6.5TB/s,另有 308Mb 存储、6912 个 DSP (18×19 排列)、2304 个用户I/O针脚、48 个收发器(0.84Tb/s带宽)。

  显然,赛灵思和英特尔推出更大容量的 FPGA 为的是满足大数据以及云端 AI 的需求,将 FPGA 的应用从工业和汽车更多地拓展到数据中心。在半导体行业,头部效应尤为明显,即便市场份额排名第三,如果莱迪思也推出大容量 FPGA,境遇可能会非常艰辛。

  赛灵思和英特尔在 FPGA 市场的调整也给了莱迪思市场拓展的机遇。过去几年,莱迪思都专注于消费类市场,但消费类市场迭代速度非常快,需要根据不同的市场需求推出相应的产品。

  莱迪思亚太区产品市场部总监陈英仁表示:“在市场需求不明确且快速变化的时候,技术很难复用。我们现在采用平台化的新模式,这样能够最大化设计复用,降低开发成本及加速产品迭代。”


莱迪思亚太区产品市场部总监陈英仁

  FPGA 适合边缘 AI 吗?

  由此看来,莱迪思在市场的变化中找到了合适的定位和产品路线。不过 FPGA 要在边缘 AI 计算中应用,高成本和开发难度大是两个问题。对此,陈英仁表示,很多客户都用我们的 FPGA 进行量产,所以我们的 FPGA 价格非常友好。并且过去四年,莱迪思出货的 FPGA 数量在 10 亿片的量级,这也证明我们的产品非常可靠。

  至于设计门槛,陈英仁指出,由于 FPGA 的生态环境不像C语言那样方便,所以大家觉得 FPGA 的设计门槛比较高。这又可以分成两部分,一部分是工具,莱迪思全新推出的平台 CrossLink-NX 会使用 Radiant 2.0,调试工具做了很大改善,也支持业界标准的 SDC,还加了 ECO 编译器,还有信号完整的分析,并且将持续保持更新,让懂 FPGA 的工程师能够更方便的使用。

  另一部分是参考设计,对于那些不太懂 FPGA 的工程师,他们不知道这些工具的差异,需要一些参考设计才更容易上手,这也是莱迪思的强项。另外我们推出的 sensAI,包含了评估、开发和部署基于 FPGA 的机器学习和人工智能解决方案所需的模块化硬件平台、演示示例、参考设计、神经网络 IP 核、软件开发工具和定制设计服务。这些都能够降低 FPGA 的设计门槛。

  还有一点,FPGA 本身就是并行处理,深度学习算法很多都需要并行处理,通过 sensAI 把 AI 模型转换之后,FPGA 执行 AI 推理非常适合。

  价格友好且设计门槛在降低,但 FPGA 想在边缘端应用,还需要有相对 ASIC 明显的优势才具备吸引力。对此,陈英仁对雷锋网表示:“我们专注于把 FPGA 的优势发挥出来,比如低延迟。另一个是 FPGA 能够快速导入市场。还有就是 FPGA 的弹性,因为 FPGA 本身就有可编程性的优势,I/O、配置都非常灵活。I/O接口的灵活性非常适合边缘端,可以接入各种传感器。”

  他进一步解释灵活性在边缘端的重要性,如果从性能和功耗比的角度衡量, FPGA 相比 ASIC 会显得没有优势。但 FPGA 可以提供不同的接口,这样就可以接不同的传感器,并且能够满足产品智能化升级的需求。特别是 AI 技术还在不断地演进,要对现有产品做升级的时候,由于 ASIC 的拓扑结构已经固化,如果一个电子广告牌想要增加一个传感器更好满足需求时,ASIC 就很难,而用 FPGA 无论是用 SPI 还是 USB 接口都能轻松接入。

  什么样的 FPGA 更适合边缘 AI?

  既然 FPGA 从成本、性能、开发门槛方面都在改变满足边缘 AI 的需求,那到底什么样的 FPGA 可以更好满足边缘 AI 需求?莱迪思给出的答案就是前面提到的 CrossLink-NX。CrossLink-NX 基于莱迪思 NEXUS 平台,有功耗降低 75%、可靠性提升 100 倍、最小尺寸以及高性能网络边缘计算能力的特性。

  具体而言,CrossLink-NX 有 192 个可编程I/O,D-PHY 速度达到 2.5Gbps,逻辑单元达到 40K,主要应用于视频桥接处理。

  低功耗的实现是因为莱迪思在 CrossLink-NX 中使用了三星 28nm FD-SOI 的工艺,陈英仁介绍,我们选用的工艺中有一个很薄的 Buried Oxide,可以把失效率降低 100 倍,也就是可靠性增加了 100 倍,并且静态功耗最高可以比竞争对手降低 75%。

  在性能方面,CrossLink-NX 提供了 17K-40K 的逻辑单元,可以提供低功耗以及高性能模式,并且增加了很多嵌入式存储 RAM,再加上 DSP 模块,让 CrossLink-NX 嵌入式存储器/逻辑比达到 170bit,比竞争对手的产品高几倍,可以更有效地处理图形和 AI 推理。

  高存储器/逻辑比的同时还实现了小尺寸,CrossLink-NX 采用的是优化 4 输入查找表,使其产品能够实现小尺寸,在 6x6mm 的面积上就具备 40K 的逻辑单元。陈英仁认为,4 输入的查找表到目前为止,甚至以后的产品都绰绰有余,因为我们追求的不是最高性能,而是低功耗以及由此带来的成本以及方便性。

  当然,让 CrossLink-NX 更适合边缘 AI 的还有超快的I/O启动以及快速地I/O传输。在传输速度上,莱迪思使用的是硬核的I/O提升速率,通过 MIPI D-PHY,速度从之前的 1.5Gbps 提升到了 2.5Gbps。陈英仁表示,现在大部分的 SoC 的速度都是 2.5Gbps,所以我们的 FPGA 可以更容易与 SoC 配合满足嵌入式视觉和边缘 AI 的需求。

  启动速度方面,CrossLink-NX 的I/O配置速度小于 3ms,器件配置小于 8ms,这个速度不仅相比 MCU 或 SoC 时间段很多,并且通过先把I/O配置好,电压已经固定,系统也就比较稳定。

  雷锋网(公众号:雷锋网)了解到,CrossLink-NX 一开始会先支持工业级的温度,然后会进行车规认证。目前,CrossLink-NX 已经有 30 多个客户开始试用,供货时间也比预期更加提前。

  陈英仁还表示,软件和 IP 也准备就绪,未来 sensAI 也将支持 CrossLink-NX。针对 AI 应用,我们还可能与第三方合作提供一站式方案,通过硬件成品在搭配上参考设计,让不懂 FPGA 以及 AI 算法的客户能够更加方便的应用。

  雷锋网小结

  边缘 AI 以及 AI 市场潜力巨大,在 AI 对芯片算力提出更高要求的时候,所有的芯片提供商都不想错过 AI 带来的机会。FPGA 公司也不例外,只是 FPGA 本身更加擅长信号处理和网络加速等,但为了能够在大数据的 AI 的时代发挥更大的价值,排名第一和第二的 FPGA 公司都推出更大规模的 FPGA,更好地满足云端 AI 市场。这给莱迪思一个很好的机会,通过计算平台化的方式,最大化复用技术的同时,还能向上一步进入工业和汽车市场。

  为了更好地把握好这个机会,莱迪思的新品通过性能、稳定性、I/O各方面的优化,发挥 FPGA 在边缘 AI 中低延迟、高灵活性的特性,尽可能满足边缘 AI 计算的需求。对于市场而言,增加一种有竞争力的选择当然一件好事,至于市场的接受度如何,我们将保持关注。

来自:
雷锋网(ID:leiphone-sz)

作者:Johnson
原创文章,版权所有,转载请保留原文链接。