Fork me on GitHub

阿里平头哥首款AI芯片发布!46倍于英伟达P4,刷新推理性能纪录

  李根 发自 凹非寺 
  量子位 报道 公众号 QbitAI

  阿里第一颗芯片诞生!

  刚刚,云栖大会现场,阿里巴巴集团 CTO、达摩院院长张建锋向全场展示了含光 800——阿里第一款 AI 芯片。

  为了这款芯片,阿里一年前放下狠话,但谁也没想到一年后即亮相:不仅完成流片,还已在阿里云上正式上线。

  这也是阿里平头哥成立以来首款硬件产品,是阿里 20 年发展史上首款自主研发、流片量产的芯片。

  在芯片行业时代变革转关之际,阿里好风凭借力、快速取得突破,掌握下一阶段擂台主动权,意义和价值,或许将远超芯片本身。

  不过发布现场,张建锋更想强调的是敬畏之心。

  他说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光 800 是平头哥的万里长征第一步,我们还有很长的路要走。”

  含光 800 究竟如何?

  含光之名,依然沿袭平头哥传统,取自神兵宝剑。

  “含光”本是上古三大神剑之一,含而不露,光而不耀,正如含光芯片作用方式——无形却强劲的算力。

  具体来说,这是一款云端 AI 芯片,主打推理,重点应用于视觉场景。

  性能方面,打破现有 AI 芯片记录,性能及能效比全球第一。

  芯片制程 12nm,晶体管数量高达 170 亿个。

  在业界标准的 ResNet-50 测试中,含光 800 推理性能达到 78563 IPS,比目前业界最好的 AI 芯片性能高 4 倍。

  能效比 500 IPS/W,是第二名的 3.3 倍。

  以数据横向对比,含光 800 展现性能,是英伟达最新 T4 五倍,是应用最广的英伟达 P4 的 46 倍——超过去年设计之初吹下的“牛”。

  目前,含光 800 已经率先在阿里内部多个业务场景开启大规模应用。

  从视频图像识别、分类、搜索,到城市大脑等,未来还可应用于医疗影像、自动驾驶等领域。

  大会现场,张建锋展示了这款芯片的强大性能。

  每天新增 10 亿商品图片的拍立淘商品库,使用含光 800 识别效率可提升 12 倍,时间从传统通用 GPU 的 1 小时缩减至 5 分钟。

  还有城市大脑。在城市大脑中实时处理杭州主城区交通视频,需要 40 颗传统 GPU,延时为 300ms,使用含光 800 仅需 4 颗,延时降至 150ms。

  阿里方面称,含光 800 会首先在阿里内部场景业务服役,同时含光 800 的 AI 云服务也正式上线,通过阿里云对外提供 AI 算力,但不会直接以芯片的形式对外售卖。

  此前,阿里平头哥连战连捷,过去两个月已经发布了无剑 SoC 平台和玄铁处理器 IP,“让天下没有难造的芯片”,帮助企业降低芯片设计门槛。

  现在,作为首款硬件,也是最硬核产品,含光 800 依然承载平头哥之志,希望通过阿里云 AI 云服务,让企业随时随地可以享受高性能计算。

  而且也意味着阿里平头哥成立一年来,走过了软件架构(处理器 IP、SoC 平台)到硬件流片的完整流程。

  这是阿里造芯,标志性的“交作业”时刻。

  阿里造芯这一年

  阿里布局 AI 芯片,最早曝光于 2018 年 4 月。

  其后 9 月云栖大会,阿里宣布成立平头哥,并且先将“狠话”放下,正在打造一款 NPU,架构设计上,性能成果就要比业内最好的 AI 处理器强大 40 倍。

  此言一出,语惊四座。

  然而一年之后的现在——成绩单时刻——阿里平头哥确实没有食言。含光 800,性能 46 倍于 P4,甚至比最新一代英伟达 T4,也有 5 倍领先。

  虽然过程并非完全顺风顺水,但过去一年,“含光”团队不仅完成了从无到有的跨越,更是超越了所有人的预期。

  整个过程中,含光 800 团队在软硬件设计上都做了大量工作,例如做架构创新,软件编译器、框架、工具链等,后期还针对 INT8 数据类型进行了大量优化。

  含光 800 芯片负责人骄旸透露,这款芯片采用自研架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。

  芯片同时深度优化了卷积、矩阵乘、向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把 AI 运算的性能和能效双双推向极致。

  另外,还集成了达摩院算法。针对 CNN 及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗 NPU 上完成计算。

  更难能可贵的是,平头哥团队攻克了一系列挑战。

  例如如何兼顾性能、良率、功耗等。平头哥在软硬件上充分考虑了这些问题,用最短的时间完成了芯片的设计、流片整个过程,7 个月完成前端设计,之后仅了 3 个月就成功流片。

  骄旸感慨,从传统造芯角度来看,几乎是一个不可能完成的任务。但最终,阿里 AI 芯片团队,还是创下纪录,完成挑战,把不可能变为可能。

  这其中,自然有“007”们日日夜夜的苦功,不过也不容忽视乘风起势的大趋势作用。

  正所谓时来天地同协力,AI 时代的专芯专用需求,阿里业务场景加持优势,都是不得不说的核心原因。

  NPU:芯片的 iPhone 时刻

  首先,AI 时代的专芯专用需求。

  顾名思义,NPU——神经网络处理器就是专门处理深度神经网络算法的芯片,而深度神经网络算法,核心是模仿生物神经网络结构特点,并且最基本特征就是模仿大脑神经元之间传递模式,并对输入的信息进行快速处理。

  然而传统通用处理器基于冯诺依曼结构,其存储和运算处理相互分离,如果处理深度神经网络,需要大量读写运行操作,会受到带宽限制,效率较低。

  因此以含光 800 为代表的神经网络芯片,根据神经网络推理运算特征,会设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。

  简而言之,专芯专用,效率更高、成本更低,相应效益也会更好。

  而且另一方面,因为需求明确,应用场景有针对性,相比打造 CPU 和 GPU,打造 AI 芯片的门槛要低很多。

  于是整个行业都在来到一个“iPhone 时刻”——软件重新定义硬件,场景需求重新定义芯片。

  然后过程中最好还能与应用的业务场景结合,不断验证、反馈,迭代,最后在达到目标效果后流片、完成物理实现。

  所以当今之势,不仅 AI 造芯初创公司形成小高潮,而且互联网巨头也纷纷跨界变硬,启动自主 AI 芯片打造。

  但想不想造、有没有能力造,最后造的结果如何……完全是好几个层次,完全是综合实力的比拼。

  这也就是为什么,阿里的业务场景优势,会给平头哥首款 AI 芯片带来加速,也是阿里手握新时代芯片竞争“天命”的原因。

  何以一年造出 AI 芯?

  实际上,虽然速度快、成果惊人,但阿里 AI 芯片并非完全“从 0 开始”。

  平头哥创立一年,不过达摩院和阿里各大业务,已在 AI 算法和软件方面积累很长时间。

  含光 800 团队透露,基于阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀,是含光 800 重构芯片软硬件技术栈的秘诀所在。

  由于 AI 芯片的差异化设计主要体现在硬件架构和软件算法上,二者需要高度适配才能发挥芯片的最大价值。

  算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果。

  硬件方面,阿里巴巴此前已在服务器、FPGA 以及存储等领域拥有多年经验,平头哥团队也在体系结构、编译技术等领域拥有深厚的技术储备。

  基于这些能力,平头哥完成了算法和硬件之间鸿沟的快速突破。在算法能力之上,自研芯片架构,并且设计了完整软件栈。

  而且如此设计理念,效果也立竿见影。例如功耗是 AI 芯片行业通病,但平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,能把芯片功耗降到最低水平。

  另外,新入局也有新入局的优势。

  带队打造含光 800 的骄旸感慨,半导体巨头搞 AI 芯片,会有既有开发者生态的包袱,但阿里平头哥团队目标专一,就是要实现最强算力,把硬件能力完全释放,以构建更大的生态。

  过程中也无时不刻展现着阿里业务场景优势、以及组织凝聚力。

  而平头哥在架构设计之初,业务场景同事就从需求和经验层面给出了全面反馈,直接帮助厘清了需求。

  然后算法加持和验证迭代阶段,达摩院和业务场景也不厌其烦帮助测试、反馈,提交迭代,共同完成了流片前的最后保障。

  所以虽然阿里造芯,专门成立了平头哥半导体,但“含光 800”从无到有,不光是一个人、一支团队在战斗。

  如果你问阿里 AI 造芯的优势究竟有哪些?

  除了有“生死看淡不服就干”的决心,真金白银的投入,业内全球资深人才的招揽……

  平头哥首席科学家、阿里巴巴高级研究员元尊,会将具体优势归结为“ABCDE”。

  • A:Algorithm,算法,阿里本身的技术储备和 AI 实力,在算法方面有世界领先的积累。
  • B:Big Data,大数据,庞大的生态场景和覆盖方方面面的业务,在数据质和量方面都有优势。
  • C:Computing,安全稳定的计算力,阿里云的市场龙头和领先地位,就已能说明一切。
  • D:Domain knowledge,专业领域知识,阿里本身并非只是一家一业的公司,而是几十家公司的集合体、经济体,有各种各样的全面应用场景,对于各项最新技术和产品,有最天然的应用基础。
  • E:Ecosystem,生态。比起传统芯片半导体公司,阿里生态涵盖之广泛、能力之多元和应用前景,都是综合实力的体现。

  元尊认为,拥有“ABCDE”的阿里,比光有C的其他芯片公司,自然更容易更快速站上 AI 芯片C位。

  而且这种“ABCDE”,一方面帮助造芯,另一方面还帮助用芯。

  阿里 AI 芯片商业模式

  在阿里内部,因为丰富的场景需求和业务体量,对高性能 AI 算力的需求已非一日。

  电商场景中,拍立淘等新兴购物方式涉及的图片搜索,需要 AI 芯片。

  还有文娱场景,优酷视频修复、分析,也需要 AI 实现。

  还有阿里正在大规模落地推进的城市大脑等,如各类车辆进行检测、跟踪、特征提取、属性检测等,也都离不开更强算力加持。

  未来,在医疗和自动驾驶等重要垂直领域,更是空间广阔、商业前景潜力十足。

  单自主芯片自用,就已效益显著。

  更何况阿里云的地位和实力,也能让 AI 算力通过阿里云赋能更多领域、更多企业。

  所以此次含光 800 芯片选择云服务的商业模式,也在情理之中。

  阿里方面,则更乐于强调首款 AI 芯片的商业模式背后,一以贯之的普惠性——平头哥创办的核心理念。

  今年早先推出的无剑 SoC 平台和玄铁处理器 IP,都选择了直接开放授权,帮助企业降低芯片设计门槛。

  而含光 800 的普惠性,则体现在通过阿里云 AI 云服务的形式,让企业随时随地可以享受高性能计算服务。

  平头哥下一步

  在杭州云栖大会期间,也谈到了阿里芯片的下一步。

  随着含光 800 发布,平头哥已集齐了全栈芯片家族:

  • 基础单元处理器 IP,C-Sky 系列、玄铁系列,为 AIoT 终端芯片提供高性价比 IP;
  • 一站式芯片设计平台,无剑 SoC 平台集成 CPU、GPU、NPU 等,降低芯片设计门槛;
  • AI 芯片,含光 800 通过 AI 云服务为 AI 场景提供高性能算力。

  这三大产品系列,初步完成了平头哥端云一体的芯片生态。

  而接下来,平头哥产品形态,重点将是云端 AI 训练芯片、端上推理芯片,以及用于阿里云神龙服务器的 SoC 专用芯片,以满足更多场景的算力需求。

  此外,平头哥芯片初步软硬件闭环实现,阿里巴巴在芯片、云和 AI 三大业务之间的协同关系,也雏形初现。

  从时代趋势而言,三者原本就是三位一体。

  AI 算法逐渐集成到芯片,集成算法的专用芯片能为云服务提供了更强的性能,而云计算本身则加速了 AI 应用的大规模落地。

  过去十年,阿里集中推进、展现成果的是 AI 和云计算。

  现在,平头哥补齐芯片一环,阿里在计算版图中的铁三角形成。

  不过中国科技互联网巨头,自然还有野心更大的宏伟蓝图——行业生态和开发者生态。

  此前,玄铁 910 发布,阿里也明确解释过,平头哥目标就是打造 AIoT 时代的基础设施平台,延续从阿里巴巴 B2B 淘宝支付宝,到阿里云和菜鸟等延续承袭的阿里之道。

  在此次云栖大会,基于 RISC-V 架构的玄铁处理器、以及无剑 SoC 平台也有开发者案例——如人工智能独角兽云天励飞、老牌芯片商炬芯科技,以及可重构计算芯片领军企业清微智能,都将现场亮相。

  当然,既然 AI 芯片是一次软硬件一体化的完全重构,那么在软件栈和模型框架方面,阿里必然也不会袖手旁观。

  最明显的信号,莫过于重磅引入的 Caffe 之父贾扬清。

  One more thing:含光

  最后,阿里首款 AI 芯片,取名依然寓寄深远。

  “含光”之名,来自《列子·汤问》,是上古名剑,也是商天子三剑之首。

  “视不可见,运之不知其所触,泯然无际,经物而物不觉。”

  这把剑隐隐发光,如光如影如风,快到看不见,无形、无处不在,无往不利。

  平头哥团队解释说,这是含光 800 团队内部投票的结果。

  既希望传达该款 NPU 的能力,也展现平头哥首款硬件初入芯片领域的心态——在英特尔和英伟达等巨头面前,还是“年轻人”,造芯重器,心怀敬畏。

  不过,含光 800 面世,依然是阿里和平头哥历史性的重要一步。

  阿里刚刚度过了 20 周岁生日,这一个 20 年完成了“让天下没有难做的生意”。

  接下来 20 年,能实现“让天下没有难造的芯片”的大胆梦想吗?

  不知道。

  眼下只知道含光初立,一剑光寒十四州,迈出万里长征第一步。

来自:
量子位(ID:QbitAI)

作者:Johnson
原创文章,版权所有,转载请保留原文链接。