Fork me on GitHub

腾讯投资的AI芯片公司仅20个月打造的云端训练芯片如何?

  作者:包永刚

  AI 技术正成为巨头们保持领先地位的关键之一,各领域的头部公司特别是科技巨头们,大都花费重金投资 AI,但他们很快就遇到一个问题,芯片的算力无法满足 AI 算法的需求。因此,国外的谷歌、亚马逊,国内的百度、阿里都纷纷开始自主研发 AI 芯片。

  值得注意的是,根据公开资料,腾讯投资针对 AI 芯片的投资直到去年八月才曝光,当时燧原科技宣布获得腾讯领投的 Pre-A 轮 3.4 亿元人民币投资。本周三,燧原科技发布首款云端训练芯片邃思 DTU,这款芯片从启动研发到发布量产仅耗时 20 个月,基于该芯片云燧 T10 加速卡单卡单精度算力达到 20 TFLOPS,堪称业界最强。

  不过,燧原科技首款芯片及加速卡云燧 T10 的发布只是其创业成功的起点。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?
燧原科技 CEO 赵立东

  挑战 AI 云端芯片市场的勇气

  纵观如今的芯片市场,成功的芯片公司背后都有一个极其强大的生态,特别是在高性能计算领域,生态的重要性更加明显。因此,即便新一轮的 AI 热潮引发了芯片行业鲜见的创业潮,但大都选择了边缘 AI 芯片,这是因为其相比云端 AI 芯片技术难度更低,也可以避开云端 AI 芯片垄断的市场格局。

  燧原科技显然是少有的云端 AI 芯片创业公司。对于为何敢于挑战云端 AI 芯片,燧原科技 CEO 赵立东在发布会上表示,我们的信心源自天时、地利、人和。天时是 CPU、GPU 生态成熟,切入困难,但深度学习爆发式发展仅有 7 年的时间,这是一个更加开放的战场,有更大的发展空间。地利是现在是做 AI 高端芯片的黄金时代,中国有广泛应用、人口红利、海量数据、市场机会,既有国家政策引领,也有资本给予支持。人和则是上海近 20 年在集成电路领域储备了大量的集成电路人才,同时,上海通过在 AI 领域的发展,可提供成熟算法、软件、架构人才,这也是燧原科技选择上海的重要原因。

  对此问题,燧原科技创始人兼 COO 张亚林接受雷锋网采访时补充表示,燧原做芯片高举高打是我们 CEO 定下来的,这其中包含了我们的家国情怀,也是希望够做一件对得起选择创业这个决定的事情。AI 发展一个很大的挑战是模型不够,但新的模型都掌握在国外大公司手中,比如谷歌,其中很关键的是它们有 TPU。我们希望能够提供更强的算力,让中国人也拥有更多的 AI 模型。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?
燧原科技创始人兼 COO 张亚林

  不容忽视的是,两位重要创始人的经历也十分关键。CEO 赵立东本科毕业于清华大学电子工程系,后又获得美国犹他州立大学电子与计算机系硕士学位。2007 年加入 AMD,历任计算事业部高级总监、产品工程部高级总监,负责 CPU/GPU/APU 及多个相关核心 IP 的研发,团队规模超过千人,并参与成立中国研发中心。

  COO 张亚林也曾是 AMD 的一员,他本科毕业于复旦大学电子工程系,比赵立东晚一年(2008)加入 AMD,历任资深芯片经理、技术总监,曾在 AMD 上海研发中心领导开发并量产微软 XBOX-ONE 系列主芯片、融合芯片 APU 等多款世界级芯片。

  2014 年,赵立东离开了 AMD 加入了紫光通信科技集团任副总裁,2015 年 3 月兼任紫光集团旗下锐迪科微电子公司总裁,2017 年 3 月任紫光集团副总裁。而张亚林直到决定和赵立东一起创业才选择离开 AMD。

  雷锋网认为,两位核心创始成员都是技术背景出生,都在 AMD 积累了丰富的经验,这让他们不仅能够判断市场对于 AI 芯片的需求,也有自信敢去挑战 AI 云端芯片。

  首款云端 AI 加速卡单精度性能全球最高

  目前看来,燧原科技在融资和产品上都十分顺利。燧原科技 2018 年 3 月 19 日在上海注册成立,1 个月后就完成了 2400 万人民币种子轮融资,并启动第一颗云端训练芯片的研发。同年 7 月,完成腾讯战略领投的 3.4 亿人民币 Pre-A 轮融资。

  就算在资本的寒冬,今年 5 月,燧原科技又获得了红点创投中国基金领投的 3 亿元人民币A轮融资。同月还有一个好消息,首款芯片按计划准时流片。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?

  从 2018 年 4 月开始研发到 2019 年 9 月芯片点亮开始软硬件联调,燧原科技仅用了 14 个月的时间,加上产品的正式发布并开始量产,也仅用了 20 个月。

  之所以说是仅用,是因为一款大型 CPU 和 GPU 从设计到量产通常需要三年甚至更长时间。燧原科技之所以能快速完成一款复杂芯片从设计到量产,其团队有大量处理器专家是重要原因。张亚林透露,我们团队现在有 207 人,其中很多人从 2000 年就开始设计处理器,经验非常丰富。但能够快速实现芯片从设计到量产还因为团队文化非常同步,大家的目标都是尽快落地和量产,每个设计指标把控的都很严格。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?

  张亚林认为,能够这么快推出云端训练芯片简直就是奇迹,因为这款芯片是从零开始设计。

  “邃思 DTU 的架构有非常大的创新,我们最核心处理器里的架构都是我们从无到有设计的,并且受到专利保护。”张亚林介绍。

  另外,邃思 DTU 基于可重构芯片的设计理念,其计算核心包含 32 个通用可扩展神经元处理器(SIP),每 8 个 SIP 组合成 1 个可扩展智能计算群(SIC)。SIC 之间通过 HBM 实现高速互联,通过片上调度算法,数据在搬迁中完成计算,实现 SIP 利用率最大化。

  “端上的可重构更多是低功耗以及可以轻易移植应用。云端的可重构主要的是把整个数学计算变成一种可编程的指令集和可控的流水线,让数学计算的模型可以重构,这样可以保证芯片的通用性,也能够适应快速迭代的 AI 算法。”张亚林进一步解释。

  最终,燧原科技选择基于格罗方德 12nm FinFET 工艺打造邃思 DTU,集成 141 亿个晶体管,芯片面积为 480 平方毫米,采用先进的 2.5D 封装。基于邃思 DTU 的云燧 T10 也表现不俗:

  • 超强算力:单精度(FP32)下算力 20TFLOPS;半精度及混合精度(BF16/FP16)下算力 80TFLOPS,而最大功耗仅为 225W,能效比领先;
  • 模型通用:支持 CNN、RNN、LSTM、BERT 等常用人工训练模型,可用于图像、流数据、语音等训练场景;
  • 高速互联:采用燧原 ESL 互联技术,满足E级数据中心规模部署需求;
  • 接口兼容:标准 PCIe 接口,广泛兼容主流 AI 服务器;
  • 生态开放:支持主流深度学习框架,通过 SDK 提供深度定制。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?

  张亚林强调,为应对云端数据中心大规模训练集群的挑战,我们创造性地提出 200GB 双向 ESL 互联技术,在 1024 节点集群规模下,训练线性度加速比达 86%。在相同互联带宽下,相比 InfiniBand 组网,能较大幅度降低组网的复杂度和成本。云燧 T10 将于 2020 年第一季度上市。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?

  云燧 T10 的性能是一个什么样的水平?做一个简单的对比,友商同级别最新旗舰单卡的单精度算力为 16.4TFLOPS,云燧 T10 单卡单精度算力为 20TFLOPS。友商旗舰的功耗是 250W,云燧 T10 的最大功耗为 225W。ResNeT-50 模型的 Benchmark 无论是 FPS 还是 FPS/W 云燧 T10 表现都比友商旗舰表现更好。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?

  更小的芯片面积可以实现更成本,加上更高的高每瓦算力让云燧 T10 可以达到更高的有效算力,这也是业界越来越关注地衡量 AI 芯片的指标。

  市场策略关乎成败

  更高的有效算力确实能够吸引客户,但想要打动用户易用性和迁移成本同样关键。在产品层面,燧原科技发布硬件产品的同时也发布软件平台驭算,目前已经完全支持 TensorFlow,明年上半年将实现对 PyTorch、MXNet、ONNX 等主流深度学习框架提供支持,提供完整的编译、调试、调优工具链,并在硬件层开放 SDK,为深度开发者提供细粒度算力编程接口。

腾讯投资的 AI 芯片公司仅 20 个月打造的云端训练芯片如何?

  赵立东接受采访时表示,我们搭建一个最基础的,支持 TensorFlow 的堆栈,但要提供完整、易用、友好的界面和工具,不是一朝一夕可以做到的,需要更长的时间。

  在持续完善软件平台的同时,为了能实现无缝迁移燧原科技也有自己的方法。赵立东称之为热启动,也就是在产品研发的过程中,就与业界合作伙伴进行技术交流和项目合作,将市场的需求融合到产品的开发过程。这样可以让产品更快在实际场景中落地。

  张亚林表示,我们和客户做有限接触的时候,先是去适配他们主要的模型和业务形态,从他们的业务模型中进行泛化和抽取,通过交流我们获得了不少信息,然后再去适配,这样客户就能够很容易地进行迁移。

  但对于燧原科技这样一家初创公司而言,在精力有限以及面对强大竞争对手的时候,策略以及合作伙伴的选择至关重要。燧原科技选择的初期客户都是现有产品能够很好支持的合作伙伴。

  赵立东介绍,目前我们已经与腾讯针对通用人工智能应用场景的项目开展密切的合作,未来也将会扩展到更多 AI 应用场景。

  据悉,燧原还将面向云服务公司、传统领域的行业服务公司、AI 超算中心和智慧城市选择合作伙伴。赵立东表示,三个方向都在谈可能的合作伙伴,我们希望与合作伙伴不是纯粹的供应商和客户的关系,而是能够一起进行深入合作,为他们做一些深度定制。我们希望能够以点实现破冰的突破,然后由一个点变成多个点,由点连成线,再由线形成面,逐渐扩大。

  深度定制也正是燧原科技进入云端 AI 芯片市场的策略。赵立东表示:“在垄断市场,所有客户都希望有新的选择,这样他们才能稍有议价能力,因此市场有这样的痛点。除此之外,他们还希望有更高的性价比和能效比,特别是在落地的场景可以实现的有效性能。”

  “科技公司们想要在竞争中不一样,取得更好的成绩就需要做差异化。但是在垄断市场,想要得到的技术支持将会非常有限,这也会限制差异化的实现。所以我们希望和客户深度定制合作,帮客户实现差异化。”赵立东进一步表示。

  但随着 AI 模型的成熟,市场对云端 AI 训练需求的增速将会降低,云端 AI 推理的市场规模将会迅速增加,并有望在 2022 年超过训练市场。对此,赵立东表示,云端 AI 训练的需求不会降低,因为还有很多公司因为价格的原因还没有机会进来,这也是我们首先推出的是云端训练芯片的原因,这是市场目前最迫切需要也是量最大的。未来我们也会推出云端推理芯片,但因为推理比训练芯片对功耗和成本更加敏感,所以我们也会谨慎选择市场的切入点。

  雷锋网(公众号:雷锋网)小结

  燧原科技成立于 2018 年的资本寒冬,不仅融资没有受到影响,还成为了目前腾讯投资的一家 AI 芯片初创公司,这其中重要的原因是腾讯提出的产品热启动的概念与燧原科技创始人的理念不谋而合。作为为数不多的云端 AI 训练芯片的初创公司,燧原科技从产品研发到发布量产仅用了 20 个月的时间,这是其创始团队实力的体现,当然也是其执行力非常好地说明。

  不过,性能参数漂亮的芯片发布和量产只是 AI 芯片初创公司成功的开始,燧原科技高性价比、高能效比的硬件,持续完善的软件平台,以及差异化、定制化的市场策略能否获得更多合作伙伴的认可,才是其走向下一步成功的关键。

  挑战云端 AI 训练芯片市场困难很多,风险很大,但云燧 T10 的发布让我们对中国 AI 的发展增加了信心

来自:
雷锋网

作者:Johnson
原创文章,版权所有,转载请保留原文链接。