Fork me on GitHub

华为算力最强AI芯片商用:2倍于英伟达V100!开源AI框架

  乾明 边策 一璞 发自 凹非寺 
  量子位 报道 公众号 QbitAI

  刚刚,华为业界算力最强的 AI 芯片正式商用。

  并且宣布自研 AI 框架MindSpore开源,直接对标业界两大主流框架——谷歌的 Tensor Flow、Facebook 的 Pytorch。

  华为 AI 芯片昇腾 910 之前已经发布,现在正式商用,对标英伟达 Tesla V100,主打深度学习的训练场景,跑分性能 2 倍于英伟达。

  华为轮值董事长徐直军说,这是华为全栈全场景 AI 战略的实践体现,也希望进一步实现华为新愿景:打造“万物互联的智能世界”。

  但毫无疑问,华为入局,自研 AI 计算架构,肯定会进一步影响 AI 基础技术和架构格局,特别是美国公司的垄断。

  MindSpore 发布后,华为已经实现了完整的 AI 生态链,加上此前发布的 ModelArts 开发平台、Atlas 计算平台,囊括了从芯片、框架、部署平台到应用产品完整层级。

  在当下这个大环境中,这些动作也具备了自立自强、不受人掣肘的寓寄。

  如今现状,AI 领域的关键技术,比如算力、框架、算法等等,主要还是由少数几家美国公司提供。

  比如训练芯片,主要由英伟达(GPU)、Google 提供(TPU);框架则是 Google 的 Tensor Flow、Facebook 的 Pytorch 等成主导;原创 AI 算法的发明,也只是在少数几个厂商或者研究机构手中。

  这直接导致一些企业想要介入 AI 的时候,发现门槛很高,除了需要大量数据之外,还需要面临算力稀缺、硬件昂贵、人才难找等问题。

  现在,华为要用实际行动改变这一现状。

  AI 领域的“鸿蒙 OS”

  MindSpore,与其他主流的框架不同,这是一款全场景的 AI 计算框架,也是一款“操作平台”。

  不仅仅可以用于云计算场景,也能够应用到终端、边缘计算场景中。

  也不仅仅是一款推理(部署)框架,也可以用来训练模型。

  徐直军表示,这背后可以实现统一架构,一次训练,到处部署,可降低部署门槛。

  从这个角度来看,MindSpore 也可以视为 AI 领域的“鸿蒙 OS”。

  此外,这一框架面相的也不仅仅是开发者,也面向领域专家、数学家、算法专家等等在 AI 中角色越来越重要的人群。

  徐直军介绍,MindSpore 的界面上也更加友好,在表达 AI 问题求解的方程式时,更加便利,更易于算法的开放与创新,推动 AI 应用的普及。

  用 MindSpore 可降低核心代码量 20%,开发门槛大大降低,效率整体提升 50% 以上。

  通过 MindSpore 框架自身的技术创新及其与昇腾处理器协同优化,有效克服 AI 计算的复杂性和算力的多样性挑战,实现了运行态的高效,大大提高了计算性能。

  除了昇腾处理器,MindSpore 同时也支持 GPU、CPU 等其它处理器。

  与此同时,MindSpore 也采用新 AI 编程语言,单机程序可分布式运行,是一个全场景框架。全场景是指 MindSpore 可以在包括公有云、私有云、各种边缘计算、物联网行业终端以及消费类终端等环境上部署。

  而且,这一框架将会开源开放,可灵活扩展第三方框架和芯片平台。

  当然,徐直军说,如果用华为的昇腾系列芯片,效果会更好,可进行全离线模式执行运算,充分发挥神经网络芯片算力,实现最佳性能搭配。

  毕竟,MindSpore 作为华为全栈全场景 AI 解决方案中的核心步骤,是首个 Ascend Native 开源 AI 计算框架,会更适合达芬奇架构的 AI 芯片,尤其是昇腾 910。

  而且 MindSpore 针对现在越来越大的训练模型做了更多的优化,用户无需了解并行运算的细节,只需了解单芯片部署,就可以在计算集群上进行并行计算。

  徐直军表示,MindSpore 会在明年第一季度正式开源。

  昇腾 910 正式商用

  昇腾 910,在 2018 年 10 月华为全连接大会期间曝光,采用华为自研的达芬奇架构,号称“算力最强的 AI 处理器”,采用 7nm 工艺制程,最大功耗为 350W,实测 310W。

  此次发布用于上市商用,直接对标英伟达 Tesla V100,主打深度学习的训练场景,主要客户面向 AI 数据科学家和工程师。

  主要性能数据如下:

  半精度为(FP 16):256 Tera FLOPS;

  整数精度(INT 8):512 Tera FLOPS,128 通道全高清视频解码器- H.264/265。

  在去年全连接大会上,华为就和友商对比了一下,battle 的参赛选手包括谷歌 TPU v2、谷歌 TPU v3、英伟达 V100 和华为的昇腾 910。

  “可以达到 256TFLOPS,比英伟达 V100 还要高出 1 倍!”

  相同的功耗下,昇腾 910 的算力是 V100 的两倍,训练速度更快,用户需要得出训练产出的时间会更短。在典型案例下,对比 V100,昇腾 910 的计算速度可以提升 50%-100%。

  在典型的 ResNet50 网络的训练中,昇腾 910 与 MindSpore 配合,与现有主流训练单卡配合 TensorFlow 相比,显示出接近 2 倍的性能提升。

  而且徐直军还在会后明确表示:价格还没定,但肯定不会高!

  全球格局下的华为 AI 进展

  2018 年 10 月,在华为全连接大会上,徐直军公布了华为全栈全场景 AI 战略计划,将数据获取、训练、部署等各个环节囊括在自己的框架之内,主要目的是提升效率,让 AI 应用开发更加容易和便捷。

  全场景包括:消费终端 (Consumer Device)、公有云 (Public Cloud) 、私有云 (Private Cloud)、边缘计算 (Edge Computing)、IoT 行业终端 (Industrial IoT Device) 这 5 大类场景。

  重点在于全栈,包含基于达芬奇架构的昇腾系列芯片(Max、Lite、Mini、Tiny、Nano)、高度自动化的算子开发工具 CANN、MindSpore 框架和机器学习 PaaS (平台即服务) ModelArts。

  随着昇腾 910 正式商用以及 MindSpore 框架正式推出,华为全栈全场景 AI 解决方案愈发完善,竞争力也会随之上升。

  而且,华为之 AI,也不仅仅是关乎华为本身业务,也应该从更加宏观的角度去审视。

  当下,AI 落地已经成为无可争议的大趋势,大方向。

  但中美关系日趋紧张的情况下,中国到底如何,也引发了更多关注。

  近日,Nature 最新发表了一篇,名为“Will China lead the world in AI by 2030?”,提出问题的同时,也审视了中国 AI 发展的现状。

  文章中援引艾伦人工智能研究所数据显示,在最顶级的 10% 高引用论文中,中国作者占比在 2018 年已经达到 26.5%,非常接近美国的 29%。如果这一趋势持续下去,中国将在今年超过美国。

  需要场景?数据?金钱?人才?等等,这些都不差。

  但为什么,卡脖子隐忧,AI 领域依然存在。

  核心还在于算力(芯片)与基础技术。

  Nature 文章就指出,中国在人工智能的核心技术工具方面仍然落后。目前全世界的工业和学术界广泛应用的开源 AI 平台 TensorFlow 和 Caffe,由美国公司和组织开发。

  框架方面,百度的 PaddlePaddle 飞桨也不断突破,虽然发展势头非常好,却还是显得势单力簿。

  更关键的是,中国在 AI 硬件方面的落后非常明显。全球大多数领先的 AI 半导体芯片都是由美国公司制造的,如英伟达、英特尔、谷歌和 AMD 等。

  中国工程院院士、西安交通大学人工智能与机器人研究所所长郑南宁,接受 Nature 采访时说:“我们在设计可支持高级 AI 系统的计算芯片方面也缺乏专业知识。”

  虽然国内也有不少公司在努力,比如阿里、百度、依图、地平线等等,都涉足了 AI 芯片领域,但大部分都聚焦在终端 SoC 和推理上面,用于训练的大型算力芯片并不多。

  郑南宁预计,中国可能需要 5 到 10 年才能达到美国和英国基础理论和算法的创新水平,但中国会实现这一目标。

  来自柏林智库的政治学者 Kristin Shi-Kupfer 也表示,基础理论和技术方面的贡献,将是中国实现长期 AI 目标的关键所在。

  她同时强调,如果没有在机器学习上没有真正的突破性进展,那么中国在人工智能领域的增长,将面临发展上限。

  所以,Nature 的问题:中国 AI,到 2030 年能够领先全球吗?

  今天华为给出一种解法,但一切还只是开始。

  你怎么看?

来自:
量子位(ID:QbitAI)

作者:Johnson
原创文章,版权所有,转载请保留原文链接。