Fork me on GitHub

英特尔打响数据中心复兴之战!四大架构轰向云端,营收创新高

  芯东西(ID:aichip001)文:心缘

  回到 1968 年,英特尔创始人罗伯特·诺伊斯和戈登·摩尔希望以两人名字的组合命名新公司——Moore Noyce(摩尔·诺伊斯)。

  然而这个名字被一家连锁酒店抢先注册了,无奈之下,两位创始人改取“Integrated Electronics(集成电子)”两个单词的缩写“Intel(英特尔)”为公司名,偏巧,这也是英文单词“智能”Intelligence 的前几个字母。

  或许冥冥之中,命运已经将英特尔和五十年后的智能化浪潮牵了一条红线。

  从数据中心、自动驾驶到物联网,英特尔正在编织一张全面的人工智能(AI)软硬件巨网,试图在滚滚奔涌向前的新一代数据革命中,以前瞻性的布局立于不败之地。

  据美国市场研究机构 Gartner 在 1 月 14 日发布的最新报告,2019 年全球半导体收入总计 4183 亿美元,较 2018 年下降 11.9%。

  在整体市场陷入低迷状态之际,英特尔却迎来了颇为亮眼的成绩单,不仅时隔三年重返全球半导体市场榜首,而且其第四季度和财年营收均创纪录。


2019 年全球半导体厂商销售额排行榜前十(来源:Gartner)

  2020 年 1 月 24 日,英特尔公布 2019 财年财报,季度营收突破 200 亿美元大关,全年营收近 720 美元,其营收和利润远超分析师预期,推动英特尔盘后股价大涨近7%。


近五年英特尔股价变化

  PC 销售表现以及企业和云计算数据中心服务器芯片销售的复苏成为了英特尔亮眼财报表现的两大核心支柱。其数据中心事业部(DCG)作为英特尔转型时期的新生主力军,喜迎连续五年的营收增长,达到 234.81 亿美元。

  在电话会议上,英特尔 CEO 司睿博(Bob Swan)告诉分析师,在 AI 和机器学习任务上具有更好性能的服务器新芯片是英特尔强大性能的关键,客户继续将至强处理器作为其注入 AI 的数据中心工作负载的基础。


英特尔 CEO 司睿博

  司睿博表示,2019 年是英特尔历史上和前景最好的一年。英特尔在 2019 年创下 38 亿美元由 AI 驱动的收入,到 2024 年,AI 市场机会预计将达到 250 亿美元,其中应用于数据中心的 AI 芯片规模将达到 100 亿美元。

  那么迄今为止,英特尔在数据中心 AI 芯片先进架构的布局中,已经为自己攒下多少筹码?

  01

  五年高歌猛进,数据中心业务加速狂奔

  2015 年,英特尔提出数据将改变未来计算格局,乃至整个世界。

  这也是 AI 开始走向商业化的序幕。

  此后五年间,英特尔发起一系列总计近 200 亿美元的投资收购,借此快速切入多类芯片赛道,以高调的姿态向世界宣告围绕挖掘数据红利转型的决心。

  而英特尔的过去一年转型阶段性成绩,已经列在最新的 2019 财年财报之中。


英特尔 2015-2019 财年营收及净利润变化

  财报显示,英特尔 Q4 季度营收 202.09 亿美元,同比增长8%;净利润为 69.05 亿美元,同比增长 33%;2019 财年营收 719.65 亿美元,较上一财年增长2%,净利润 210.48 亿美元,与 2018 财年基本持平。

  据英特尔预计,其 2020 年营收将达到 735 亿美元,这也超过此前分析师预期。


英特尔 2015-2019 财年各业务营收占比变化

  除了客户计算(CCG)仍挑着“以 PC 为中心”的大梁外,数据中心(DCG)、物联网(IOTG+Mobileye)、非易失性存储解决方案(NSG)以及可编程解决方案(PSG)均属于英特尔“以数据为中心”的业务范畴。

  “以数据为中心”业务继续向营收占比超 50% 的目标迈进,除 PSG 营收较 2018 财年略有下降外,每个业务均实现两位数的增长。

  其中数据中心业务(DCG)作为仅次于客户计算业务的营收来源,在总营收的占比持续提升。

  在云服务提供商客户的强劲需求以及高性能第二代英特尔至强可扩展处理器的持续强劲推动下,数据中心业务 Q4 营收达 72 亿美元,同比增长 19%,全年营收达 234.81 亿美元,同比增长约2%。


英特尔 2015-2019 财年数据中心业务(DCG)营收及毛利变化

  DCG 包括针对云、企业和通信基础架构细分市场设计的工作负载优化平台和相关产品,而 AI 正是这些客户愈发重视的关键能力。

  AI 算力需求推动着数据中心的计算从单一体系架构过渡到异构系统,“CPU+ 协处理器”成为 AI 工作负载的固定组合。

  主流协处理器中,GPU 雄霸 AI 训练市场,CPU 和现场可编程门阵列(FPGA)占据 AI 推理领域的主导地位,专用集成电路(ASIC)则正如冉冉升起的新星。

  为满足多样化工作负载需求,如今英特尔在数据中心的芯片业务已覆盖标量(CPU)、矢量(GPU)、空间(FPGA)、矩阵(ASIC)。

  而这四种计算架构,恰恰也是 AI 芯片的四类典型代表。


英特尔数据中心 AI 多种计算架构芯片布局

  02

  CPU:至强三代 AI 进化,霸主地位受三方挑战

  至强可扩展处理器是英特尔“以数据为中心”战略的基础。

  尽管 CPU 在多数人眼中是个“头脑发达,四肢简单”的控制者,不擅长做 AI 处理,但英特尔正努力通过加固至强处理器的 AI 性能打破这一刻板印象。

  时至今日,英特尔至强依然是全球 AI 推理的主流选择。据此前英特尔透露的数据,至强已经助力市场上 80%-90% 的 AI 推理。

  2017 年,英特尔在第一代至强可扩展处理器中首次建立 AI 加速能力。2019 年推出的第二代至强,AI 推理性能比一代提升 30 倍。将在 2020 年登场的第三代至强,AI 训练性能则再提升 60%。

  AI 似乎成了至强最大的筹码,英特尔执行副总裁孙纳颐(Navin Shenoy)曾在 CES 期间特意指出,至强是唯一内置 AI 的通用 CPU。

  司睿博也在财报电话会议中表示,客户对第二代至强英特尔至强可扩展处理器的需求非常强劲,专注于 AI 性能的 Cascade Lake 系列是英特尔增长最快的处理器,而其增长势头还将随着第三代至强可扩展处理器 Cooper Lake 的推出,在 2020 年上半年得到进一步推动。

  虽说英特尔在数据中心 CPU 市场是不二的王者,拥有超过 90% 的市场份额,但英特尔不敢有丝毫的懈怠。

  以 AMD、IBM 和 Arm 系为代表的追赶者正来势汹汹。

  AMD 可谓是 2019 年表现最佳的半导体股之一,涨幅翻倍,其最新发布的第二代 7nm EPYC Rome CPU 在制程、密度、功率、性能和价格方面均赢过了英特尔 14nm CPU。

  2019 年 Q3 财季,英特尔 DCG 营收同比增长4%,服务器 CPU 销量下滑6%,不过平均售价(ASP)增长了9%。环比方面,DCG 营收增长 28%,销量增长 20%,ASP 增长7%,DCG 营业利润率创下新纪录 49%。


英特尔服务器 CPU 销量同比(YoY)和环比(QoQ)变化

  不同于英特尔,由于第二代 Epyc 处理器需求旺盛,AMD 服务器 CPU 单位出货量和营收环比增长超过 50%,取得了 AMD 自 2006 年以来最高的季度 CPU 营收。

  亚马逊、IBM、微软、谷歌、腾讯、Twitter 等巨头均宣布在其数据中心部署 EPYC 处理器,据 AMD CEO 苏姿丰预测,AMD 有望在 2020 年年中达到服务器 CPU 市场份额两位数的目标,而这将是此前 EPYC 占有份额的十倍左右。


AMD 服务器 CPU 市场份额变化

  IBM 同样是不同忽视的竞争对手。

  为了扭转在数据中心的颓势,IBM 近几年一直试图通过创建围绕 Power 处理器的硬件和软件生态系统,拿下更多超大规模数据中心市场。

  例如谷歌在 2017 年底推出专为 AI 和高性能计算(HPC)设计的服务器,由 IBM Power9 处理器驱动。其服务器在 HPC 领域已相当受认可,最新全球超算排行榜中,排名前两位的超算 Summit 和 Sierra 都采用了 IBM Power9 CPU。

  2019 年以 340 亿美元收购红帽后不久,IBM 迈出更激进的一步,宣布完全开源 Power 指令集,为获取更多中高端服务器市场争取机会。

  谷歌已经在涉足 Power 处理器,今年 1 月 14 日,谷歌还宣布将在谷歌云推出 IBM Power 系统。


2019 年 11 月更新:全球超算排行榜前五

  Arm 系服务器则试图在中低端市场撬开一个缺口。

  此前 AMD、三星、博通、NVIDIA、高通等半导体巨头都曾尝试研发 Arm 服务器处理器,但随后均不了了之。

  不过过去两年,Arm 服务器 CPU 阵营又喜添亚马逊和华为两员大将。随着云计算厂商对陆续转向自研芯片,Arm 被视为实现 CPU 自主可控的优选架构,似乎有吞掉一小块服务器市场蛋糕的希望。

  但云计算厂商的企业性质决定他们很难将自研服务器 CPU 对外销售,真正在内部部署的量级有多大也很难说,更像是云计算厂商握在手里用于以防万一和获得更大议价空间的“备胎”。

  总体来看,接下来英特尔作为服务器 CPU 龙头的地位依然无可撼动,但 AMD 已成为摆在台面上的不稳定因素,英特尔能否守住自己的市场份额,下一步 10nm 服务器 CPU 的棋将至关重要。

  03

  GPU:红绿之争可能变为三原色互斗

  2010 年,英特尔将其 Larrabee 独立显卡项目从公司路线图中抹去,直到去年 11 月,英特尔首次展示其用于数据中心的 GPGPU——Ponte Vecchio GPU。

  Ponte Vecchio GPU 为 HPC 建模和仿真以及 AI 训练而设计,计划在美国能源部 Aurora 超算中首次亮相。

  Ponte Vecchio GPU 将采用英特尔多种先进技术,包括其 7nm 制程工艺、Foveros 3D 和 EMIB 封装技术、高带宽内存、Compute Express Link 互连等。

  英特尔尝试采用统一架构 Xe 来研发图形卡,分别针对低、中、高性能工作负载,提供 Xe-LP、Xe-HP 和 Xe-HPC 三种微体系架构。前不久基于 Xe-LP 的 PC 用独立图形显卡 DG1 刚刚在 CES 期间被剧透。

  自 AMD 在 2006 年收购 ATI 公司后,GPU 市场就成为老大 NVIDIA 和老二 AMD 独秀的舞台。

  NVIDIA 一直以来以多种形式为 GPU 计算开拓新市场,它率先将服务器市场中使用 GPU,并且最早收割深度学习加速计算的红利,凭借强大的 CUDA 生态横行 AI 和 HPC 领域,并且在 AI 训练领域明显处于优势地位。

  为了增强在数据中心领域的竞争力,NVIDIA 拟以 69 亿美元买下 Mellanox 的收购案正在审批阶段,目前已获得美国和欧洲监管机构的批准,接下来还要接受中国监管机构的考验。

  AMD 早先 CPU 业务被英特尔完虐时,主要就是靠 GPU 业务维系生计,它也是 NVIDIA GPU 最有力的竞争者。

  2018 年,AMD 面向 AI 和 HPC 连发两款 Vega 架构的 7nm GPU,Radeon Instinct MI60 和 MI50,并声称 MI60 是最快的双精度加速器,性能高达 7.4 TFLOPS。

  但 AMD 在 AI 和 HPC 领域始终难以与 GPU 抗衡,主要缺的还是软件,大多数 GPU 开发者已经习惯使用 CUDA。而 NVIDIA 并没有将 CUDA 平台开放给 AMD GPU 使用,这使得 AMD 很难在数据中心 AI 市场扩大自己的地盘。

  英特尔也意识到了构建统一软件的必要性,打造了横跨其旗下各种计算架构的统一编程模型 oneAPI。

  如果英特尔将自研 GPU 与 CPU 结合,可能会打造出一个颇具竞争力的计算平台。那么无论是数据中心还是 PC 端的 GPU 市场,未来有望变成 RGB 三原色的竞争。

  04

  FPGA:两强交汇 AI 赛道

  FPGA 类产品隶属英特尔 PSG 事业部,虽然并不划归 DCG 业务,但同样是其数据中心组合拳中重要的一个组成部分。

  作为 FPGA 鼻祖,赛灵思一直是全球 FPGA 领域的“独孤求败”,原本被甩在身后的老二 Altera,突然在 2015 年被英特尔以 167 亿美元高价收购了。

  此后,赛灵思和 Altera 分别走向岔路口的两个方向。

  赛灵思仍以 FPGA 为主线,以可编程为核心思想去探索创新打法;Altera 则化身为英特尔 PSG 事业部,一边作为独立在线加速器,另一边和英特尔至强处理器组合出击 AI、5G、自动驾驶等新兴市场。

  有趣的是,从 2018 年下半年开始,FPGA 两大核心玩家频频在一些新动作上“不谋而合”。

  比如在收购新创企时,消息都在 2018 年 7 月公布。英特尔 PSG 事业部这厢迎来新成员美国结构化 ASIC 供应商 eASIC,5 天后,中国 AI 芯片独角兽深鉴科技宣布被赛灵思收购。

  想办法把 FPGA 这一陈年老架构玩出新花样时,两家又都选择推出创新的新品牌。

  赛灵思推打造出号称是“赛灵思自发明 FPGA 以来最卓著的工程成就”的自适应计算加速平台 ACAP,并基于这一架构,推出 AI 推理性能比 GPU 高 8 倍的 7nm AI 芯片和实时推理吞吐量比高端 CPU 高 20 倍以上的 Alveo U250 加速卡。

  英特尔也发布了新品牌 Agilex FPGA,跟数据中心 GPGPU 一样,走得是集成英特尔多重创新技术的路线,借助三维封装、Compute Express Link 内存一致性加速等技术,实现超快速度和超高灵活性。

  两家还轮流炫技最大 FPGA。2019 年 8 月,赛灵思发布号称是全球最大 FPGA 芯片 Virtex UltraScale+ VU19P。2 个月后,英特尔 Stratix10 GX 10M FPGA 用 EMIB 技术将两个 FPGA 在逻辑和电气上实现整合,摘走“最大容量”的头衔。

  除此之外,回顾过去一年,英特尔频繁提及自己的软件工具和库带来的性能优势和便利性,强调其跨架构统一编程平台 oneAPI 的价值。

  赛灵思同样考虑到优质软件在构建生态中起到的关键作用,推出统一软件平台 Vitis,无需硬件专业知识即可自动将 Xilinx 硬件体系结构调整为软件或算法代码,并把 FPGA 上的 IP、底层的驱动软件以及一系列 AI 开发套件都打包到 Vitis AI 平台上供开发者选择。

  从赛灵思 2019 年 10 月公布的 2020 财年 Q2 财报数据来看,赛灵思的转型战略成效已显,以 Alveo、UltraScale+ 等为代表的先进产品营收同比增长 29%,占比持续攀升,约占总销售额的 74%。

  其数据中心业务涨幅明显,达到创纪录的 8100 万美元,同比增 24%,占总营收的 10%,与微软 Azure、亚马逊、阿里、百度、华为、腾讯等重要客户之间的 FaaS 业务进一步扩展。


赛灵思先进产品和核心产品占比变化(2018 年 10 月-2019 年 10 月)

  英特尔 PSG 主要包括 FPGA 和结构化 ASIC,及用在通信、云和企业以及嵌入式市场领域的相关产品。PSG 从 2016 财年起,经过连续三年营收和毛利增长后,在 2019 财年营收同比下降 6.4%,至 19.87 亿美元。


英特尔 2016-2019 财年 PSG 营收及毛利变化

  AI+ 云计算的兴起,相当于给了赛灵思和英特尔 FPGA 站在同一起跑线的机会。

  目前直观来看,英特尔在壮大生态、吸引中国开发者方面的行动更为丰富,包括在重庆建立 FPGA 创新中心、举办 FPGA 创新大赛等等,而赛灵思主要是依靠年末的 XDF 开发者大会亚洲站来作为集中展示先进技术以及同开发者交流的平台。

  05

  ASIC:内部赛马?三年收购俩创企

  ASIC 是为特定目的、任务或应用而设计和制造的定制化芯片,能以高性能和高功效完成非常具体的任务。

  从谷歌亮出张量处理单元(TPU)开始,越来越多玩家涌入 ASIC AI 芯片赛道,英特尔也早在 2016 年 8 月就通过大约3-4 亿美元收购加州 AI 芯片创企 Nervana 布局云端专用 AI 芯片。

  2019 年下半年,英特尔发布 Nervana 首款商用云端 AI 训练芯片 NNP-T 和 AI 推理芯片 NNP-I 的新讯,包括投产并完成客户交付,宣布分别与百度、Facebook 合作推进定制 AI 芯片研发工作。

  英特尔称 Nervana NNP 可以进行近乎线性和极具能效的扩展。NNP-T 提供了一种高效的分布式训练方式,对 95% 的大型复杂模型进行线性扩展。英特尔与 Facebook 合作定制开发的 NNP-I,据称在 ResNet50 上的效率可达 4.8 TOPS/W,功率范围为 10W 到 50W 之间 。

  2019 年 12 月,英特尔宣布以 20 亿美元收购以色列 AI 芯片创企 Habana Labs,而 Habana 打造的产品,也是面向数据中心的 AI 训练和 AI 推理芯片。

  一石激起千层浪,业界讨论声四起。

  有人觉得这一收购只是英特尔战略的持续延续扩张,主要是英特尔为满足 AI 工作负载的多样性,增强自身数据中心 AI 产品组合的实力。

  也有人认为这是暗示英特尔对此前的 AI 芯片收购并不满意。一位业内人士直言,英特尔当前的 AI 芯片产品并不给力,NNP-I 性能还达不到宣传的水平。

  Nervana 和 Habana 的名字有些相像,架构上看也十分类似,而且产品都是在以色列开发,而且芯片都具备高度可扩展的特点。

  不过两家创企的收购背景截然不同。

  Nervana 加入英特尔时,只有 48 人的团队和一个创意,没有带入任何硬件开发。也就是说,NNP 系列芯片是在进英特尔后三年打磨出来的。

  相比之下,Habana 的“嫁妆”就很丰厚,约有 150 名员工,AI 训练芯片 Gaudi 和 AI 推理芯片 Goya 都以问世,性能在业界非常领先,并且已经被一些超大规模数据中心客户使用,在业界收获一片赞誉。

  Habana 的 Gaudi 支持远程直接内存访问(RDMA),对于跨网络共享数据或跨加速器结构共享数据,能提供过去芯片无法实现的可扩展能力,并且更加经济实惠又高效。

  而 NVIDIA 意图以 69 亿美元高价收购的以色列创企 Mellanox,其核心技术正是 RDMA。

  两家创企被收购后的归宿也不同。尽管 Habana 是比 Nervana 晚来三年的“后辈”,但 Habana 并没有被收编由 Nervana 创始人 Naveen Rao 掌管的英特尔人工智能产品事业部,而是将作为一个独立的业务部分,直接向英特尔数据中心平台事业部报告。

  显然,Habana 已经在抢走英特尔戴在 Nervana 头顶的光环,接下来就要看英特尔如何同时保持这两个如此相似的产品线的生命力。

  06

  四类芯片如何选型?

  我们曾问英特尔人工智能事业部副总裁辛周妍,能否提供不同类型协处理器的选型建议?


英特尔人工智能事业部副总裁兼英特尔人工智能平台与市场研究总经理 Julie Choi(辛周妍)

  据她介绍,没有哪一个 AI 硬件产品可以包打天下,英特尔会根据实际需求,和客户一起去研究最佳选择。

  FPGA 较擅长要求低延迟高通量的推理运算,选择这一基础架构的客户通常看重 FPGA 的可编程性,希望能对硬件进行配置。例如微软就基于 FPGA 进行了大量的深度学习推理。

  NNP-I、NNP-T 主要面向超大规模的云服务提供商,Facebook 即选择采用 NNP-I 部署更快、更高效的推理计算,并将他们对先进深度学习编译器 Glow 的支持扩展到 NNP-I。

  而独立 GPU 在开发早期目标应用于高性能计算的超算领域,也用在面向大型客户的 AI 领域。

  在她看来,NNP-T 和英特尔独立 GPU 推出后,将给市场带来更多针对高密度神经网络训练的替代选择。

  07

  结语:AI 正成为英特尔数据中心业务的核心

  纵观当前 AI 市场,英特尔 CPU 在推理市场拥有较高话语权,FPGA 的新品牌和生态也在顺利铺陈中,但竞争对手已呈现有力的追击姿态,英特尔的神经还需持续紧绷。

  尽管最新财报成绩再度证明了英特尔在 PC 和服务器芯片市场的掌舵实力,但就目前蓬勃发展的数据中心 AI 市场来看,英特尔在 AI 训练领域还没有展现出威胁力的攻势,这就要看其独立 GPU、Nervana NNP-T 以及 Habana Goya 未来能否赢得客户的信心。

  此次我们所重点讨论的四类架构,只是英特尔投入加速 AI 发展的六大战略之一。

  据司睿博透露,英特尔将加快 10nm+ 的生产速度,7nm 的生产计划将在 2021 年进行,并且英特尔已开始在研究其 5nm 制程技术。

  此外英特尔支持异构融合的先进封装技术、开放合作联盟 CXL、加速多芯片通信互连的 EMIB 技术、深度挖掘硬件性能和能效的软件堆栈、简化编程的跨架构统一软件平台 oneAPI、以及在安全、内存及存储技术上的革新,都在为 AI 工作负载效率、可编程性和可扩展性的提升保驾护航。

  数据中心 AI 芯片玩家们正在兵分两路,一拨倾向于兵分两路的通用型跨行业解决方案,另一拨则重点专攻某一特定领域的数据中心或边缘推理。

  英特尔已经非常坚定地持续在广度和深度上同时加大火力,既提供全面的硬件和软件选择,又着力确保各独立产品线性能足够高,未来随着 AI 模型变得更为复杂和通用,英特尔的系统集成战略也许会迎来厚积薄发的时刻。

来自:
芯东西(ID:aichip001)

作者:Johnson
原创文章,版权所有,转载请保留原文链接。