除了 Intel、AMD,宝岛台湾的威盛也会造 x86 处理器的,不知道还有多少人知道?最近,威盛旗下已有 24 年历史的处理器研发部门 CenTaur 开发出了世界上第一个集成 AI 协处理器的 x86 处理器,并有了可工作的原型,今年 9 月份开始芯片测试。
新处理器采用台积电 16nm 工艺制造,内核面积不超过 195 平方毫米,内部采用环形总线设计,串联集成八个 x86 CPU 核心、16MB 共享三级缓存、四通道 DDR4-3200 内存控制器、PCIe 3.0 控制器(44 条)、南桥和 IO 功能,是一颗完整的 SoC。
最大亮点是 AI 协处理器“NCORE”,占用面积约 34.4 平方毫米(17.6%),软件映射为 PCI 设备,支持 DNN 深度神经网络创建与训练的加速,号称可提供多达 20TB/s的内存带宽、每秒 20 万亿次 AI 操作的性能。
主频可以工作在 2.5GHz,而且竟然支持 AVX-512 指令集,这可是 AMD Zen 2 架构都没有的。
CHA 处理器内核图
CHA 处理器模块简图
著名芯片杂志《Microprocessor Report》发热主编 Linley Gwennap 对这颗全新设计的 x86 处理器不吝溢美之词:“Centaur 高调重返 x86 市场,带来了革新的处理器设计,整个八个高性能 CPU 核心、一个定制深度学习加速器(DLA)。这是业界第一个集成 DLA 的服务器处理器设计。新的加速器 NCore 的神经网络性能甚至比最强大的至强还要好,而且不需要昂贵的外部 GPU 计算卡辅助。”
Centaur 的全新 x86 微架构叫做“CNS”,设计目标是 IPC 要高于传统 PC 处理器,每时钟周期可解码 4 条 x86 指令,并行执行 10 个微操,首颗处理器暂命名“CHA”,其中 AI 协处理器 INT8 整数的峰值性能高达 20TOPS (20 万亿次操作每秒)。
CNS 微架构图
NCore AI 协处理器架构图
Linley Group 基于权威的 MLPerf 性能测试来衡量 x86 处理器的 AI 性能,结果发现Centaur CHA 处理器的 AI 推理性能,相当于 23 个世界级的 Intel x86 核心,而且后者必须是支持 512 位的 VNNI 矢量神经网络指令才行。——事实上,Intel 现在还没有真正的 32 核心产品。
Centaur AI 协处理器的架构设计类似 VNNI 指令的 SIMD (单指令多数据)理念,但是在 16MB 专用内存、20TB/s带宽的支持下,每个时钟周期可以处理 32768 个数据位,而且将推理处理交给专门的 AI 协处理器后,x86 核心就可以放心执行其他通用任务。
Centaur 还为开发者提供了新的算法,可充分利用 Centaru AI 协处理器无与伦比的超低推理延迟,并与 x86 CPU 核心密切配合。
在纽约州举办的 ISC East 大会上,Centaur 还首次公开展示了 CHA 处理器,而且除了视频分析、实时物体检测和分类等传统 AI 应用之外,还唯一秀了一把语义分割(像素级图像分类)、人体姿态估计(简笔画)等前沿应用,让人大开眼界。
目前,Centaur 正在改进优化新平台的硬件性能、软件效率,而新处理器预计明年下半年正式投产。
不同 CPU 架构的对比
威盛的 x86 架构其实已经授权(其实还不止于此)给内地,兆芯处理器就是这么来的。
今年 6 月份,上海兆芯正式发布了 KX-6000 系列国产 X86 处理器,基于 16nm 工艺,是国内首款主频达到 3.0GHz 的国产通用处理器,且支持双通道 DDR4-3200 内存。
新一代兆芯国产通用处理器采用 SoC 设计,芯片集成度进一步增强,性能提升 50%,性能功耗比是兆芯上一代产品的 3 倍,能够带来更具效率的交互体验,同时凭借性能和功耗方面的优化,开先 KX-6000 系列处理器可更好的满足移动平台设备的配置需要。
在实际测试中,8 核的 KX-6000 处理器整体性能对标 Intel 7 代酷睿 i5。《微型计算机》对上一代 28nm 8 核 KX-5000 的测试发现(Fritz 国际象棋、7zip 和 CineBench),看齐了 i3-6100。
从这个对比也可以看出来,国产 X86 处理器在单核性能上依然有很大的差距,换句话说就是 IPC 性能不够,这跟多方面因素有关,架构设计、国产工艺、编译器/软件优化等等都会影响性能,只能靠不断迭代升级架构来解决。
在 KX 系列上,上海兆芯之前公布了 KX CPU 路线图,KX-6000 之后是 KX-7000,将全面升级 CPU 架构,支持 DDR5 内存及 PCIe 4.0。
根据兆芯总工王惟林的介绍称,KX-7000 的性能目标是,将达到同期 AMD 的水平,所以他们对标的 CPU 至少是 Zen2 级别的。
这个消息公布之后,很多人觉得兆芯在吹牛,不过现在的测试证明了兆芯的目标还是有希望完成的。
在 GK 数据库中,本月初有兆芯新一代 8 核处理器的测试结果曝光,它被认为是 KX-7000 处理器,不过目前还是早期阶段,核心频率只有 2.0GHz,单核得分 469 分,多核 3264 分,这个成绩在最新的九代酷睿、7nm 锐龙面前是弱的,其中 8 核的酷睿 i7-9700K、锐龙 7 3700X 单核分别是 1316、1266 分。
但是别忘了AMD、Intel 的处理器单核频率普遍达到了 4.5-4.9GHz,比 2GHz 的 KX-7000,算下来的平均到 2GHz,KX-7000 的 IPC 性能差不多能达到酷睿、锐龙 7 的 80-90% 了,这已经是非常了不起的成绩了。
不过实际表现的话,由于国内团队在开发经验、制程工艺方面依然有较大差距,KX-7000 处理器最终的频率是没可能达到 AMD 或者 Intel 那个级别的,目前 16nm 工艺下做到了 3GHz,KX-7000 处理器的工艺一直没有公开信息,7nm 可能性比较大,即便如此频率估计能上到 4GHz 也是不错了。
如果是 7nm 工艺加持下能做到 8 核 4.0GHz,那么兆芯的 KX-7000 在政府、企业及工业领域中已经可以成为主力了,这样的性能足够替代 AMD/Intel 的 X86 处理器,尽管一两年后差距还会拉大,但对这些领域来说问题不大。
总之,如果 GK 的测试信息是真的,那么国产 X86 处理器确实是取得了不菲的进步,当然在 IPC 性能、超线程、工艺改良、生态优化方面还有很多路要做,但 IPC 性能接近顶级水平足以证明兆芯在这方面还是下足了功夫的。
说到国产处理器,不能不提龙芯——不是汉芯!不是汉芯!不是汉芯!
龙芯中科官方宣布,将于 12 月 24 日在国家会议中心召开龙芯中科 2019 产品发布暨用户大会,推出龙芯新一代处理器架构产品。
官方表示,本次大会可以深度参与龙芯产品的技术应用研讨、体验基于龙芯平台的最新产品、解决方案及应用案例、与行业领袖、技术专家、合作伙伴、业界权威媒体机构探讨热点问题、了解自主创新信息化生态发展趋势。
如无意外,此次发布的全新架构处理器产品应该是龙芯 3A4000 处理器,此前有资料显示它依然是 28nm 工艺,频率从龙芯 3A3000 的 1.5GHz 提升到了 2.0GHz,架构升级为 GS464V,搭配的芯片组也升级到了龙芯 7A2000,28nm 工艺。
不过尽管工艺未变,但有消息称,龙芯 3A4000 单靠提高设计能力就能达到同主频下性能提升一倍,这让人不禁期待龙芯未来升级制程工艺后所能到达的高度。