Fork me on GitHub

基于OpenStack Rocky的最大规模单一集群实践,浪潮云海如何做到?

  近日,浪潮云海 InCloud OpenStack 5.6(ICOS 5.6)完成单一集群规模达 500 节点的测试,这是目前已知的基于 OpenStack Rocky 版本的全球最大规模单一集群实践。

  Rocky 版本发布于一年前,是目前最新的社区稳定版本。资料显示,OpenStack 开源版本部署达到 200 个节点时性能会出现明显下降,达到 500 节点时其可用性难以保障,能否支撑企业的“大云”需求,一直是业界关注的焦点。因此,浪潮发起了此次基于 OpenStack Rocky 版本的大规模集群实践。

  从小云到大云的需求演变

  OpenStack 是当前最流行的云架构开源项目,逐渐成为高速发展企业和成熟企业 IT 基础架构的首选解决方案。IDC 发布的《2018 年 SDC 市场报告》显示,政府、通信和媒体、金融占据 2018 年国内 OpenStack 市场收入前三位,占整体市场份额 67%。

  随着 IT 基础设施持续云化,“大云”需求涌现。在大型用户的 OpenStack 实践中,普遍面临的问题是随着内外部用户数量的增长,单一应用和服务的规模变得愈发庞大,可能需要同时部署数百甚至数千台虚拟机。

  如果使用多个小规模集群构建云平台,应用和服务的跨集群部署、管理、升级会变得异常困难甚至无法实现,因此对单一集群的规模产生了更强烈的需求。

基于 OpenStack Rocky 版本的全球最大规模单一集群实践,浪潮云海如何做到?
浪潮集团副总裁张东

  浪潮集团副总裁张东介绍道,“企业规模扩张到一定程度,经常会出现业务动态变化,很多大规模的应用存在强烈的互联互通互操作的需求,目前的小集群并不能很好支撑,这也是浪潮做单集群 500 节点测试的初衷。”

  大规模集群的挑战

  “云”本身就意味着大规模部署能力。服务器集群将很多服务器集中起来,通过软件或硬件连接,协作完成同一个任务。集群可以利用多台服务器进行并行计算,在客户端看来就像是只有一台服务器,集群中的单台服务器即节点,随着服务器集群节点数量的扩张,管理的复杂性与难度也随之增大。

  浪潮云海此次完成的单一集群 500 节点测试中,主要挑战集中在四方面:LCM(生命周期管理)是否足够高效;平台运行是否稳定可靠;数据面/控制面能否满足 SLA;监控运维系统是否准确易用。

  本次测试重点围绕在大规模单一集群云环境下,ICOS 5.6 在高可用、高性能和高效率方面的表现。测试结果显示,在高密度、高并发环境测试中,在系统已有 20000 虚拟机负载情况下,成功完成负载 60% 环境下的 1000 并发虚拟机创建,空载环境下 2000 并发虚拟机创建。

  在高可用方面,测试模拟了整机柜断电这种现实场景中较为严重的情况,在单个机柜负载 180 虚拟机环境下,实现了 5 分钟内疏散完毕,访问恢复正常。

  测试还结合客户实际应用场景中反馈的对网络低延迟、低抖动的要求,专门从硬件层、操作系统层到 ICOS 层做了全栈的优化,最终实现了 48 小时内时延测试超时率小于 10-7,组播丢包率为0,满足对实时通信有苛刻要求的用户需求。

  不同于此前其他厂商测试,浪潮本次大规模测试是在中国信通院的见证下进行,实践结果还将以白皮书形式输出。

  张东认为,单一集群规模提升能够实现更高、更灵活的工作负载,提升云平台的伸缩性并显著降低管理复杂度。通过在 OpenStack 单一集群部署规模上的不断突破,能够欧帮助大型企业用户构建简单、高速、可扩展的开源云基础设施,以支撑快速、灵活和大规模的业务创新与部署。

  云数据中心操作系统的演化

  云计算的发展进入一个相对平静的时期,很多创新还处在酝酿之中,张东预判,未来资源的多样性会比现在更加明显,容器将是一个趋势。“估计五年之内,有可能跑容器的机器数量与跑虚拟机的机器数量相当。这个过程不会特别快,但趋势是挡不住的”,张东表示。

  计算的发展没有需求发展快,还只能在现有计算机体系结构上“折腾”,不断有新的部件比如 FPGA、GPU 出现,这个体系结构不仅仅是在硬件和软件层,在云的这一层也有体现。

  张东补充道,“云真的像操作系统一样,在未来一台裸机上一定带虚拟层,上面用一个云管平台,不管是 OpenStack、K8S,还是融合在一起的资源调度平台,下面的硬件资源多种多样。云的未来,我们认为就是朝着完全替代现在的操作系统的趋势发展。”

来自:
雷锋网

作者:Johnson
原创文章,版权所有,转载请保留原文链接。