作者:王利莹
Search、Chrome、Android、YouTube、Gmail、Google Play、Maps、Drive、Photos,这些应用与图标我们再熟悉不过了,Google 这 9 个产品的用户量每个都超过 10 亿,而支撑 10 亿量级的数据处理与用户服务,这得益于 Google 强大的面向未来的全球基础架构和服务能力。Google Cloud 为客户提供了强大的 Google 基础设施服务,海量数据分析与处理、云上数据存储与安全保证以及 AI 赋能等能力。
这些能力正在通过 Google Cloud 向企业及开发者们开放,有了 10 亿 + 用户体量的应用服务检验,不仅是 Google 的系列产品,面向企业拓展海外市场的需求, Google Cloud 也正是用这些硬技术保证出海无忧。
中国企业出海风潮已久,互联网技术浪潮下,游戏、电商、视频直播等企业海外布局加速,产品快速且高质量迭代升级的重要性亦是不言而喻,对云服务有高需求的出海企业来说,如何选择全球扩展的技术架构?如何把应用快速部署在不同的地区?如何在海外构建一个全面的大数据分析平台以运营海外业务发展带来的大量数据?如何让机器学习、人工智能技术更好地与海外业务场景结合?这些都是需要考虑的因素。
而 Google Cloud 所提供的能力正是为企业所需:
- 全球分布的基础架构
- 开放和多云
- 数据洞察与数据服务
- AI 和机器学习能力
在企业技术架构层面,需要满足全球可扩展、高性能的特点,使得用户可以快速跟企业建立联系,同时还要满足不同国家、地区和行业的基础架构合规要求。Google Cloud 中国工程师团队负责人连冠华对此提到:
“Google 在构建整个基础设施安全架构时遵循零信任的原则,从芯片、服务器、OS、存储到制冷都是定制化的,这带来两个好处:第一、出现任何问题我们可以及时修复,而不需要等第三方或者中间商;第二、定制化的组件都是由 Google 按照特定目标进行构建的,移除了不必要的服务和部件,进一步加固以降低被攻击的可能性。同时我们在全球不同国家、地区、行业获得广泛的合规认证,以降低企业在海外部署的业务风险。”
在应用开发设计上,越来越多的企业将自己基于虚拟机的单体架构转向以容器为基础的微服务架构,并使用 Google 开源的 Kubernetes 进行大规模容器集群管理,加速应用程序现代化,并且逐步采用多云和混合云作为自己的 IT 策略。Google Cloud 在今年的 Next 大会上推出了基于 Kubernetes 的混合云和多云平台 Anthos,可以对 Google Cloud 上的 GKE,其他云厂商的 Kubernetes 集群,用户数据中心的 Kubernetes 集群进行统一的部署管理,安全策略管理和配置管理等,并且提供服务网格 Istio,无服务器计算 Knative 等功能,全部基于开源软件实现,不用担心厂商锁定,真正实现一次开发到处部署的灵活开放的多云和混合云平台!
面对海外服务带来的增长数据处理需求,Google 认为对于数据分析人员只需要运行查询机制,剩下所有事情就交给后台的 Cloud 做。其推出 BigQuery 大数据平台,是全托管的企业级别数据仓库,可进行秒级分析结果,并且整个架构是无服务器架构,不需要担心底层参数调优,资源的分配以及非常多维护工作。
还有上面提到的如何让机器学习技术与业务结合,对于 Google Cloud 来讲,就是把人工智能技术变成人人可用的技术,所有 Google 的产品都应用了机器学习来提升用户的体验,Google Cloud 整个 AI 平台针对不同的用户群体也推出了不同的服务,比如底层基础架构计算平台 GPU/CPU/TPU,使用神经网络架构搜索等技术的 AutoML,以及 Cloud NLP, Cloud Vision 等服务满足不同用户不同业务场景的需要。
通过云平台的多种多样化的服务以及更多基础的底层的能力,Google Cloud 让出海企业“拿来即用”,节省开发运营成本,同时保证高性能及安全。
上周 Arch Summit 全球架构师峰会 Google Cloud 技术专场上,Google Cloud 工程师丁成银分享了 GCP 全球基础设施与服务特色 ,如何保证中国企业出海无忧。从基础设施的层面更加细致地分析了 Google Cloud 的优势,以下内容主要来自丁成银的分享。
基础架构层面——网络、计算、存储、安全
“从 2016 年到 2018 年,Google 投入在资本支出项目的金额超过 470 亿 美金。其中就包含了 Google 在云数据中心和全球网络方面的建设支出。”丁成银提到。
让数字来展示,Google Cloud 的基础架构建设:
Google Cloud 在全球运营的云服务的区域总共有 20 个,另外有 5 个新的云服务区域将在明年陆续上线,最快在亚太的首尔区域,以及印度尼西亚的雅加达区域。
Google 是全球第一家非电信运营商企业自己独立承担构建海缆任务的公司。目前为止它在全球有投资或者独资拥有的海缆条数 14 条,这些海缆总共长度是 112000 公里。
遍布全球 134 个网络边缘节点,接入全球访问。
网络部分,VPC(虚拟专有云)、负载均衡、CDN、专线互联、域名解析这些大多数云都会有,体现 Google 特色的则是:全局 VPC、全局负载均衡服务、灵活的网络服务层次、BBR 算法及 QUIC 协议,这些都是 Google 不断追求低延迟和高吞吐所做的创新,这些创新正在通过 Google Cloud 服务内建的能力开放。
全局 VPC 指的是 Google 一个 VPC 可以辐射全球 20 个机房,一个子网可同时覆盖整个区域的多个地区。同时具有一点接入,全球访问的特点,Google Cloud 有 134 个边缘节点,任何一个边缘节点拿一条专线接入 Google 骨干网可以通过这一个点访问 Google 全球 20 个区域的网络,更加能节省硬件投资。
在 Google Cloud,所有的用户跟 Google Cloud 流量交互方式就是,用户就近通过离他最近的边缘节点进入 Google 网络,一路通过 Google 的全球骨干网络到达他的目的地。这样做给用户带来的好处是网络质量高,而不是受限于互联网本身的质量。
Google Cloud 的负载均衡服务不仅仅运行在 20 个区域中,而是运行在遍布全球 134 个边缘节点。丁成银提到 “无论用户是在北美加州,纽约,欧洲,还是新加坡,当他访问 Google Cloud 的全球负载均衡的时候,他都是就近访问离他最近的边缘节点所运行的负载均衡服务,由那个点负载均衡服务把客户请求调度到最合适的后端去。”
另外,Google 的全球负载均衡对外提供服务的时候,每一个用户可以通过一个 Anycast IP 接入到它的全球负载均衡里面去。保证每一个用户每一个负载均衡都能用到 Google 全球 134 个边缘节点所有的容量。带来天然的好处就是防 DDoS 能力非常强,因为 Google Cloud 本身网络带宽非常大。其次用户来的请求天然分散在全球的边缘节点里面。
Google Cloud 的全局负载均衡的内部实现有什么秘密呢?
实际上 Google Cloud 边缘节点可以分成两级,一级是 134 个离用户最近的边缘节点,一级 POP 点根据全局的状态把用户的请求转发到对应的二级边缘节点,再转发到客户的后端虚拟机或者容器。这是 Google 全局负载均衡底层的实现过程。
这些边缘节点也连接着全球绝大多数的 ISP,例如中国电信、中国联通等用户网络。另外边缘节点里面除了运行着负载均衡服务,也包含边缘缓存,把需要缓存的内容缓存在离用户最近的地方,提供高质量的 CDN 服务。
在这些边缘节点里面同时运行着 Google 的专线接入服务。如果一个企业需要构建混合或者跨国网络,只要选择离他最近的 Google POP 点就可以通过 Google 边缘节点连接到 Google 网络里面。
除了网络本身优势,Google 在软件创新方面也有投入。
1、BBR 算法,帮助用户提升网络吞吐,传统的 TCP 的拥塞控制算法,在遇到网络丢包的时候就默认网络拥塞了,BBR 算法改变了这种假设,只对真实拥塞做出反馈,寻找链路最佳吞吐速率和最低的延迟。
2、网络传输协议的制定,QUIC 是 Google 制定的一种基于 UDP 的低时延的互联网传输层协议。整个协议栈基于 UDP 实现,让内核只负责收发 UDP 包,剩下的连接控制、拥塞控制、包括请求会话的控制、加密、解密等均在用户态实现,这样就能获得极大的灵活性。
计算部分,包含 APP Engine、Compute Engine、Kubernetes Engine、Cloud Functions、Cloud Run 几个部分的能力,多方面满足在云上部署业务的需求。
Compute Engine 可基于 Google 基础架构的大规模虚拟机运行大规模工作负载,支持自定义机型,支持用户自定义自己的 CPU 和内存的比例,一般厂商比例是 1:2、1:4、1:8,在 Google 如果需要 1:1、1:5、1:6,都可以帮助客户或者客户可以自助做自定义。
除了自定义,Google Cloud 专门开发了一套机器学习算法探查用户虚拟机的 CPU 和内存的使用量,给予用户成本节省和性能优化的建议如:应减少内存或者是增加 CPU,以达到最优效果。
GPU 方面,Google Cloud 支持 K80,P100、P4、V100、T4 等各种型号,同时也支持通过 Nvlink、PClex16 等能力提升分布式机器学习的算力。但是,Google 对于算力的需求远超出用 GPU 所能达到程度。所以 Google 也自研了张量处理单元(TPU),这是 Google 自己设计、自己定制、自己开发针对机器学习专用的加速器,
“在单个 TPU 的强大算力基之上,我们可以把 1024 个 TPU 通过高速互联组成 TPU Pod 帮助用户做分布式机器学习运算。作为对比,用 GPU 训练需要一个星期才能完成的事情,在这样一个 TPU Pod 上只需要 76 秒就能完成同样的训练。”丁成银说。
GCE 最有特色的地方是实时迁移能力。当虚拟机运行物理机上,如果这台物理机需要给内核打补丁或者做硬件维护,可以在用户不停机、不用关机开机操作,用户业务不受影响情况下可以完成迁移的动作。Google Cloud 在 2015 年已经开始支持实时迁移功能。
丁成银提到:“根据我们当时的统计,实时迁移在整个迁移过程中,绝大部分用户的 blackout 时长少于 300 毫秒,正常情况下只有 50 毫秒,50 毫秒对于绝大部分客户来讲是无感知的。”
存储部分,包含 Cloud Storage、Cloud Filestore、Persistent disks、Cloud SQL 等能力。
在这部分,Google Cloud 的特色是什么呢?以 Persistent disk 云盘举例,具有支持一盘多挂,支持跨 Zone 镜像,在线扩容的特点。
云盘正在服务器使用的情况下,不需要关机可以进行云盘操作。跨区域镜像类似同城容灾的概念:一台服务器挂的盘,每一个数据可跨 Zone 同步复制到另外一个 Zone,如果这个 Zone 因为某种原因不可用,支持无缝切换另外一个 Zone,达到非常好的同城容灾的效果。
“另外,Cloud Storage 对象存储,除了支持普通的存储,还支持双区域和多区域。相比其他云的对象存储只能局限在一个 Region 里面,Google Cloud 可以放在多个 Region 里面,达到地理容灾的优势,这是我们的特色。”丁成银表示。
安全是云计算第一要务,没有安全就没有其他的一切。Google Cloud 从硬件最底层到 Boot 启动,网络、存储、运维以及使用各个层面都有健全的安全体系,除了获得各个国家和地区认证以外,Google Cloud 安全最大保障是顶尖的安全专家。
心脏流血(Heartbleed)、幽灵(Spectre)、熔断(Meltdown),三大世界范围的网络安全漏洞,让 IT 行业的开发人员们焦头烂额。
心脏流血(Heartbleed),它可从特定服务器上随机获取 64k 的工作日志,由于一台服务器的密钥也记录在其工作日志中,并且在大量数据中可被轻易辨别,大量敏感数据可能泄露,攻击者甚至可以破解被加密的以往流量日志。而这一安全漏洞是由 Google 工程师 NeelMehta 发现的。
幽灵(Spectre)、熔断(Meltdown)是著名的 CPU 漏洞,从个人电脑、服务器,到移动端的智能手机,都受到这两组硬件漏洞的影响。它们的发现者是 Google Project Zero。2014 年 7 月,Google 宣布了 Project Zero 计划,它由一组安全研究人员负责,唯一的目标就是追踪和修复漏洞,维护所有互联网用户的安全。
丁成银表明:“顶尖的安全专家为 Google 业务及 Google Cloud 客户保驾护航,Google Cloud 跟 Google 共享同一个云的体系。这个是 Google Cloud 安全的一个最大的保障。”
从基础设施层面上,Google Cloud 有全球网络、海量数据大吞吐的计算能力、数据库存储跨地理容灾能力、多层面的安全体系与安全专家等为企业出海保驾护航。
分享嘉宾
连冠华,Google Cloud 中国区客户工程师经理,负责 Google Cloud 中国 Customer Engineer 团队,帮助中国客户利用 Google 云技术快速出海,走向世界。连冠华具有多年产品研发,云计算架构设计,大数据和机器学习咨询服务经验,在加入 Google 之前,连冠华曾就职于 Microsoft,VMware,HP 等公司。
丁成银,Google Cloud Platform 工程师,负责大中华区客户的基于 Google Cloud 方案、架构的咨询,致力于 GCP 云服务在国内的应用和推广。在加入 Google 之前,丁成银曾任职于华为、腾讯云、Amazon Web Servies 等公司。
来自:
InfoQ