阿里云moc卡自研加速卡是一种

疫情的肆虐,原本该回归各大校园的师生们涌入线上,突如其来的流量洪峰给在线教育行业带来了极大挑战。长期服务教育企业的百家云也不例外。作为一家致力于为教育机构提供一站式云课堂解决方案的企业,疫情期间,百家云接到来自多家教育机构搭建在线云课堂的需求。同时,原来以线下为主的教育机构,流量瞬间转到了线上。为了响应教育部门停课不停学的号召,帮助学生老师们开学,百家云全体员工缩短了假期,从大年初二开始在家办公,初七开始全员办公。

短时间内爆发式的需求,对于每一家教育企业而都是始料未及的。据百家云CEO李钢江透露,百家云的业务量短时间内增长了数十倍。如此迅速的扩容需要,还要在客户无感知的情况下完成,比交付一个新系统难度更大。不幸中的万幸是,百家云团队对敏捷架构的探索让他们在如此高并发场景上早有准备。这场战役之前,百家云已在阿里云团队的帮助下,优化自身容器集群架构与规划,通过以阿里云容器服务ACK、弹性裸金属(神龙)实例的核心方案,从容实现动态扩容与高效管控。

百家云非常幸运,在这轮爆发之前完成了容器化改造。其他没有使用容器的在线教育企业,面对暴涨的用户,只能成倍堆积机器,导致部署时间拉长,业务成本剧烈升高。

百家云容器化改造历程:

    百家云从2017年诞生之初就是在做直播大班课产品,是行业内拥有最纯正的教育基因的云视频公司。在2018年已经实现了过亿营收,服务了超过1000多家教育企业。

  1. 小班课产品推动容器化改造。

    业务高速增长也在促使百家云技术团队探索自身技术架构的优化。到了2019年,百家云逐步推出小班课产品,该产品的处理方式与大班课不同,需要通过音视频抓屏的方式,将课程录制下来回放。此过程中,还需要将音频与视频进行隔离。用虚拟机级别的隔离成本太高;若跑在统一虚拟机里,各个进程则会互相干扰。百家云团队于是关注到了容器这种更为轻量级的虚拟化技术。

    在2019年上半年,百家云内部就开始尝试小规模对业务进行容器化改造,完成了基本流程的跑通。

  2. 开始注重容器调度与管理。

    Kubernetes),大大减少百家云的工作。百家的技术团队表示,容器减少了运维和测试的工作量;方便了对应用运行环境实现版本控制;且相比虚拟机有着更小计算开销,降低了IT成本。彼时基于容器的云原生大潮已然席卷,基于容器技术的云原生架构,为百家云可能出现的业务峰值做了敏捷弹性的技术储备。

随着容器规模的扩大,百家云的业务稳定性也在逐渐增长,但是疫情期间瞬间来临的洪峰,还是给百家云带来了考验。

潮水袭来,百家云的问题很直接:扩容。借助阿里云“容器+神龙”,三天内实现了数十倍扩容。

疫情是全国共同的敌人。业务持续稳定增长的百家云,未曾料想到新禧之年将面临这样一场“战役”,原来容器集群的许多配置没有按大规模集群去规划,导致单个集群可容纳的节点受限,原来使用的小规格实例也限制了单个节点的容量。针对百家云的扩容问题,阿里云团队建议百家云选用大规格的弹性裸金属服务器(神龙)。根据百家云的应用负载特点,结合容器服务管控合适规格的弹性裸金属实例来优化成本、避免浪费,提升弹性供给保障。

  • 阿里云弹性裸金属服务器(神龙)服务器的规格较高,可以帮助百家云显著提升单个节点的容量。

    更重要的是,百家云的K8S集群对性能要求极高。神龙服务器的性能优势明显, “容器+弹性裸金属(神龙)”的解决方案非常契合百家云大流量、高并发的场景。基于容器化构建方式,可以满足业务快速发放和弹性的要求。神龙服务器完全消除了虚拟化损耗,提升了8%的计算性能,其类物理机特性,可进行二次虚拟化。

  • 神龙的性能,加上容器的弹性,形成了天作之合。

    数据显示,容器运行在云上神龙反而比非云物理机的性能要好10%-15%。主要是因为虚拟化开销已经offload到MOC卡上,神龙的CPU/Mem是无虚拟化开销的,而上云后运行在神龙上的每个容器都独享ENI弹性网卡,能提升13%的网络吞吐量。

  • 神龙服务器的存储带宽和计算带宽分离,能满足百家云业务场景的大量读写需求。

    使用神龙服务器之后,计算能力大增,但是同时也遇到了存储I/O性能瓶颈的问题。百家云通过使用阿里云的高性能NAS服务,并通过水平扩展为4个集群,解决了I/O的瓶颈。

基于以上方案,借助自身的大规模集群管理能力,在短短几天之内,阿里云团队帮助百家云团队有效升级了原有的架构方案,实现了数十倍的扩容,大幅提升了其性能与稳定性,并拥有了应对爆发性规模的能力。

业务架构升级与集群规划方案

面对突增流量压力,如何迅速动态弹性扩容以及高效管控运维成为迫切问题。针对这些问题,百家云优化后的架构如下:

    • 改变原来虚拟化嵌套的形式,百家云利用神龙实现了容器的高密度部署。配合容器的敏捷管理能力,起码节省了25%的成本,降低了80%的运维工作量。
    • 合理规划K8S集群,优化整体架构如网络、存储方案、扩容原则,确保后续运维的稳定性并降低使用成本。

    百家云还使用了阿里云高效运维管理的工具,显著降低了运维工作量。

      由于百家云业务上容器的时间非常紧迫,根本没有多少时间可以花在运维监控上。通过使用ARMS Prometheus,仅仅半小时百家云就实现了容器节点环境的监控。相比开源 Prometheus 监控,ARMS Prometheus的数据量无上限且与阿里云容器服务ACK无缝对接,让百家云在容器里高效快速定位问题,了解如何改善自己的产品。

      阿里云容器平台的日志服务(SLS)里中小应用事件中心,详细展示了集群的状态变更和组件异常等事件,帮助百家云把节点里面日志的异常信息汇总到控制面板,及时告警。

百家云CEO李钢江总结,阿里云带给百家云的价值主要是以下三点:

  • 提供了弹性计算的空间与敏捷安全的扩容能力

    阿里云对应用镜像进行了镜像预热等手段,在扩容时可第一时间拉起容器。基于容器镜像服务ACR 安全托管大规模容器镜像资产,通过细粒度的镜像授权管控,安全快速地对应用镜像进行全生命周期管理。

  • 提供了相对稳定的服务与优异性能

    基于阿里云自研的神龙软硬一体架构,弹性裸金属服务器(神龙)有着物理机的性能和虚拟机的使用体验。通过利用神龙,百家云实现更好地调度K8S集群,加上高性能NAS服务,解决了I/O瓶颈问题。

  • 技术支持团队响应及时,帮助百家云优化架构

    百家云之所以后来面临扩容问题,部分源于其原来业务架构规划未做好管理大规模集群的准备,阿里云帮助了百家云在短时间内优化了业务架构,优化集群的管理能力。阿里云作为全国第一、世界顶尖的云服务商,在IaaS和PaaS层能力强大;百家云在教育SaaS层的积累,可以与阿里云互补,一同以完整的在线教育方案去覆盖市场。双方正在逐步深化合作,百家云将很快上线阿里云云市场——阿里云SaaS加速器的商业平台,即“软件天猫”,后续用户可直接在云市场选购百家云的服务。

  • 容器服务 Kubernetes 版(简称 ACK)提供高性能可伸缩的容器应用管理能力,支持企业级容器化应用的全生命周期管理。整合阿里云虚拟化、存储、网络和安全能力,打造云端最佳容器化应用运行环境。

    更多关于容器服务 ACK的介绍,参见。

  • 弹性裸金属服务器(神龙)

    弹性裸金属服务器(ECS Bare Metal Instance)是一种可弹性伸缩的高性能计算服务,计算性能与传统物理机无差别,具有安全物理隔离的特点,分钟级的交付周期将提供给您实时的业务响应能力,助力您的核心业务飞速成长。

    更挂关于弹性裸金属服务器的介绍,参见。

  • 应用实时监控服务 ARMS

    应用实时监控服务 (Application Real-Time Monitoring Service,简称ARMS)是一款应用性能管理产品,包含前端监控,应用监控和Prometheus监控三大子产品,涵盖了浏览器、小程序、APP、分布式应用和容器环境等性能管理,能帮助您实现全栈式的性能监控和端到端的全链路追踪诊断, 让应用运维从未如此轻松高效。

    更多关于应用实时监控服务 ARMS的介绍,参见。

  • 行业领先的日志大数据解决方案,一站式提供数据收集、清洗、分析、可视化和告警功能。全面提升海量日志处理能力,实时挖掘数据价值,智能助力研发/运维/运营/安全等场景。

    更多关于日志服务的介绍,参见。

从“去 IOE”到虚拟化架构的全面升级,从初涉容器到全面容器化,从支撑双11到疫情期间创下扩容纪录,阿里云原生体系不断演化,形成了庞大的“计算”家族。

十年,阿里云原生重构“计算”,未来十年,阿里巴巴希望真正释放云的红利,让更多的人用上云或理解云,为企业和社会创造更大的价值。

十年前,“IOE”稳坐 IT 架构C位不容置疑;十年后,上云成为大势所趋,无人不识云原生。依托高弹性可扩展、高性价比、高可靠性等优势,云计算颠覆了传统IT 架构成为主流。

对于企业而言,云计算已经成为企业发展的必选项,引用Gartner的说法,“Cloud is not a stragy,it is a tacc”,云计算已经不再是战略问题,而是战术问题。

对于国家而言,云计算是抢占未来信息化制高点的重要的途径和战略制高点,各国针对云计算纷纷出台政策,甚至上升到国防战略高度。

阿里云的“去IOE”主张带动了一批从传统IT架构向互联网架构转型,并逐渐从互联网企业蔓延到传统企业。以阿里云为代表的国产云计算不断追赶,不仅缩短了和国际巨头的差距,还形成了庞大的“计算”家族。

本文通过梳理阿里云原生演技的重要节点,尝试还原阿里云十年“计算”重构史。

阿里云原生演进 VS 云原生行业大事记

2008年-2015年,从“去IOE”到虚拟化架构的全面升级,从初涉容器到全面容器化。

1. 去IOE,建立“飞天”团队

2008年,随着电商发展,淘宝业务激增,阿里巴巴对计算的需求呈现指数级增长,并与业务的增长之间产生了鸿沟。靠当时主流的IOE,IT基础设施将成为业务发展的瓶颈。

在这样的背景下,阿里巴巴提出“去 IOE”,研发自己的技术架构,2008年10月,这个想象中属于中国的云计算系统被团队定名为“飞天”,源自中国神话中的形象,是阿里云计算探索的开始。

I(IBM,服务器提供商,他们提供的服务器俗称“小型机”)

O(Oracle,提供商,他们的是著名的“甲骨文商业数据库”)

E(,存储设备提供商,他们提供的是“集中式存储”)。

从字面义上看,“去IOE”只是换掉传统IT基础架构,而从更深的层次来讲,是驱动了IT基础架构的变革。除此以外,“去IOE”的另一重象征意义在于,自研创新的道路就此开启,后续阿里巴巴的成功让大量中国的服务器、软件平台和应用软件厂商,以及立足自主研发的存储厂商看到了实现跨越式发展的契机。

2. 阿里云成立,陆续推出产品

2009年,阿里云成立。当时的云计算是不太可能使用 VMWare 这样的商业化软件,所以就采用了当时比较流行的开源虚拟化软件 Xen。第二年,阿里云就推出了首个弹性计算产品 ECS。

2009年 阿里云成立

除此之外,阿里云网络产品也开始有了声音,AVS和SLB相继上线。但是,从技术产品上来看,阿里云早期的“计算”家族还是比较单薄的,也存在一些限制,云计算的概念在业界基本处于萌芽阶段,玩家不多。

2011 年开始,各种各样的云开始出现,更强更新的 带来了云上虚拟机计算能力的提升和换代,阿里云的计算产品家族逐渐丰富,接连推出ECS 2.0、ECS 企业级产品家族,从对 Xen 架构研发过渡到KVM 架构,并为 12306

2013 年,淘宝最后一台小型机下线,阿里自研的飞天云操作系统开始支撑集团业务。随后不久,洛神 1.0发布,这是国内首发自研 SDN 系统。

虽然捷报频传,但当时阿里的虚拟化技术,已经满足不了云计算发展的步伐,要做到把自有业务也迁移到云上面来,就必须变革虚拟化技术。

克服云计算“缺陷”,开启云原生时代

1. 降低虚拟化损耗,自研容器技术

虚拟化损耗是云计算自诞生以来就有的缺点。阿里云一直以来都在降低云计算虚拟化的损耗,逼近极致。

2011 年,随着云计算的普及,阿里巴巴走过物理机时代,全面迈向虚拟机,为了缓解巨大的虚拟化损耗,淘宝研发出了阿里第一代容器——T4,容器调度技术开始逐步支撑阿里集团的在线业务,云原生时代开启。

2015 年底,阿里云正式发布了企业级容器服务 ACK,正式对外开放容器技术,整个集团也开始实现全面容器化,推动了整个应用开发,交付和运维方式的变革。

阿里业务逐年爆发,容器规模化后,跑在云服务器上是必然趋势。阿里云的飞天操作系统已经可以成熟调度数万台物理机,但因为虚拟化损耗,容器依然只跑在物理机上,无法享受到上云便利。

为了给容器打造最合适的底座,2016 年双 11 的技术复盘会上,时任阿里巴巴集团 CTO 张建锋提出了极为苛刻的要求——由弹性计算团队打造神龙服务器,将虚拟化损耗降低为0。

从上层的容器到下层的资源底座神龙,如此,阿里便能构建敏捷、高效的业务运行体系。

2. “0”虚拟化开销,自研神龙架构

把虚拟化开销降低到0,这看似是违背能量守定律的,即便在学术界也没有相关研究。最终阿里云想出了新的解决方案——通过专用芯片来解决虚拟化开销。

从技术的实现思路看,研发团队需要重构一套计算架构,通过研发一个新的芯片组来为每个节点提供功能性和管理性的需求支持,在此基础上,再研发出一套新的服务器,和配套的系统软件;然后再将这套技术架构融入到现有的产品设计中去。

软硬协同架构设计的理念已然飘向了云端,体量大的云厂商服务器部署规模达到百万级别,意味着可以定制任何硬件,而云厂商也开始重新审视芯片、硬件和软件的协同创新。要想收获软硬融合的技术红利,重要的前提是可以自定义芯片,自主研发硬件。

2016 年,阿里云开始规划下一代虚拟化技术,也就是神龙,2017 年,神龙架构问世。它真正使用软硬融合、软硬件协同设计的模式,改变了传统虚拟化技术和当前的计算架构不友好的地方。

神龙架构的灵魂:阿里巴巴自研MOC卡

与“神龙”的意义类似,阿里云这一年推出了全球首个云企业网 CEN,引领了业界云上网络互联产品的发展方向。阿里云网络产品大爆发,先后上线了迁移 VPC 方案、VPN 网关、共享流量包、共享带宽、全球加速以及云企业网。

这一年,云网络也迈入了云原生时代,推出云原生 SDWAN,并全面支持 IPv6。

至此,整个阿里云“计算”家族已经相当完善且庞大,并尝试在双 11 中进行应用。

年,阿里云“计算”家族从初涉双 11 到全面支撑,从这场毕业大考中取得优异成绩。

1. 支撑双11,核心系统100%上云

2018 年的双 11,阿里尝试将部分流量用神龙架构来支撑,2019 年,阿里巴巴将核心交易系统全部搬到了云上。这些系统对存储 IO 能力、计算能力、网络延迟等的要求相当于将神龙的能力榨取到极致。双 11 大促如果可行,服务超大型客户也将成为可能。

在 2019 年的这场大考中,整个阿里云“计算”家族顺利毕业,拿下了 2500 亿的交易额,同年发布的洛神 2.0 系统也在这次双 11 中完美首秀。

这一年双 11,集群的规模超过百万容器,单容器集群节点数量过万,数据库的峰值超过54 万笔每秒,对应8700 万查询每秒,而实时计算每秒峰值处理消息超过25 亿条,消息系统 RocketMQ 峰值处理了超过每秒 1.5 亿条消息。

在总结会上,阿里云智能总裁张建锋表示:过去的一天,20 个小时是阿里技术上最经受考验的一次。阿里云承载阿里巴巴 100% 的核心系统,这是我们全球第一个做到的,我们有自己自研的飞天操作系统、神龙架构、云原生的数据库、计算存储分离的架构、全球第一个大规模 R 网络。

经此一役,阿里云“计算”家族的技术能力被广泛认可。然而,突如其来的疫情再次将其拉回备考状态。

2. 疫情突袭,创下扩容纪录

2020 年一场疫情打破了很多人生活的节奏,如果说“双 11”是一场毕业大考,疫情就是一场临时小考。为应对疫情中在线办公和在线教育场景下激增的流量,阿里云迅速帮助钉钉在 2 小时内紧急扩容一万台云服务器,这个数字也创下了阿里云快速扩容的新纪录。

借助自身的大规模集群管理能力,在短短几天之内,阿里云帮助百家云团队有效升级了原有的架构方案,实现了数十倍的扩容,大幅提升了其性能与稳定性,并拥有了应对爆发性规模的能力,用户毫无察觉。

“随着阿里云计算能力不断发增强,我们已经能够一分钟扩容 1000 台虚拟机,弹性容器实例平均启动时间仅为 10 秒。”

这一年,阿里云又迎来了数据湖分析、实时计算、分析等产品基于容器或者 Serverless 服务的方式对外交付,此时已经可以看到 Serverless 成为新的可能。

3. 升级战略,成立云原生技术委员会

2020 年 9 月 18 日,2020 杭州云栖大会上,阿里巴巴正式成立云原生技术委员会,云原生成为阿里技术新战略。在云原生技术委员会成立之后的双 11,双 11 核心系统又实现了全面云原生化。

截至 2020 年,经过 10 多年的技术实践,阿里云已经拥有国内最丰富的云原生产品家族,覆盖 10 多个类别 100 余款产品,涵盖底层基础设施、数据智能、分布式应用等,可以满足不同行业场景的需求,为企业数字创新打造最短路径。

2021年,阿里云将投入20 亿优选合作 10000 家伙伴,共同服务百万客户,加速百行千业实现数字化转型。同时,阿里云还启动了“云原生人才计划”,三年内产教融合进入300 所高校,新增培养100 万云原生开发者。

2020年云栖大会,阿里云原生全景图发布

面向下一个十年的技术储备

随着以 Kubernetes 为代表的云原生技术成为云计算的容器界面,Kubernetes 成为云计算的新一代操作系统。因为屏蔽了服务器的各种运维复杂度,Serverless 让开发人员可以将更多精力用于业务逻辑设计与实现,而逐渐成为云原生主流技术之一。

应用引擎(SAE),对于传统微服务架构应用无需任何修改即可以轻松上云。

此外,阿里云还提供了Serverless容器的产品,比如弹性容器实例 ECI 和 Serverless Kubernetes(ASK),它们提供了标准的Kubernetes界面,不但可以让用户享受到极致的弹性能力,并且是完全免运维的。它们在过去一年有了 9 倍的高速增长。

动态、混合、分布式的云环境将成为新常态

上云已是大势所趋,但对于企业而言,有些业务出于对数据主权、安全隐私的考量,会采用混合云架构。

此外,边缘计算将成为企业云战略的重要组成部分,为应用提供更低网络延迟,更高网络带宽和更低网络成本。我们需要有能力将智能决策、实时处理能力从云延展到边缘和 设备端。随着云平台成为企业数字化转型的创新平台,一个变化随之产生——云正在靠近它们。在分布式云中,公有云的服务能力可以位于不同的物理位置,而公共云平台提供者会负责服务的运维、治理、更新和演变。

云计算的发展推动了整个计算架构的演进,面向数据的芯片层出不穷,计算密度得到了大幅提升,如果将其与 Serverless 结合能够全面提升计算效率和资源利用率;过去,我们已经经历了 CPU 和存储资源的池化,如今我们可以看到越来越多的 资源池化,开发者可以按需创建弹性的 GPU,大幅降低 的计算成本,资源池化使得整个计算能力的弹性进一步增强,可以让 Serverless 计算场景覆盖更多的领域。

此外,Serverless 也在全面推动软硬一体化的进一步升级。阿里云“计算”家族的整体性价比不断提升,企业用云的成本逐步下降,底层硬件对上层应用的支持越来越强,可以理解为下一代神龙是以应用为中心的,对上层的函数计算等应用的支持将越来越好,效率提升的同时大幅降低成本。

无处不在的计算催生新一代容器实现

针对不同计算场景,容器运行时会有不同需求。KataContainer、Firecracker、gVisor、Unikernel 等新的容器运行时技术层出不穷,分别解决安全隔离性、执行效率和通用性三个不同维度的要求。OCI(Open Container Initiative)标准的出现,使不同技术采用一致的方式进行容器生命周期管理,进一步促进了容器引擎技术的持续创新。

从无到有、从有到多、从多到精,在中国还没有自己的云计算的时候,有人选择了这条无人小径,走的人多了,它便成为了通往未来的通天大道。

云原生还会有更多的创新,有更多的产品技术。从企业客户和开发者角度,云原生是云计算释放红利的最短路径,是企业数字化的最短路径。

而在云原生时代,云计算会持续地向前演进。未来十年,阿里巴巴希望真正释放云的红利,让更多的人用上云或理解云,降低IT 开发或研发门槛,通过开发者的手为企业和社会创造更大的价值。

原文标题:数智洞察丨阿里云原生十年演进史

文章出处:【微信公众号:工业4俱乐部】欢迎添加关注!文章转载请注明出处。

我要回帖

更多关于 阿里云盘真的不限速吗 的文章

 

随机推荐