阿里外包平台云电商平台运维外包哪家好

满足您的个性化需求,我们更懂您!
提交需求,快速获取方案
筛选最优质的3家服务商供您选择
监管全程透明,不满意全额退款
满足您的个性化需求,我们更懂您!
提交需求,快速获取方案
筛选最优质的3家服务商供您选择
监管全程透明,不满意全额退款
云市场官方售前客服
官方售前5*8客服电话中国领先的IT技术网站
51CTO旗下网站
专访刘毅:阿里巴巴云计算平台运维故障分析与排查
任何计算机系统都有出现故障的时候,这也是系统管理员或者运维工作者最担心的事情。如何做到快速定位故障问题,合理分析故障成因,找出排查方案是管理者们需要了解的事情。在阿里巴巴集团主办的ADC?阿里技术嘉年华大会上,51CTO记者有幸采访到了从事阿里集团云计算平台的一线运维刘毅,看看他是怎么做到的吧。
作者:黄丹来源:| 21:44
【51CTO原创稿件】任何计算机系统都有出现故障的时候,小到一个终端的软件无法使用,大到整个系统瘫痪,所有业务不能办理。这也是系统管理员或者运维工作者最担心的事情。如何做到快速定位故障问题,合理分析故障成因,找出排查方案是管理者们需要了解的事情。在大会上,51CTO记者有幸采访到了从事阿里集团云计算平台的一线运维刘毅(),看看他是怎么做到的吧。
以下是采访实录:
不同平台运维工作的对比
51CTO:刘毅你好,首先请大概介绍一下你自己的经历和现在的工作职责。
刘毅:我之前在eBay COC负责UNIX,离开COC之后,2010年加入阿里集团,其实最开始招我进来的是阿里云,集团的云计算平台也是刚刚开始,差不多三年,我就伴随着云计算平台逐步成长,在一线参与了集团云计算平台一线。
51CTO:所以你主要关注的一些领域就是云计算相关的?两家公司的工作模式和工作职责相差大吗?
刘毅:区别还是比较大的,在eBay负责运维的是成熟的应用,整个应用架构是全冗余的,高可用性,并且较多的使用商用解决方案,而且他们在商用解决方面的预算是不菲的,相对来说,运维对底层的稳定性会依赖于厂商支持,商用负载均衡设备的广泛使用也不会因为单台的服务器不可用而给我们运维造成困扰。
第一次接触到云计算平台运维的时候,我感觉一下回到了石器时代。大概意思是运维环境非常恶劣,每天有个两三台服务器宕机是再正常不过的事情。没有存储,没有带库,数据都是存放在本地硬盘,每块硬盘上的数据随时都可能丢失,数据的冗余全靠云平台自身解决。这就苦逼我们运维了,我们要帮助云平台去解决各式各样的问题,它解决数据冗余的问题,并不意味着机器不用恢复,硬盘不用替换,紧急情况不用处理了。前3个月,最的最多的就是重复劳动,感觉没有价值,简直是劳动密集型产业。怎么办?我们需要工具,自动化工具来帮助我们摆脱重复劳动,shell、perl、python,只要能提高效率的,我们不区分工具语言,不过还是Python使用的最广泛。渐渐的从命令行自动化做到web自动化,点点鼠标完成5000台服务集群的停起,升级、查看状态信息等工作。感觉很完美了?还没有,这些仅仅是表面的改善,我们现在期望从运维着的这些上十万台服务器,每天产生的硬件日志、系统日志、应用日志之间,在这些庞大的数据里,就像挖金矿一样,挖掘出能够改善我们运维、应用的方法,今天的我演讲的主题就是一个数据化运维的例子。
51CTO:目前你们团队的规模大概是什么样的情况?
刘毅:我所处的团队目前人数20人不到,也是从4-5个人发展起来的。他们有负责离线平台运维,在线平台运维,还有负责相关运维自动化。基本上每个人都会了提高运维效率而写代码,看代码。花费大半的精力来维护优化自己的运维工具。工具写的越多越感觉到需要用数据的分析来帮助我们判断怎么样做才是高效的,借助我们身后平台的力量。
51CTO:你们的客户相当于就是为阿里云提供?
刘毅:我们主要是服务内部的开发客户,但是我们的运维业务呢也有服务外部客户的。比如药品监管码。通过监管码,可以追踪药品从生产、仓储、销售的全过程,这些数据就存储在我们运维的服务上。但是呢这些还是少数,我们目前主要是支持集团内部的业务和开发客户。
阿里巴巴云平台运维故障排查
51CTO:你们平台平时出现故障频繁吗?
刘毅:平台建设的初期,因为不稳定,故障比较多,当时挺累的。随着平台稳定,自动化工具的成熟,局势已经扭转过来了。
举个最最简单的例子:过去做运维,因为底层硬件可用性、冗余度高,率都是按年来计算。而现在这些廉价的PC服务器,几乎每天都会有宕机,这对同样是处于初期的云计算平台的冲击还是有的,所以一台服务器,或者一块硬盘都可能会影响到整个服务集群的稳定性。而现在有了这些经验的积累,不管是平台自身还是运维手段都有办法来规避底层硬件不稳定的问题。
再举个更细节的例子:过去运维不需要关心硬盘的维修,我们都知道甄别坏盘是存储设备的基本功能,而且往往能贴心的亮起指示灯,可以说整个过程除了主动向厂商报修,运维不需要做任何事情。但是在我们云计算平台初期不行,开始运维就像保姆一样要跟踪整个过程,我们要主动发现,要及时修复,发现晚了,可能就是一个故障、修复不及时可能空间就紧张了,听起来好像很夸张,如果你看了我分享的几个运维数据,真是那么一回事儿了。这些事情很重要,重复度又很高,特别是在大规模服务器下,我们不能每天去重复劳动,对运维价值的提升不大、对平台稳定性也毫无益处,我们就用自动化解决,把这些廉价服务所不能做的带来的问题,用我们的自动化工具变得像之前昂贵的存储设备那样的智能。这很有意思,你会感觉你和云平台一起在成长,停不下来,比如说,仅仅是发现还不够,我们还要做预测,硬盘作为机械设备,随着时间增长,肯定会老化,老化会带来各种各样的问题,比如性能慢,不响应。那么我们通过研究磁盘参数,做到磁盘健康的预测。首先这些参数都是厂商定义的,偏理论,但能不能用 ,好不好用,但是我们拥有庞大且真实的实际数据,把这些数据采集并且在云平台下做数据分析挖掘,提炼适合我们不同业务场景下的磁盘监控度的预测,最关键的是取到好的效果和反馈,特别是在关键战役,双11之前,做到预测结果不好的硬盘提前下线,避免关键时刻掉链子。
举了2个例子,平台不稳定、多不会是常态,通过运维自身的演变,可以让那些紧急的、危害大的运维异常变成可控的、影响小的运维事件。
51CTO:除了你刚刚提到的硬盘,其他的还有哪些比较容易导致故障?
刘毅:硬盘只是一个例子,我们把它归结为硬件故障,除此之外呢,还有就是软件bug。再者就是人为的疏忽造成的。
51CTO:你刚刚说运维分了很多种。出现什么故障的时候是不是流程也会复杂?
刘毅:复杂是相对的吧,如果公司人少,再复杂也不复杂到哪里去,想阿里这么大的公司,相对来说肯定要复杂一些,但是我们集团内部有团队会负责和改进流程,不管是故障流程,还是日常的各种流程。
51CTO:是说出现哪个方面的故障,然后是有人判断,然后确定是哪个组负责的,然后就派那组去解决?
刘毅:对的,会有一个责任人或者责任部门,但是原因和改进措施需要大家一起来配合做。
51CTO:你们这边工作的效果是怎么考核的?因为这几天也是听了阿里其他团队的人来讲,比如说像是做云的,他可以说我提供这个服务给你们。或者是提高软件性能的,他也可以说我作为业务,我提供给你们,帮助你们的服务做的更好。对于你们来说,客户已经固定了,成了一个保障部门。那你们这边的具体考核方法是什么?
刘毅:考核并不是恒定不变的,个人的考核办法一定是保障团队目标的前提,而团队一定是保障公司目标的,具体来说,作为运维,至少要有东西运维,才能说有价值吧,这时候又不能挑业务,不能说这个业务容易出彩,运维风险又小,我就要去运维,凭啥让给你?对吧,开始只能有什么运维就运维什么,主要考核就是你有没有运维好,有没有故障,有没有提高效率这些硬性的运维指标吧。随着业务的壮大,运维的场景变多,招人也算是考核指标吧,一个是业务扩大、一个是团队成长,都需要新鲜的血液。还有就是资源利用率、怎么用好手上的服务器,这非常考验我们运维。还有,这也是个重要的考核指标吧。
51CTO:最后谈谈你个人的未来发展问题吧,你自己是怎么规划的?是一直做运维?还是转开发,或者别的?
刘毅:我想我不会转开发,我觉得运维不错,一直做下去。因为我觉得现阶段运维很有趣,也很有挑战。想想怎么把各种系统数据、应用数据收集起来,用云平台帮我们分析,提炼出有帮助、有价值的内容,真是太有意思了。因为第一、很多方面我们没接触过,比如数据挖掘,需要我们不断的充电,第二、经常有被颠覆的感觉,不是这样的感觉,比如我们预测硬盘健康的时候,并不是说我们拿一个值,越大越好或者越小越好,真实数据告诉我们是有临界区间的,而且找到这个临界区间。这很有意思、很有挑战,把日常无序、杂乱的运维数据变得有用的,很有成就感。在云计算时代,真真切切的感觉到数据的强大,我想我会沿着数据化运维的方向走下去,把那些运维异常变成可控的运维事件。
51CTO:变成一个可控的。
刘毅:是的,这很有意义,做到可控就很有意义,但是很难,以前我们会说凭经验,凭感觉,世界变化这么快,怎么知道经验是可靠的?如果还靠一次次故障堆积经验,是否还合算呢?业务千变万化,适应客户要求,我们运维怎么办?很多事情,可以这么做,可以那么做,我怎么说服你呢?其实最后这些的答案就是数据,现在感觉所有自动化都是为了数据运维而准备的,在数据化运维我还不知道我有没有找到大门,我不知道在哪儿,我刚才举的介个例子,可能是对的,可能是数据样本不够,还不够准确,这就是又有趣又有挑战的地方,我想我暂时还痴迷着这些,呵呵。
好的,本次采访到这里就结束了,非常感谢刘毅的分享!如果您还有其它的问题或者建议,欢迎留言讨论。
【编辑推荐】
【责任编辑: TEL:(010)】
大家都在看猜你喜欢
原创头条头条外电头条
24H热文一周话题本月最赞
讲师:0人学习过
讲师:0人学习过
讲师:11人学习过
精选博文论坛热帖下载排行
本书共有14章,每章都介绍了几个设计模式,完整地涵盖了四人组版本全部23个设计模式。前言先介绍这本书的用法;第1章到第11章陆续介绍的设...
订阅51CTO邮刊第一次近接触阿里巴巴技术论坛的的时候是研究生复试时,2015年阿里技术论坛在北邮召开,而我恰恰当时有事回重庆去了,心里一直颇为遗憾。恰好今年的阿里巴巴技术论坛在清华召开,作为一个有阿里情节的理工科男生怎么可能会错过这种机会呢。
写在文前:最初喜欢阿里巴巴的原因是偶然的机会听到了马老板的励志演讲:明天更残酷,后天很美好,大部分人是在明天晚上看不到后天的太阳。赚钱是一种结果,它从来都不是我们的目的,我们的目的是创造一个真正有中国创造,全世界感到骄傲的伟大公司。
出发前的准备
第一次近接触阿里巴巴技术论坛的的时候是研究生复试时,2015年阿里技术论坛在北邮召开,而我恰恰当时有事回重庆去了,心里一直颇为遗憾。恰好今年的阿里巴巴技术论坛在清华召开,作为一个有阿里情节的理工科男生怎么可能会错过这种机会呢。
图一 2016年ATF阿里技术论坛图标
2016年ATF阿里技术论坛的主旨是阐述阿里对世界创新做出的贡献,其中下午是分论坛部分,本次会议主要包括三个分论坛:云计算与大数据、电商技术分论坛、互联网金融分论坛。最为可惜的是三个分论坛同时进行。之所以选择电商技术分论坛是因为去年双十一天猫912亿的交易总额对我造成的震惊实在太大,支撑这么交易额背后的技术深深的吸引着我。
图二 参会的同学排队等待进入会场
下午13:30在清华大学主楼二层接待厅,电商技术分论坛准时开始。开场之初,支持人吴泽明谈到阿里巴巴2016财年即时零售交易总额达到3万亿,他认为在这3万亿的背后,根本力量是互联网近十年来的发展。因此本次论坛主要内容是近十年来,阿里在电商技术上的发展历程。
分论坛主要内容:
第一位登台的是阿里巴巴资深总监,淘宝移动平台事业部总经理庄卓然(花名:南天) ,他主要介绍了手淘移动端的技术演进过程。主要从用户、效率、安全、规模四个方面入手,讲解了包括客户端架构、网络接入层等方面技术创新,同时还讲解了双十一背后的移动开发框架Weex。
第二位登场的是阿里巴巴速卖通技术部总监郭东白(花名:阿白),他主要介绍了全球买全球卖,国际化的技术挑战 。针对电子商务全球化的安全问题、运维问题以及全球监控问题介绍了阿里的相应应对措施。
第三位登场的是阿里巴巴资深总监司罗,他主要介绍了阿里电商大脑的构建和阿里巴巴与大数据的应用实例,其中仔细讲解了基于老虎机博弈论在线学习以及手淘消息推送过程。
第四位登场的是阿里巴巴研究员墙辉(花名:玄难),他主要介绍了阿里电子商务业务平台的演进过程。详细介绍了电商系统发展的四个阶段:单一业务系统、分布式业务系统、业务平台化、业务中心化。
最后一位登场的是阿里巴巴研究员蒋江伟(花名:小邪),他的介绍是零点之战,双十一背后的分布式技术。通过对电商业务典型场景的分析,详解了阿里电商的分布式技术。
图三 电商分论坛演讲开始前的准备
以下是我的几点感受与收获:
他们都好优秀
这是我参加本次论坛的最直观的一点感受。第一位上台的南天,09年加入阿里,13年就调到移动平台事业部,负责2000多人移动端开发团队。另外,还有工作不到一年的阿里员工,便已经申请了3份专利,提出的路由压缩算法目前已在阿里内部使用。
阿里电商的技术团队的支撑起了双十一这一奇迹,支撑起了每秒85900次的支付操作和每秒140000单的订单创建,他们创造了世界级经济现象。
图四 淘宝移动平台事业部总经理庄卓然在认真的给我们做分享
智能手机是人体器官的延伸
当今的生活是在指尖下移动生活,传统互联网的风头逐步被移动互联网所覆盖,我们每个人每天可以不用PC端,但我们每天却享受着移动互联网给我们带来的十八般服务。掌上精彩连接着过去和未来。目前中国移动电商用户达到5亿+,其中手机淘宝总用户占到其中的80%之多(写到这里,脸有点红,最为剁手党的一份子,表示每天要刷几次手淘),手淘同时在线用户峰值达到7000万之多。如此庞大的用户规模催生了革命。
很多在PC时代很成功的互联网公司进入移动互联网之后都逐渐遇到瓶颈,发展变得缓慢。
阿里在移动互联网时代的做法是值得我们去借鉴和学习的。在移动端,应用的版本更新迭代速度非常之快,手淘客户端在2015年共发布了504个版本。不同的App既可以作为单独的软件,也可以成为其他软件里面的插件,例如目前的手淘已经变身成为“航母”,上面有着各类飞机,包括:聚划算、口碑外卖、支付宝等等。同时我还了解到阿里通过采用各种新技术完成了客户端和网络的性能优化,如利用容器架构采用组件的方式以及长短链的结合、多协议接入等等。
电商全球化的技术挑战
目前全球有超过200多个国家和16语言,共计9000多种不同的设备在访问阿里速卖通网站,可以说阿里在全球范围内都有了深刻的影响。随着阿里全球化影响的程度的增加,全球化的安全问题都会对电子商务造成很大的影响。其中需要特别注意的是汇率的问题,因为汇率是动态变化的,稍不注意就可能会造成很大的损失。同时,随着电子商务扩大到全球范围,需要应该全球范围内的黑客攻击。
算法最大程度发挥数据的价值
数据和算法是生产资料和生产力的关系。没有有效的算法,我们只能简单的积累数据。三十年来,计算机只能算法改变了人类的生活,改变了人类对世界的认识。
从数据到知识的过程需要算法,例如通过用户购买数据检测到用户购买广场舞鞋的同时会购买老花镜,如果不进行算法处理,仅仅根据二者的关联程度,在用户访问其中一件商品的时候,同时推荐另一件商品,结果发现这样做的效果并不好,这就是没经过算法分析的具体场景。经过算法计算后,我们发现有很多用户是买给父母使用的,通过进一步的细化人群,结合用户的信息做到定制化推荐。
图五 基于老虎机博弈论在线学习示意图
技术扩宽商业的边界,阿里电商以双十一为契机,不断书写中国商业史上的一段段神话。
感谢阿里巴巴提供最这么好的机会,让我有机会迈出校园,走向阿里巴巴电商背后的技术,了解了淘宝整个的技术演进过程;同时感谢北邮给我们这么热爱技术的学生提供来回往返清华的校车,十分方便。期待下一次技术论坛的到来。
版权声明:本文内容由互联网用户自发贡献,本社区不拥有所有权,也不承担相关法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至: 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
用云栖社区APP,舒服~
【云栖快讯】数据库技术天团集体亮相,分享一线生产实践经验,告诉你踩过的坑、走过的路,都是老司机,靠谱!干货分享,不可错过!&&
结合大数据能力帮助电商企业快速搭建平台、应对业务高并发,剖析秒杀、视频直播等场景
一站式提供企业即时通讯、销售管理、协同办公。
基于深度学习技术及阿里巴巴多年的海量数据支撑, 提供多样化的内容识别服务,能有效帮助用户降低违规风险。其产品包括...
为您提供简单高效、处理能力可弹性伸缩的计算服务,帮助您快速构建更稳定、安全的应用,提升运维效率,降低 IT 成本...
2017杭州云栖大会火热抢票
Loading...您还没有登录,快捷通道只有在登录后才能使用。 还没有帐号? 赶紧
免费体验阿里云运维部署服务
在线时间65小时
为了让更多技术达人了解云计算、体验云服务,阿里云开发者团队举办免费体验使用阿里云弹性计算服务活动。活动全过程免费,我们热切期待您的参与!!! & &本活动您能获得的收获:
&1.亲自登录到阿里云弹性ECS上体验云服务器的运行模式; &2.体验云服务器的远程运维管理,加深对云计算的理解; &3.体验线上生产环境的应用部署,让属于您个人的网站跑在阿里云服务器上; &&&参加步骤如下: &1.登录阿里云主页,若您还没有阿里云账号,则先申请账号,并登录。 &2.获得阿里云服务权限访问的Access Key, ; &3.下载阿里云 :亲身体验阿里云服务的远程运维、应用部署等功能,可查看相关 ; &4.为了确定您的阿里云账号,请将您的Access Key ID发送到以下两种方式之一获得阿里云弹性计算服务(ECS)使用权限; &邮箱: &阿里旺旺:(阿云开发者效率 )账号 &5.得到试用权限后,即可体验阿里云ECS服务器( ); &&&&&数量有限,先到先得!! &阿里云开发者团队 [ 此帖被6boys在 11:40重新编辑 ]
做阿里云最好的DevOps工具
在线时间1825小时
你永远都是死在字体上。&我的建议是&&右键—— 粘贴为纯文本
在线时间65小时
回1楼ivmmff的帖子
格式不兼容啊。
做阿里云最好的DevOps工具
在线时间1825小时
回 2楼(6boys) 的帖子
用 &[font=Arial]&&批量替换[ 此帖被ivmmff在 11:41重新编辑 ]
在线时间413小时
回 3楼(ivmmff) 的帖子
哈哈你也有强迫症么
在线时间1825小时
回 4楼(零云科技) 的帖子
访问内容超出本站范围,不能确定是否安全
限100 字节
批量上传需要先选择文件,再选择上传
您目前还是游客,请
验证问题: 11 + 28 = ?
&回复后跳转到最后一页

我要回帖

更多关于 电商平台运维方案 的文章

 

随机推荐