TEL:
60天内,一个机房起火,四大云巨头挂机,如何运维避免宕机厄运?
| 发布时间: 2018-07-25 17:05:32 | 2125 次浏览
60天内,一个机房起火,四大云巨头挂机,如何运维避免宕机厄运?

昨日上午,腾讯旗下云计算服务在广东地区宕机,导致部分用户资源访问失败,控制台登录异常,多家网站无法访问。故障持续3个小时,目前,此次故障带来的损失及其用户赔偿问题尚无定论。据悉,该事故系运营商光缆中断所致,截止昨日11时40分,腾讯云表示故障已经恢复。


然而,这不是个案。一个多月时间里,接二连三地爆出了一桩桩惊心动魄的事故:


6月初,北京亦庄某数据中心机房柴油机发生起火;


6月28日,阿里云官网控制台和使用部分产品功能出现问题;


7月17日,AWS管理控制台间歇性失灵;


7月18日,谷歌云平台全局负载均衡服务发生中断;


……


以阿里云故障为例,其事后声明直指,这也是其在运维上的一个操作失误。


结果导致阿里云的多个产品在约1个小时期间均无法使用,有用户直言:中国互联网半壁江山,惊魂整整一小时!

看来,高温模式之下,数据中心与云计算领域也在经受着前所未有的运维考验。


运维无小事,尤其是对于充当重要基础设施角色的数据中心而言,运维工作更是丝毫不能懈怠。近十多年来,数据中心已从只有UPS、空调和IT设备的普通机房时代,进入到囊括各种新技术和应用的新时代。这样一来,规模化之下,风险集中,数据中心的运维管理面临更大的挑战,运维难度也“更上一层楼”,特别是面对不断扩充和升级的数据中心,基础设施安全、稳定的运行显得日益重要。


在数据中心领域,讲究的是“三分技术,七分管理”。因此,数据中心如何减少人为参与的机会,并对人为行为进行科学管控,正是当下运维工作的重中之重,而近年来建设投产的新一代数据中心往往对此颇有发言权。其中,8月底投产运营的中国电信开普勒(佛山)数据中心在智能自动化运维之路上进行了积极探索。


如今,大数据、物联网、自动化和机器学习等创新技术改变了数据中心传统的运维管理模式。新一代数据中心运维离不开信息系统的支撑,建立一套高度智能化的信息系统,是提高运维效率、实现运维智能自动化的关键。


其中,运行监控平台是实现运维管理系统的基础和前提。为了保障数据中心的安全,运营商需要对数据中心里面的温湿度、电能、水流及风量等进行全面实时的监控,以期发现潜在问题。在开普勒数据中心里,监控中心执行了红外温度监测、电能质量监测、超声波水流监测、风量监测等资源的监控,并额外增加关键设备监控,告警信息直接在监控中心展示,确保关键设备告警信息第一时间被运维人员获取,有备无患,少故障处理时间,提升工作效率;与此同时,防患于未然,科学运用这些数据还可以为应急措施及节能措施提供可靠的指导依据。


以人工智能技术为依托,监控中心采用了统一规范编码、名称、数据类型、单位精度、更新频率、储存要求等数据源标准,数据中心各种资源与设备的运行状况一目了然,既提升了运维的工作效率,又很大程度上避免了机房出现局部热点、机房冷热不均、局部热点等不良现象发生。


只有监控平台仍是远远不够的,想要实现更精细化的管理,还少不了智能管理平台,由此PC端搭配移动APP的智能管理方式应运而生。据悉,开普勒数据中心在业界首创性地采用了全自动化二维码巡检系统,可自定义巡检路线,自动生成巡检任务,手机APP自动接收巡检任务,并一键生成巡检报告,自动评估巡检健康度,实现了流程自动化与智能巡检,与此同时,提升了数据中心的安全性,提升整体的运行效能。


需要指出的是,数据中心的智能自动化运维并非意味着运维中不需要人,而是约有30%-40%的运维是标准化工作,不需要人工干预,只要设置好了参数和步骤,就能解决问题、实现自动化。然而,数据中心完全采用人工智能还有一段很长的路要走——数据中心设备厂商施耐德电气公司专家指出。


此外,另外60%-70%的工作仍需要有人工介入,因为这一部分工作涉及到非标准化运维,此时考验的正是运维团队的专业性——在严格执行7*24小时运维值班制度、每月一次设施设备保养、每季度一次设备厂家维护保养等运营制度之下,开普勒数据中心提供了完整、高效、可靠的数据运营及网络服务。据悉,开普勒数据中心将于8月底投运第一批机架774个分别在2-3层模块机房,平均20A的机柜,4-7层可提供客户定制。



    诚然,百密也难免有一疏。数据中心资源的集中化趋势显著,一旦发生故障,或是一个漏洞被利用,就可能会造成数据中心较大规模的数据丢失甚至设备宕机事故。即使几分钟的停机时间也可能对企业造成灾难性影响,灾备应急方案对企业的稳定运营至关重要。


    以开普勒数据中心为例,真正实现了高可靠、真双路市电,并配有2N方式供电的UPS系统,而柴油发电机也足以提供不低于8小时的供油能力,制冷系统的冷冻水/冷却水也采用高可靠性的双环路管道。这样的技术实力之下,又严苛遵循每年度两次消防演练,每年度两次柴油发电机带载运行、每年度一次机房应急演练等规章制度,客户则可高枕无忧地享受数据托管服务。


    智能自动化运维的重要性不言而喻,高效智能的信息化运维管理系统也将扮演越来越重要的角色。然而,信息化运维管理系统并不是孤军作战的,只有与科学的设计理念、合理的结构布局、雄厚的技术服务实力搭配在一起,相得益彰,才能实现智能、高效、安全的运维目标。


开普勒数据中心正是这样软硬实力兼具的新一代数据中心典范。依托合作伙伴中国电信云网融合战略,直连163骨干国际出口,背靠股东佛山电建集团安全可靠的电力资源,佛山开普勒数据中心在设计中践行了 “绿色”、“节能”、“环保”的理念,采用了独立的油机楼,高效通风及降噪,并借力流动动力学原理,辅助了机房负载的布局设计,为未来福能园区冷热电三联供接入预留接口,且空调冷凝水实现了回收利用,建设标准为中国电信五星级、T3+机房,旨在成为珠三角地区高科技、信息化、绿色环保的新一代数据中心,重要的骨干网络节点,面向全省、港澳台乃至全国和东南亚地区,为公众、政府、企业提供全方位的数据服务。


实际上,运维往往是数据中心里最重要的工作,但却时常被人所忽略,主要因为运维的工作短期看不到收效,只有出了故障时,运维才会被点名背黑锅。伴随着大数据技术发展,特别是新型服务器的不断涌现,针对基础设施层的要求也越来越高,数据中心安全、稳定、可靠、绿色运行的基本要求早已难以满足用户需求,运营商也应顺势而为,积极拓展业务范畴,创新运维管理模式。


据《2018年中国企业IT运维管理市场报告》显示,中国数据中心运维服务市场规模预计到2020年将达到2744.7亿元,年复合增长率为16.4%。无疑,智能化将是中国数据中心运维管理的必然趋势,运维管理也将从被动响应变为主动防御,实现从IT成本中心,向IT服务中心和IT价值中心转变,这期间,那些兼具软硬实力的数据中心将会一骑绝尘,迅速抢占市场。