“机器要做人类做不到的事情”,这样的事实正在不断发生。据了解,今年天猫双11将有大量机器人上岗,护航超级工程。机器智能,正在成为天猫双11超级工程的指挥官,借助阿里云、天猫、淘宝、支付宝、菜鸟等业务创造出新的体验场景。
除了在物流、客服、设计等生产环节大量应用了机器智能外,今年天猫双11期间,还将启用国内首个互联网数据中心高精度智能运营机器人“阿里巴巴天巡”,与数据中心的工程师一起承担2017天猫双11张北数据中心运维的重任。
图1:天巡正在进行巡逻作业
张北数据中心作为每年“天猫双11”核心数据处理中心,承载着庞大的平台交易量及数据计算任务。同时,作为阿里云重要的数据中心节点(华北3节点),向合作伙伴提供领先的云计算服务,承担着每年天猫双11亿级买家、卖家、物流服务商等所有参与者的数据处理及计算任务。
为了保障服务器稳定性,数据中心必须时刻保持恒温恒湿;此外数据中心面积巨大,环境复杂,如无法准确定位每一个故障发生的具体位置,导致维修时间过长,将会导致严重的系统故障。
过去的双11,需要数据中心管理人员对数据中心的运行容量参数、数据中心环境温湿度、空调运行状态及IT设备工作状态等进行全天24小时安全巡逻,保障各系统的安全可靠运行。
天巡的主要职责包括:数据中心安全巡检;指引维修人员快速、准确定位故障地点,并提供智能专家辅助功能;数据中心环境参数采集,实时上传数据进行比对分析等。
图2:天巡背后有的智能大脑天机让我们能轻松备战双11
数据中心遍布着各种各样的功能区域,巡检人员往往需要分别巡逻不同区域采集不同数据样本与系统数据进行比对,一圈下来往往需要走四五公里,天巡能根据系统数据样本曲线智能规划巡检路线,对目标区域进行温度、湿度及空气质量等数据二次采集,并实时上传,数据中心管理人员通过监控中心即可掌握全貌。
阿里巴巴数据中心高级专家闫昆介绍,“数据中心智能运营机器人天巡不仅能力强大,背后还有智能大脑,它能让天巡拥有基于大数据计算的智能感知决策能力,目前天巡已经能够替代现场运维人员30%的重复性工作,让我们能轻松接受天猫双11的挑战。”
天巡背后的“智能大脑天机”管理着数据中心近百万台服务器,他对每个服务器的数百个数据点进行实时监控采集,并根据使用情况绘制服务器生命周期曲线,实现对服务器故障的提前预判能力。
图3:天巡深入机房核心区巡检
天机建立起一系列运行在阿里云上的算法和应用,包括提供在线数据分析的数据存储技术、协调全网的负载均衡技术、异地双活的容灾技术等能力。截至目前,天机为阿里巴巴提供覆盖服务器、网络、IDC三大件的系统级管理,实现对亿万级数据点秒级检测和故障定位,使数据中心故障发现时效提升20倍。
据了解,张北数据中心采用风能、太阳能等先进节能技术,相当于每年节省5.9万吨的碳排放。而天巡机器人,则是阿里巴巴在数据中心管理运营上的首次尝试。
随着阿里的数据中心越来越大,如果只靠增加人力去监测数据中心环境,不但成本会增加,而且会出现工作疏忽,因此是时候让机器人去辅助人类做一些工作。未来,机器人天巡将升级算法和硬件配置,升级完毕后,天巡将可以替代60%以上的现场运维人员的重复性工作。