一、目标
加强和规范化中心机房基础设施故障(事故)的报告和处置流程,提高运维保障效率,保证故障(事故)的快速反应并及时修复、恢复,使损失降低到最低。
二、范围
中心机房,共计3个机房区域。
三、定义
3.1一级故障:
故障影响范围小,不会对业务系统造成中断影响,并且不会对其它系统使用造成影响。
3.2二级故障:
关键系统单个设备或独立系统故障,造成单个或局部业务系统中断,不会造成重大业务系统运行中断,不会造成关键系统运行中断。
3.3三级故障:
外部出现供水、供电、网络系统等中断,关键性系统造成大面积中断。涉及到外协单位修复,并且无法在短时间(2小时)内恢复,可能造成重大损失。
四、故障报告原则
先抢修,同报告;先核心,后边缘;先始端,后末端,分故障等级进行处理。
五、故障(事故)类型
5.1一级故障
单台的机柜PDU断电、单台UPS及空调关键设备报警、机房温度上升到30℃以上、空调漏水影响到其他区域等。
5.2二级故障
单台UPS电源故障停机、单台空调机组故障停机、环控系统无法检测数据、机房温度超过35℃等。
5.3三级故障
UPS前端供电中断、空调配电柜前端供电中断、空调冷冻水供水中断(失压)、机房温度超过40℃、网络中断等。
六、故障报告流程
6.1当发现一级故障的情况下,当班运维人员首先进行故障确认,确认故障后进行一般性修复,无法修复的设备及时通报运维管理负责人以及数据中心当日的值班民警,运维负责人通知相应的技术工程师到场维修。事故恢复后形成事故总结报告。
6.2当发现二级故障的情况下,当班运维人员首先通知运维负责人以及数据中心当日值班民警,值班民警及运维负责人及时赶到现场,同时判断故障产生的原因。值班民警、运维负责人和相应专业技术工程师协调沟通相关部门,相关单位派维修工程师进驻现场解决,短时间(1小时)无法解决的通知项目经理,值班民警及时通知数据中心主管领导。事故恢复后形成事故总结报告。
6.3当发现三级故障情况下,当班运维人员首先通知运维负责人、项目经理以及值班民警并告知物业管理部门相关人员。值班民警、项目经理及运维负责人及时赶到现场,判断故障产生原因上报公司上级领导,值班民警上报主管领导和数据中心主要领导。由相应的数据中心领导、项目经理及物业部领导联系外协单位进行解决。事故恢复后形成事故总结报告。
七、故障处置方法
7.1一级故障的情况下,现场运维人员主动解决故障,运维负责人及时联系专业工程师到场解决故障。值班民警现场关注解决故障进程,并且配合解决外部单位协调工作。
7.2二级故障情况下,项目经理到场主持工作,联系专业工程师以及维修工程师及时到场解决故障。值班民警现场关注解决故障进程,并配合解决外部单位协调工作,同时通知上级主管领导,主管领导到场关注故障维修工作进程。
7.3三级故障情况下,项目经理到场主持工作,并上报公司领导,联系专业工程师及维修工程师及时到场解决故障。值班民警到场关注解决故障进程,并配合解决外部单位协调工作。值班民警及数据中心主要领导和主管领导,以及公司领导到场关注故障维修进程。同时数据中心主管领导通知各个使用单位,启动机房内各业务系统应急预案,同时项目经理安排专业工程师对UPS间、机房内设备等进行应急操作。