数据中心的管理者大都认识到了运维工作的重要性,并制定了详细的运维计划和组织结构,运维的设想和实施方案如图3所示。从这些方案例子中不难看出数据中心的主管还是想把运维工作纳入正常工作范围。但遗憾的是目前大多数数据中心的运维工作主要还是靠人工。
实际上数据中心机房的运维工作量主要集中在物理基础设施,尤其是供配电和制冷首当其冲.恰恰这两个部分的运维人员大都是由机房计算机人员兼职代管,这就为机房的安全性埋下了隐患。
3 运维技术的初级阶段̶̶第一步曲
机房人员兼职代管基础设施运维已是普遍现象,这种结构形式在短期内也很难改变。即使有的配了专职人员也多是新手。好在有不少机房的墙上张贴着机器的检查步骤,只要运维人员按照墙上规定的步骤定时检查就可以了。
这在初期是没有问题的,但时间长了熟练了,人们说熟能生巧,但如果没有进一步的措施和运维内容也会生出一些枝节来,有可能埋下隐患。比如山东一金融单位数据机房对运维制定了一些措施,其规定中有一条是每两个小时要抄一次设备上的读数,该运维人员开始还是非常认真地去做了。但经过几个月后发现这些读数也不变化,而且该技术人员并熟练地记住了,于是就不是两个小时进机房一次了,不过到两小时他还是把记忆中的读数抄在表格上,渐渐地几乎几天也不去机房一次。突然一天晚上该地区停电,因机房中的照明也是取自UPS,8h的电池后备容量使机房中的设备运行没受一点影响。第二天那位运维人员上班后,人没去机房查看而是照常记下了原来的电表读数。到下午两点钟,由于电池容量耗尽而导致UPS停机!由于后备发电机控制盘放到手动位置而没有自动开机,就这样导致了该数据中心全部停电,损失严重。
4 运维技术的中级阶段̶̶第二步曲
当然运维工作都不会停留在初级阶段,运维人员的素质需要提高。提高的手段一般都是参加各级培训。大多数运维培训教师是搞机房运维多年的资深人员,这些老师有着丰富的实践经验,有着发现故障和排除故障的熟练手段,毫无疑问学员可以从他们那里学到很多知识。