近来,不少公司因为数据中心的电力中断而备受困扰,比如美国达美航空公司数据中心的电力中断,造成高达1.5亿美元的经济损失。又比如美国“超级碗”赛场断电,耽误赛事日程。
在运维过程中,数据中心面临着诸多的挑战,比如数据中心的运营费用,这就要求建立数据中心之前,进行预算和规划,又比如能源成本上升采用云主机托管,能源成本上涨可以通过使用新技术缓解,例如虚拟化和云主机托管,可以大大降低能源成本。
再比如维护和冷却要求,数据中心设施和组件需要在适合的温度下全天不间断的工作,这就需要完善的冷却系统,以保持所需的温度。
其实,数据中心还面临着沟通融合、基础设施要求、缺乏资源、服务器效率、数据中心安全、网络阻塞等挑战,在这其中,数据中心挑战也占据着重要的位置,那么是什么原因导致断电,操作员的误操作、停电,也有可能是服务器负载过重,导致系统崩溃。
数据中心断电是非常严重的问题,我们还是希望有相关的解决方案。
在这里,我们需要确定几个问题。
跟随数据中心的变化,电力系统进行升级
可以说数据中心的不同阶段,对电力需求也在不停的变化,比如增加服务器或者交换机都有可能对电力产生巨大的需求,及时掌握数据中心在这一时间段对电力的需求,变得十分重要。还需要对数据中心的供电进行合理的评估,以免数据中心超载,供电不足造成停电的状况。
知道所有互连设备和系统的一切情况
对于数据中心运营至关重要的是,需要电力链记录在一起,从进入建筑物的电力,再通过UPS、PDU/提供给所有的机架设备。
这意味着数据中心运营需要知道哪些与电力相关的设备,以及设备各自的相互依赖关系。这可以让数据中心运营了解某些设备故障或脱机维护时的潜在影响。还应该了解每个电源链设备的状态。
可以通过采用数据中心基础架构管理(DCIM)实现对电源管理。DCIM使数据中心运营能够以Zui高的效率运行数据中心,允许所有相关人员改进整体运营情况,并识别漏洞,从而保持电源链的安全。
部署的DCIM还可以让数据中心运营全面了解自己的产品,通过共享实时数据和易于理解的图表,消除IT和设施之间的通信孤岛。