GB50174
TIA-942 性能要求 系统配置 年平均故障时间
C级 Tier I 场地设置按基本需求配置 N
单系统没有冗余 28.8小时
Tier II 场地设施按冗余要求配置 N+X
单系统冗余配置 22小时
B级 Tier III 并行维护 (N+1)+1
“双系统” 一用一备 1.6小时
A级 Tier IV 场地设置按照容错系统配置 2N,2(N+1)
双系统同时运行 0.4小时
注:GB50174和TIA942并没有完全对应关系,本表仅为不同级别数据中心的对比。
这种级别的划分归根结底还是在可靠性和可用性上的划分,等级越高要求其可靠性和可用性就越高,其年平均故障时间就越短。因此我们评判数据中心优劣的标准可归结为:可靠性和可用性。
可靠性(Reliability)是一个概率值,指某个设备或系统在一个指定的时间内能够无故障的持续稳定运行的可能性。人们通常用MTBF(Mean Time Between Failure,平均无故障时间)这一指标来量化它。MTBF反映了产品的时间质量。可靠性是一个随时间变化的函数,时间越长,可靠性越低。其计算公式为:R(t)=e-λt,其中,λ为故障率,λ=1/MTBF。
可见,可靠性是一个与时间相关的标准,时间越长,可靠性越低。但是如果初始系统设计的较优秀,系统在更长时间内正常运行的概率就越高。由于数据中心中包含有各种各样的仪器和设备,不同的设备MTBF不尽相同,甚至是相同功能的设备MTBF也有所不同,所以对于数据中心的MTBF应该取所有设备MTBF的最小值。一些数据中心充分考虑了设备的业务备份,从而很大程度上避免了因设备故障造成业务中断的情况,所以MTBF的数值越高,就可以证明这个数据中心越好。对于MTBF不高的数据中心,依然可以通过其它数据备份、容错的方式提高其可靠性指标。其中容错是高可靠性的重要体现,当灾害或错误发生时,能够有自动修复和还原的作用,减少数据中心系统宕机率,确保系统的不间断运行。
可维护性(Serviceability)是指系统在规定环境条件下和规定的时间内,完成规定功能的能力,以及完成维护的容易程度。可维护性用MTTR指标来量化。MTTR(MeanTime To Repair,平均故障维修时间)是随机变量恢复时间的期望值,它包括确认失效发生所必需的时间以及维护所需要的时间。MTTR数值越小,说明数据中心故障恢复处理能力越强。数据中心出现各种故障是难免的,而MTTR数值越小的数据中心恢复业务的用时就越短,带来的损失也越小。
可用性(Availability)是指系统在使用过程中可以正常使用的时间与总时间之比,它是一个比率指标,其计算公式是A=MTBF/(MTBF+MTTR)。可用性可以用来表示某一运行中的可修复设备或系统在这段时间内能按其功能稳定运行的能力。例如:一个数据中心的MTBF是10年,MTTR是1小时,那么可用性指标A=10*365*24/(10*365*24+1)=0.9999772=99.9989%。在数据中心行业里,通过可用性指标的9数字的多少来表示数据中心可用性的高低。但可用性并不会特指故障发生的频率,对于相同的可用性,有以下数据: