5.2 数据中心的能效模型及其研究
上述PUE模型清楚地列出了数据中心的能量消耗包括3个部分,即IT设备的能量消耗、供配电系统的能量损耗、制冷系统的能量消耗。
下面对上述3个能量消耗部分进行探讨。
5.2.1 IT设备的能耗研究
数据中心的IT设备(IT Equipment,ITE)包含服务器、存储器、交换机等,其中以服务器数量最多。这些IT设备用电特性基本类似,本书以服务器为例进行介绍。
数据中心中的众多服务器为机架式服务器,部分高端数据中心采用小型机、大型机等大型服务器设备。其中,机架安装式服务器、小型机等如图5-3所示。
图5-3 机架安装式服务器、小型机等
服务器上的电源(Power)与个人计算机(PC)电源一样,都是一种开关电源。以某知名厂商的一款1U标准服务器电源模块的铭牌为例,如图5-4所示。
图5-4 某知名厂商的一款IU标准服务器电源模块的铭牌
关于服务器电源的铭牌,一般不直接贴在服务器的外壳上,而是贴在服务器电源模块外壳侧面,将该电源模块抽出后可看到对应的铭牌。
铭牌上INPUT(输入)标明服务器电源的额定输入电压为220V,而4A为该电源模块的最大输入电流。因此,服务器电源的输入功率(消耗功率)不能直接用输入额定电压×输入最大电流来计算。
OUTPUT(输出)250W MAX,此参数是该服务器电源最大输出功率,对于数据中心设计者具有重要的设计意义。通常只有在服务器电源铭牌上才能看到。
服务器电源的输出最大功率为250W,按照AC/DC转换效率85%(平均值),则服务器的最大输入功率(消耗功率)PSERVER为
PSERVER=PMAX OUT/η=250/0.85≈295(W)
式中,PMAX OUT为250W,η为AC/DC效率,取平均值85%。
服务器的输入功率(消耗功率)PSERVER代表服务器的最大工作功率,即在按照设计满配置(CPU、内存、硬盘等全满配置),CPU、内存和硬盘等设备全负荷以100%速度工作时,所能消耗的最大功率,一般的使用过程中,服务器在该工况下运行的概率是非常罕见的。
因此,在数据中心设计中,参考配置系数c,同时利用系数k。
PACTUAL=PSERVER×c×k=295×0.8×0.8=188.8(W)
其中,配置系数c取0.8,代表服务器电源的厂家裕量;k为同时利用系数,取0.8。
上述数据符合实测结果,在某数据中心测量Dell Poweredge 1U和2U服务器的波形如图5-5所示。
图5-5中,左图为1U服务器222.5V×0.65A≈144.63VA,右图为2U服务器223.8×1.37≈306.61VA。
早期服务器电源的功率因数较低,通常为0.8左右(图中电流正弦度不好),而最近几年随着节能减排要求越来越高,加上电源技术提升,大部分厂家生产的服务器电源都采用带PFC功能的服务器电源,使得服务器电源的功率因数提升到0.95以上,并趋向于达到0.99~1.00的功率因数。
图5-5 某型号1U(左)/2U(右)服务器实际工作功率,非最大功率(2003年)
以上讨论的是服务器配置一个电源的工作功率,但为了提高服务器工作的可靠性,目前服务器普遍采用冗余电源技术,具有均流、故障切换等功能,可有效避免电源故障对系统的影响,实现7×24小时的不停顿运行。
冗余电源较为常见的是N+1冗余(1+1、2+1、3+1等),可以保证在一个电源发生故障的情况下系统不会瘫痪(同时出现两个以上电源故障的概率非常小)。冗余电源通常和热插拔技术配合,即热插拔冗余电源,它可以在系统运行时拔下出现故障的电源并换上一个完好的电源,从而大大提高了服务器系统的稳定性和可靠性。
因为冗余电源的应用,带来了新的问题:每一个服务器电源工作在较轻负荷状态之下,导致工作效率降低,如在1+1电源配置下,每一个服务器电源的负载均小于50%(通常只有20%负载),这样电源模块的效率将只有80%左右,甚至低至75%。
图5-6所示为较高效率的服务器电源效率图。
图5-6 较高效率的服务器电源效率图
为提高服务器电源的工作效率,减小服务器体积,服务器行业开始向刀片式服务器升级。
刀片式服务器就是服务器外形扁而平,像个刀片,于是被形象地称为“刀片服务器”。在标准高度的机架式机箱内可插装多个卡式的服务器单元(刀片,其实际上是符合工业标准的板卡,上有处理器、内存和硬盘等,并安装了操作系统,因此一个刀片就是一台小型服务器),这一张张的刀片组合起来,进行数据的互通和共享,在系统软件的协调下同步工作就可以变成高可用和高密度的新型服务器。
这些刀片式服务器共用系统背板、冗余电源、冗余风扇、网络端口、光驱、软驱、键盘、显示器和鼠标,一个机箱对外就是一台服务器,而且多个刀片机箱还可以级联,形成更大的集群系统。图5-7给出了某型号刀片式服务器照片,每个机框可安装10个刀片。
图5-7 某型号刀片式服务器照片,每个机框可安装10个刀片
因为一个标准机架式机箱通常内置了8~16个,甚至更多个刀片式服务器,这些服务器是共用冗余电源,所以服务器电源的工作效率得到很大提升。而刀片式服务器因为体积小,与同等速度与配置的机架式服务器相比,更加省电与节能。
表5-1列出了2008年IBM某型号刀片式服务器与机架式服务器的功耗对比。
表5-1 2008年IBM某型号刀片式服务器与机架式服务器的功耗对比
显然,采用刀片式服务器,休眠模式、最大工况下,功率和发热量分别降低33%和28%,取中间值30%。
在一个中等规模的数据中心,通常会有数千台服务器,假定某中型数据中心有2 800台服务器(全部折算为1U的标准机架服务器),那么折算的用电功率如下。
参考配置系数c=0.8
PALL SEVER=PMAX×c×2 800=377×0.8×2 800=844.48(kW)
如果全部采用刀片式服务器,需要200个刀片机框+2 800个刀片单元,用电功率为
PALL BLADE=PMAX×c×2 800=270×0.8×2 800=604.8(kW)
显然,采用刀片式服务器,节约电力239.68kW,假设全年计算时间利用效率为0.7,那么可节省的电费为
E=(239.68×365×24×0.7)/0.9≈1 633 019.73(kW·h)
Y=E×0.7≈114(万元)
其中,0.7为全年同时利用率;0.9为UPS的效率;电费粗略计为0.7元/ kW·h。
可见,采用新型的刀片式服务器,节约的电费是惊人的。而因为功率的节省,还会带来机房空调的节电,这会在5.22节中介绍。
我国每年的服务器总发货量迅速增长,2008年服务器出货量为70.51万台左右(数据来源:CCID,2008),按照每台服务器400W功耗计算,一年消耗电力24亿度。即使把10%的机架式服务器改成刀片式服务器就能节约4万吨标准煤,这对当前倡导节能减排还是非常有意义的(假定1吨煤可发电2 000度电)。
5.2.2 供配电系统的能耗研究及其PUE计算
供配电系统是指从市电变压器到服务器等IT负载之间的全功率链,包括发电机、ATS自动切换开关、低压配电系统、UPS不间断电源、服务器电源管理、供电电缆等环节。数据中心常见供配电系统如图5-8所示。
图5-8 数据中心常见供配电系统
在计算机类负载为1kW时,为计算机类负载提供供配电的系统(包括ATS自动切换开关、低压配电开关、UPS供电系统、供电电缆等)在输出功率1kW条件下,计算供电系统的损耗即为PUE供配电能效因子,计算的数学模型为
供配电能效因子PLF=ATS开关损耗+低压配电系统损耗+UPS系统损耗+供电电缆损耗
其中,ATS开关损耗、低压配电系统损耗、供电电缆损耗都很小,基本上是铜损与接触电阻损耗,统计数据表明为1%~3%,取中间值2%即为0.02。
供配电能效因子PLF=0.02+UPS系统损耗
而在数据中心设计与运营中,UPS系统的损耗随着UPS供电方案不同而变化。
根据国家标准《数据中心设计规范》(GB 50174—2017),同时可参照美国通信工业协会(TIA)发布的《数据中心电信基础设施标准》(ANSI/TIA 942—2014),数据中心UPS实际供电方案或为N+1供电系统或为2N与2(N+1)供电系统。在不同配置方式下负载比率不同,效率略有差异。本书以负载率较低的单机双母线组成2N供电系统为例(见图5-9),研究正常工作下UPS的效率与损耗。
图5-9 两台UPS单机组成双母线的2N供电系统
假设某数据中心服务器等计算机类负载为100kW。
如果配置两台UPS组成单机双母线解决方案,UPS容量可按两种方法选择:①经济型,选用160kV·A/144kW,输出功率因数为0.9;②扩容型,选用200kV·A/180kW,输出功率因数为0.9。
1. 经济型方案UPS效率与供配电能效因子
计算机类负载为100kW,正常工作时双母线上每台UPS平分负载,即每台UPS承担负载为50kW,单台UPS的负载率为
K=50/144≈34%
查表5-2所示的某型号160kV·A UPS效率表获取该型号UPS的损耗率。
表5-2 某型号160kV·A UPS效率表
将负载率34%放入25%~50%,进行数学插值法计算,得出损耗率为
Η=8.77%,即0.087 7
则供电系统总损耗为
供配电能效因子PLF=0.02+UPS系统损耗=0.02+0.087 7≈0.108
2. 扩容型方案UPS效率与供配电能效因子
扩容型方案中,UPS容量较大,为200kV·A/180kW。计算机类负载为100kW,两条母线上每台UPS平分负载,即每台UPS承担负载为50kW,单台UPS的负载率为
K=50/180≈27%
查某厂家200kV·A/180kW UPS效率表获取该型号UPS的损耗率(见表5-3)。
表5-3 某型号200kV·A UPS功率效率
负载率27%,约等于25%,得出损耗率为
Η=9.37%,即0.0937
则供电系统总损耗为
供配电能效因子PLF=0.02+UPS系统损耗=0.02+0.0937≈0.114
上述两种UPS供电方案下,PUE指标中的PLF从0.108变化到0.114,变动不大,说明UPS供电系统是对PUE影响较小的因素。有几点需要强调一下。
(1)采用两台UPS主机组成的单机双母线的2N供电系统,是负载率较小的配置,所以所得到PUE供配电能效因子是较大的。
(2)如果采用2(N+1)方式,在配置合理情况下,PUE的供配电能效因子将小于上述计算模型数值。
(3)当配置了带输出隔离变压器的配电柜或分配柜时,供电回路上每增加一个变压器,供配电能效因子将增加0.03~0.05。
(4)如果为每个UPS输出母线上安装大容量的STS,将导致供配电能效因子增加0.01~0.02。
此计算模型不含市电入户变换器的效率,即功率与损耗计量从低压侧计算,不含35kV/0.4kV或10kV/0.4kV的转换损耗。
5.2.3 制冷系统的能耗研究及其PUE计算
数据中心机房环境对服务器等IT设备正常稳定运行起着决定性作用。《数据中心设计规范》(GB 50174—2017)中对机房环境温度做了新的修正,具体要求如表5-4所示。
表5-4 GB 50174—2017中对机房环境温度的要求
为使数据中心能达到上述要求,应采用机房专用空调(普通民用空调、商用空调与机房专用空调的差异对比不在本书讨论范围)。如果数据中心机房环境不能满足以上要求,则会对服务器等IT设备造成以下影响。
(1)温度无法保持恒定——造成电子元器件的寿命降低。
(2)局部温度过热——设备突然关机。
(3)湿度过高——产生冷凝水,短路。
(4)湿度过低——产生有破坏性的静电。
(5)洁净度不够——机组内部件过热,腐蚀。
1. 数据中心热负荷及其计算方法
按照数据中心机房主要热量的来源,分为设备热负荷(计算机等IT设备热负荷)、机房照明热负荷、建筑维护结构热负荷、补充的新风热负荷、人员的散热负荷等。
(1)机房热负荷计算方法一:各系统累加法。
设备热负荷:
Q1=P×η1×η2×η3
式中,Q1为计算机设备热负荷(kW);P为机房内各种设备总功耗(kW);η1为同时使用系数;η2为利用系数;η3为负荷工作均匀系数。通常,η1、η2、η3取0.6~0.8,考虑制冷量的冗余,通常η1×η2×η3取值为0.8。
机房照明热负荷:
Q2=C×S(kW)
式中,C为照明功耗,根据国家标准《计算站场地技术要求》的要求,机房照度应大于200lx,其功耗大约为20W/m2,后续的计算中,照明功耗将以20W/m2为依据计算;S为机房面积。
建筑维护结构热负荷:
Q3=K×S/1 000(kW)
式中,K为建筑维护结构热负荷系数(50W/ m2机房面积);S为机房面积。
人员的散热负荷:
Q4=P×N/1 000(kW)
式中,N为机房常有人员数量;P为人体发热量,轻体力工作人员热负荷显热与潜热之和在室温为21℃和24℃时均为130W/人。
新风热负荷计算较为复杂,使用空调本身的设备余量来平衡,不另外计算。
以上5种热源组成了机房的总热负荷。由于后3项计算复杂,通常采用工程查表的方式予以确定。但因在数据中心的规划与设计阶段,数据中心的各种热负荷非常难以确定,所以实际在数据中心中一般采用设计估算与事后调整法。
(2)机房热负荷计算方法二:设计估算与事后调整法。
数据中心机房主要的热负荷来源于设备的发热量及维护结构的热负荷。
因此,要了解主设备的数量及用电情况,以确定机房专用空调的容量及配置。根据以往的经验,除主要的设备热负荷之外的其他负荷,如机房照明负荷、建筑维护结构负荷、补充的新风负荷、人员的散热负荷等,若不具备精确计算的条件,则可根据机房设备功耗及机房面积,按经验进行测算。
采用“功率及面积法”计算机房热负荷。
Qt=Q1+Q2
式中,Qt为总制冷量(kW);Q1为室内设备负荷(设备功率×1.0);Q2为环境热负荷[(0.10~0.18)kW/m2×机房面积],南方地区可选0.18,而北方地区通常选择0.10。
设计估算与事后调整法是对复杂科学计算的工程简化计算方法。在这种计算方法下,通常容易出现计算热量大于实际热量的情况,因为机房专用空调自动控制温度并决定运行时间,所以多余的配置可以作为冗余配置,对机房专用空调的效率与耗电量不大。本书采用设计估算与事后调整法进行数据中心机房专用空调配置与能效计算。
2. 数据中心机房专用空调配置
设定数据中心的IT类设备热负荷为100kW,并且固定不变。根据设计估算与事后调整法,还需要确定机房的面积。
再假定数据中心的热负荷密度为平均热负荷密度,即4kW/机柜。也就是说,平均每个机柜为4kW的热负荷。
数据中心的机柜数量为100kW/4kW=25(台)
按国家标准《数据中心设计规范》(GB 50174—2017)有关机柜占地面积的计算方法。
(1)当计算机系统设备已选型时,可按下式计算。
A=KΣS
式中,A为计算机主机房使用面积(m2);K为系数,取值为5~7;S为计算机系统及辅助设备的投影面积(m2)。
(2)当计算机系统的设备尚未选型时,可按下式计算。
A=KN
式中,K为单台设备占用面积,可取3.5~5.5(m2);N为计算机主机房内所有设备(机柜)的总台数。
取每个机柜的占地面积为中间值4m2/台,则数据中心的面积为
25×4=100(m2)
假定环境热负荷系数取0.15 kW/m2,则数据中心机房总热负荷为
Qt=Q1+Q2=100+100×0.15=115(kW)
数据中心送风方式选择:按国家标准要求,采用地板下送风,机柜按冷热通道布置。
机房专用空调选择:机房空调通常分为直接制冷与非直接制冷(包括各类水制冷系统等),这里先讨论直接制冷系统的机房空调。不同厂家有不同型号的机房专用空调,以某型号机房空调为例。
在温度24℃、相对湿度50%工况下,某型号机房空调制冷量为60.6kW,两台空调的总制冷量为121.2kW,略大于115kW的计算热负荷。
根据国家标准《数据中心设计规范》(GB 50174—2017)中关于数据中心空调配置的建议,数据中心通常建议采用N+M(M=1, 2, …)配置形式,以提高工作可靠性与安全性。
假设本数据中心采用N+1方式配置,即为2+1方式配置3台标称冷量为60.6kW的机房空调,实现两用一备工作。
3. 数据中心机房专用空调耗电量与能效计算
机房空调耗电器件包括压缩机(也是主要的耗电器件)、室内风机、室外风机、室内加湿器、再热器(用于过冷状态下加热)、控制与显示部件等,耗电量较少,可忽略不计。
1)压缩机、室内风机、室外风机的耗电计算
压缩机、蒸发器、膨胀阀、冷凝器组成一个完整的冷热循环系统(空调四部件),耗电部分是压缩机、室内风机、室外风机3个部件。
详细计算不同工况下3个部件的耗电量是十分困难的,但在最大制冷量输出下,空调行业有一个标准的参数,即能效比。
能效比即一台空调用1kW的电能可以产生多少千瓦的冷/热量,采用性能参数COP或能效比EER衡量。例如,一台空调的制冷量为4 800W,制冷功率为1 860W,制冷能效比(COPC)为4 800/1 860≈2.6;制热量为5 500W,制热功率为1 800W,制热能效比COPH(辅助加热不开)为5 500/1 800≈3.1。
显然,能效比越大,空调效率就越高,空调也就越省电。
机房专用空调因为采用专用压缩机,所以能效比为3.3~3.5。本例中按最大负荷制冷功率115kW计算,则3台机房空调为两用一备。
两台制冷量60.6kW空调,总制冷功率为121.2kW,取能效比中间值3.4计算,则四部件电功率为
P四部件=P制冷/COP=121.2/3.4≈35.65(kW)
2)室内加湿器功率
由于数据中心机房的环境、建筑条件、密封状态等不同,因此加湿功率也不同。
某机房空调采用远红外加湿器(见图5-10),结构简洁,易于拆卸、清洗和维护。悬挂在不锈钢加湿水盘上的高强度石英灯管发射出红外光和远红外光,在5~6s内,使水盘中的水分子吸收辐射能以摆脱水的表面张力,在纯净状态下蒸发,不含任何杂质。远红外加湿器的应用减少了系统对水质的依赖性,其自动冲洗功能使水盘更清洁。
图5-10 远红外加湿器
查相关产品手册远红外加湿器功率为9.6kW。
P加湿器=9.6kW
空调系统总的电功率消耗与能效指标为
功率:P空调=P四部件+P加湿器=35.65+9.6=45.25(kW)
能效指标:制冷能效因子CLF=45.25/100≈0.453
至此,数据中心的PUE为
PUE=1+PLF+CLF=1+(0.108~0.114)+0.453=1.561~1.566
显然,一个设计与运营良好的数据中心,在空调系统配置正确,不考虑照明、新风机等设备的情况下,其PUE值小于1.6。而当前实际运行的采用常规制冷方式的数据中心PUE普遍高于这个标准,甚至动辄达到2.5。究其原因,一方面有数据中心设计和运维方案的不合理性,随着数据中心投入年限的增加,这种问题也变得愈发突出;另一方面是目前数据中心PUE还没有一个可行的测试标准,使得数据中心实际运行时的PUE有一定的盲目性。
5.2.4 数据中心PUE测试方法
随着云计算、物联网等新兴概念和技术的迅速发展,在给IT产业和用户带来革命性改变的同时,也使数据中心基础设施建设与运维面临着更多的挑战。降低能耗、节省成本,成为建设绿色数据中心的核心目标。2011年,在国家发改委、工信部和财政部联合开展的云计算示范工程中,明确要求数据中心的PUE应小于1.5。
在此背景下,出台了一些地方及行业规范,对机房的能耗测试评估指标及检测方法进行实质性的规范说明,如《数据中心能耗检测指南及实施细则》。
2018年10月19日,“微模块产品PUE测试规范”“空调产品PUE能效因子测试规范”标准审查会在中国信息通信研究院召开,TGG(中国)微模块产品PUE测试规范和空调产品PUE能效因子测试规范通过审查。这两个规范首次对微模块产品和空调产品的PUE测试提出了具体的方法和测试流程,使得PUE的测试规范更加完整和全面。
1. 数据中心能耗结构
《数据中心能耗检测指南及实施细则》将数据中心的能耗结构分解为图5-11所示的几个部分。
1)输入能源
输入能源主要由三部分组成:主供电电网、发电机、非主供电电网(由个别设备引入)。太阳能、风能等再生能源,最终都用输入到数据中心的电能表示。发电机能源作为补充电力不足和应急的发电机能源输入应按年平均运行时间折算到主供电电网。非主供电电网能源输入应按实际用电情况并入主供电电网。太阳能、风能等再生能源应以最终输送给数据中心的电量计入主供电电网或非主要能源输入。
图5-11 数据中心的能耗结构
2)IT负载
IT负载为数据中心正常运行情况下的输入有功功率。
3)供配电及UPS系统
供配电系统由高压配电、变压器、配电柜、线缆传输、UPS系统、空调制冷系统配电、安全照明配电、列头柜、机架PDU等环节组成。UPS系统包括UPS主机(单机或冗余并机)、电池、并机柜(包括维修旁路)等。
4)空调制冷系统
空调制冷系统主要包括机房内使用的空调设备(包括机房专用空调、湿度调节设备等),提供冷源的设备(包括风冷室外机、冷水机组、冷却塔、干冷器、水泵、电动阀门、水处理设备等),新风系统(包括新风预处理和送风系统等)。
5)其他设施
其他设施是指数据中心中其他消耗电能的基础设施设备,包括照明设备、安防设备、消防灭火设备、传感器及数据中心的管理系统等。
根据上述数据中心的能耗结构,根据供电架构,将数据中心分为独立供电系统和共用供电系统两种情况,分别进行测量计算。
2. 测量周期和频率
能耗指标的数值受各种因素的影响,会随季节、节假日和每天忙闲时段的改变而发生变化,因此为全面、准确地了解数据中心的能效,应采用固定测量仪表对数据中心能耗进行持续、长期的测量和记录,且测量时间越长,得到的PUE指标越能反映数据中心真实的能耗情况。
各个规范给出的建议测量周期和频率相近,一般规定如下。
(1)按不同季节每年测量4次,分别在春季(3—5月)、夏季(6—8月)、秋季(9—11月)、冬季(12—2月),每个季节内选取一个月作为一个时段进行测量。
(2)每个时段测量时间不少于3天,在一个月的第5日、15日、25日进行测量。
(3)每天测量不少于两次,分别在数据中心业务繁忙和空闲时进行测量。
(4)每次测量不少于1小时,取稳定数值或3次测量的平均值。
(5)每次测量时,要注意对各点和各环节测量的同时性,测量周期和测量频率应在测量报告中明确说明。
3. 测量仪表和工具
所有测量数值都用有功功率表示,周期性测量时,都要使用同一型号和规格的仪表和工具,有变化时应对新的仪表和工具进行比对校准,仪器应每年或定期由国家认可的单位进行校准。
4. 简化测量相关规定
为简化测量步骤和难度,对部分设备和环节的运行效率数据进行近似认定,并在计算公式中采用。
(1)市电输入变压器(高压变低压)的效率典型值为98.5%。
(2)变压器次级输入到UPS输入端的各级配电和线缆传输的效率典型值为99%。
(3)变压器次级输入到空调制冷系统输入端的各级配电和线缆传输的效率典型值为99%。
(4)UPS输出到IT设备输入之间的各级配电和线缆传输的效率典型值为99%。
(5)非主供电网到空调制冷设备输入之间的变压器损耗典型值为98.5%,各级配电和线缆传输的效率典型值为99%。