随着5G、云计算、AIGC大模型等新技术蓬勃兴起,数据中心作为我国数字经济飞速发展的基石和算力底座,兼具高能耗属性,肩负着节能减碳的社会责任及适应算力需求的持续增长。
国家工信部数据显示,截至2022年底中国算力总规模超过150EFlops(每秒浮点运算次数),数据中心机架总规模超过650万。根据Uptime Institute的数据,截至2022年的全球中大型数据中心平均PUE(Power Usage Effectiveness,电源利用效率)为1.55,其中温控制冷系统能耗占比为25%以上。
数据中心节能审查及能耗监察趋向严格化
我国数据中心市场供需地域分布不均,东部数据算力供不应求,西部地区算力供大于求,数据中心布局向西转移,同时数据中心绿色节能发展已成趋势。“双碳”和“东数西算”的双重政策下,全国新建大型、超大型数据中心平均PUE降到1.3以下,集群内PUE要求东部≤1.25、西部≤1.2,先进示范工程≤1.15。国家强制标准GB 40879-2021《数据中心能效限定值及能效等级》正式发布,数据中心能效等级指标分别为1级(PUE≤1.2)、2级(PUE≤1.3)和3级(PUE≤1.5)。
与此同时,一线发达城市反而实行电费奖惩措施,对低效数据中心加强升级改造,力争PUE不高于1.4,推进淘汰数据中心关停并转。
降本增效,传统人工调优需要进一步解放
数据中心PUE是数据中心总耗电量(PDC, Power of Data Center)与IT设备耗电量(PIT, Power of IT)的比值,比值越趋近于1,表示一个数据中心的绿色化程度越高。数据中心总耗电量包含IT设备耗电量、温控制冷系统设备耗电量、供配电设备耗电量及辅助系统的耗能。其中,温控制冷系统作为数据中心能耗最大的辅助设备,电费支出成本在运营运行期间占30%~40%。
基于冷冻水系统的传统BA群控系统,依赖专家经验和人工手动操作调优,根据变容量的冷量需求分析和响应控制以及室外温度变化,实现基于供需平衡的能效优化。
传统BA群控系统在运维阶段能效优化难度大,一方面制冷系统原理复杂,制冷设备种类及数量多,不同设备控制变量庞大且存在响应延迟,单纯依靠运维人员的专家经验依据室外的环境温度和实时IT功率来动态调节响应已经无法满足能耗进一步降低的要求。另一方面,由于制冷系统内部和外部环境的动态特性(考虑天气),一个系统运行的定制模型和规则并不能保证另一个系统的适用,且每个制冷设备的实际运行效率也存在差异。传统BA群控系统的人工调节参数少,调节慢,效果不明显,实时性低。
AI加持使能,更深层次的软实力
数据中心开始应用多种节能创新技术,推进数据中心绿色节能,降低单位运行成本。比如,将传统低温冷冻水改为采用中高温冷冻水,充分引入间接蒸发冷却设备代替传统冷冻水,服务器液冷技术更是使数据中心PUE降低到了极致。同时,随着大数据分析及AI技术的成熟应用,基于服务器级负载响应和温度控制的iCooling@AI算法软件调优加持,使能传统冷机群控系统和末端空调群控系统能够实时调节,更频繁更高效的寻找最佳PUE,助力运行PUE接近设计PUE。
相比硬件设备的创新,华为iCooling软件调优节省投资,易交付,PUE节能见效快,投资回收期普遍<2年。
华为iCooling首先通过融合深度学习算法+能源大模型,利用华为自有数据中心大批量高质量的运行数据,基于昇腾底座的超大规模模型建模及训练调优的能力,根据系统运行的历史数据积累,结合专家知识,利用DNN方法,拟合PUE、制冷能耗、设备单机效率的数学预测模型。
基于PUE的预测模型,获取实际场景与PUE敏感的特征值,利用模型中的特征如大气条件、IT负载等参数进行负荷的数据建立本地模型。整个过程中,iCooling通过海量数据采集、数据处理(脱敏、去杂、归一等)、PUE模型训练&推理、最佳PUE决策建议下发给BA冷机群控系统和末端空调群控系统,从而实时驱动底层设备运行状态调整,周而复始的保持最佳PUE状态。另外,在负载率变化≥5%或室外温差≥3℃,iCooling重新构建PUE训练模型,自动寻优。
华为iCooling从数据安全、控制安全、运行安全三个层次解决实际应用问题,基于联邦学习和迁移学习算法,本地部署保障AI模型训练数据无需出局,同时具备双层逻辑控制的AI优化控制主动、被动退出机制,满足运维SLA要求,调测更省心。目前华为iCooling已在金融、运营商、大企业和智算中心行业应用60+案例,使能运行PUE降幅可达:水冷冷冻水8%~15%、风冷冷冻水5~8%、华为EHU 3%~5%。华为iCooling帮助数据中心运行PUE接近设计PUE的同时,也有利于客户申报零碳、绿色数据中心优秀案例。