面向可持续数据中心运营的多物理场驱动机器学习研究

本研究即将发表在 《IEEE Energy Sustainability Magazine》 Issues 1 2026 Feb,作者为:王睿航,张庆昂,荚济民,文勇刚(南洋理工大学), Stuart Kennedy (DayOne)

摘要

人工智能(AI)的快速发展给数据中心管理带来了可持续性挑战,主要源于高功率密度机架带来的高碳排放和极短的冷却响应时间。尽管机器学习(ML)在智能化管理方面具有潜力,但其落地仍受到安全性和可靠性的制约。为此,我们提出一种多物理场驱动的机器学习(MPIML)框架,将物理先验融入数据驱动模型,以提升精度和安全性。我们构建了一个由 DCLib(设施建模)、DCTwin(高保真多物理场仿真)和 DCBrain(决策优化)三大核心引擎组成的系统架构。基于该体系,可支持碳感知 IT 调度、安全感知冷却控制、电池健康预测等关键预测式与处方式应用。在一个工业级数据中心冷却控制案例中,MPIML 相较传统方法可每年减少最高 20 万吨碳排放,同时满足各项运行约束。最后,我们总结了实现自主化、可持续数据中心所面临的主要挑战,并提出未来的研究方向。

1 引言

数据中心行业正在快速扩张,其增长动力主要来自云计算、数据存储以及人工智能服务需求的不断提升。随着数据中心规模和系统复杂度的增加,其碳排放也持续上升。根据国际能源署(IEA)的预测,2025 到 2030 年间,全球数据中心的碳排放将达到 3.2 亿吨,年均复合增长率为 9.9%。这种增长主要由用于 AI 训练和推理的数据中心增多所推动。统计数据显示,新一代大型语言模型在训练阶段的碳排放显著更高,例如 GPT-3 为 588 吨,GPT-4 为 5,184 吨,Llama 3.1(405B)更是达到 8,930 吨。

数据中心碳排放的持续增长,使得在提升可持续性的同时维持系统可靠性面临更多运营挑战。一方面,数据中心运行过程中的碳排放受多项因素影响,包括电能使用效率(PUE)和电网碳强度。PUE 是数据中心总能耗(包含冷却能耗)与实际提供给 IT 设备的能耗之比,数值越低表示能效越高。电网碳强度是每单位供电产生的温室气体排放量,其会随地理位置以及电网发电结构随时间变化而改变。在相同能耗水平下,较低的碳强度意味着更低的运行碳排放。因此,提升数据中心可持续性的关键方法包括降低 PUE 和能源供给的碳强度,例如通过优化冷却策略或者将 IT 负载迁移到碳强度更低的时段或地区。另一方面,数据中心的可靠性通常通过运行时间(uptime)衡量,这关系到业务连续性。可靠性既受到网络安全因素影响,也受温度、湿度等物理因素影响。本文重点讨论这些物理因素对数据中心运营可靠性的影响。

为应对这些挑战,基于机器学习的方法展现出显著潜力。例如,Wei 等人近期的研究利用深度强化学习(DRL),通过与仿真数据中心环境交互来设计高能效的冷却控制策略。与传统反馈控制体系(如常见的 PID 控制器)相比,DRL 在预测控制和多目标优化方面具有更强能力,实验证明其可使冷却系统的能耗与相应碳排放降低 26.9%。尽管如此,仍仅有约 19% 的受访者对在真实数据中心部署 ML 方案感到有信心。信心不足主要来自两方面原因:其一,纯数据驱动模型往往需要规模大且多样的数据集,尤其是罕见或异常工况,而这些数据在稳定运营的数据中心中难以且代价高昂地获取;在数据覆盖不足的情况下,ML 模型容易在训练未涵盖的情形上产生不符合物理规律的结果。其二,数据中心作为关键基础设施,风险规避意识强,如果缺乏充分的安全验证,基于机器学习的控制策略可能会引入额外风险,从而限制其实际部署。

为弥合理论与应用之间的差距,本文提出将物理先验融入传统的机器学习方法。物理驱动机器学习(PIML)是应用机器学习中的新兴方向,其核心思想是在训练数据之外加入物理先验,用以约束模型,使结果更准确且符合物理规律。鉴于将物理知识融入 ML 模型所带来的潜在收益,研究 PIML 在数据中心建模与优化中的应用具有重要意义。然而,数据中心是高度集成、复杂且跨学科的网络物理系统,单一物理领域不足以刻画其整体动态;从系统优化角度看,仅优化某一物理域也无法保证整个系统达到最优。基于此,我们提出多物理场驱动的机器学习(MPIML)框架,以推动数据中心运行能力的提升。相比传统数值方法,MPIML 可降低整体系统建模对数据量的依赖,并显著提升仿真速度,从而适用于多类数据中心优化任务。

为了展示基于 MPIML 的解决方案,本文首先提出一个参考框架,用于说明数据中心在不同阶段中可获得的数据与物理信息,并探讨物理知识如何在各子系统中增强机器学习模型的能力。随后,我们提出一个由 DCLib、DCTwin 和 DCBrain 三大引擎构成的集成系统架构,以支持 MPIML 技术的研发与部署,从而实现数据中心的全局建模和可持续性优化。我们以一个工业级数据中心的冷却优化案例为例,展示了 MPIML 方法的有效性。基于该方案,我们进一步讨论物理驱动方法在提升数据中心可持续性上的挑战与机遇,并对未来的发展方向进行了展望。

2 面向物理感知数据中心的蓝图

本节从多物理场视角整体介绍数据中心系统的互联结构,并说明在不同建模场景下能够获取的数据与物理信息。

2.1 数据中心:复杂多物理耦合系统

数据中心是一个高度复杂的网络物理系统,涉及多个学科领域。图 1 展示了典型数据中心的体系结构,其由三个主要且相互耦合的子系统组成:计算系统、冷却系统和供电系统。这些系统之间的交互涉及多种物理过程,例如流体力学、传热学、机械原理、电磁学等。为了准确描述整个数据中心的耦合动态,一个全面的建模框架必须涵盖多个关键的物理领域。

图 1 展示了一个典型的冷冻水冷却型数据中心,其中由计算系统、冷却系统和供电系统三部分相互连接构成。冷却系统包括数据大厅的空气循环、带有冷冻水回路的冷机房,以及冷凝水回路等组件。供电系统则由电网、可再生能源、UPS 和 PDU 组成。不同的物理过程分别作用于这些组件,构成完整的数据中心多物理场体系。

热力学与传热:数据中心中的传热过程需要 CRAH 单元、水泵等机械设备推动流体循环,而这些设备也会消耗电力。在典型的冷冻水冷却系统中,热量依次通过室内空气循环、冷冻水循环以及冷凝水循环从数据大厅被移除。

流体力学:该领域描述数据中心内部各类流体的运动,包括数据大厅内复杂、常呈湍流状态的气流模式,这些模式受冷热通道封闭和架高地板下风道等因素影响。同时也包括冷机房管网中冷冻水的流动,以及 CRAH 单元内部制冷剂的循环。

空气湿度学:作为热力学的一个专门分支,空气湿度学处理空气与水蒸气混合物的性质。对湿度的精准控制对数据中心至关重要,因为高湿度可能导致硬件腐蚀,而低湿度可能引发静电放电,因此建立湿度模型非常必要。

电力与能源:此领域涵盖所有设施组件的电力消耗,从服务器、交换机到驱动冷却系统的水泵、风机和压缩机。能量守恒原理指出,IT 设备消耗的所有电能最终都会转化为必须被移除的热量,这为整个系统提供了核心的物理约束。

我们所引入的物理先验,是支撑数据中心各系统运行的基本物理规律。例如,在空气冷却的数据大厅中,需要通过结合纳维—斯托克斯方程与能量平衡方程来描述热—流体耦合过程,从而建立大厅内的热力学模型。对于空气侧与冷冻水侧之间的换热器,必须引入能量平衡原理,以确保 IT 设备产生的热量(加上其他热增益)与冷却系统所移除的热量相等。在机械系统的能耗建模中,我们采用水泵和风机的相似定律(Affinity Law),该定律明确描述了转速、流量与功率消耗之间的关系。例如,功率通常与转速的三次方成正比。这些成熟的方程为机器学习模型提供了坚实的物理基础。此外,各物理域之间高度耦合,这意味着某一领域的操作可能在其他领域产生显著且有时是反直觉的影响。因此,多物理场建模方法是必要的,因为仅优化单一领域(例如数据大厅的气流)并不能确保整个系统达到全局最优。

图 2  数据中心不同阶段中数据与物理信息的完整性。图中的中间区域代表数据中心中的典型场景,在这些场景里物理信息并不完整,可能缺少参数取值,或存在未建模的物理项。

2.2 数据与物理的融合分布

要成功建模数据中心这样复杂的系统,很大程度上取决于能获取的数据量以及已有的先验知识。构建数据中心的 MPIML 模型时,需要对手头的资源有清晰认识,这些资源可以沿两个维度来理解:数据的可获得性与物理知识的完整性,如图 2 所示。数据可获得性从极度不足(如设计早期仅能依赖仿真数据),到非常充足(如实际运行的数据中心拥有大量实时传感器)都可能存在。物理完整性则可能从控制方程明确、参数清晰的系统,一直到动力学复杂、规律不明的系统。大多数运行中的数据中心都处在这条谱系的“中间地带”,既能获得部分运行数据,也掌握部分相关物理规律。但受限于实际运行条件,可收集的数据往往覆盖范围有限,而模型也可能不完整,例如缺少关键参数或未包含某些物理项。我们将这一类情况进一步划分为两个典型场景。

未知参数模型:在这种情况下,尽管某个物理过程的方程形式是已知的,但其中的参数并不明确。因此,需要通过实际测量的数据来估计或识别这些未知参数。例如,描述风机功耗的相似定律本身是明确的物理规律(如功率通常与风机转速的三次方成正比)。但这类关系中的具体系数往往因风机型号、安装方式等而异,需要依赖运行数据来确定。

缺失项模型:这一情形意味着虽然主要的物理过程已被建模,但其他影响因素并未被完整或精确地纳入模型。例如,一个数据大厅的热力学模型可能准确刻画了主要热源——IT 设备,但却忽略了次要热源,如窗户带来的太阳辐射、墙体渗透的热量,或工作人员的代谢热。在这种情况下,可以训练一个机器学习模型来学习“残差项”,用于补偿这些未建模的物理影响。

图 3 展示了支持数据中心建模与优化的 PIML 核心引擎体系结构。该系统由三个用于数据中心建模与优化的核心引擎组成,分别是 DCLib、DCTwin 和 DCBrain。相关应用展示了该框架在可持续性方面的实际潜力,例如提升能效/PUE、降低碳排放,以及增强可再生能源的接入能力。

3 面向可持续数据中心的PIML系统与智能演进

本节介绍由 MPIML 支撑的数据中心系统架构设计,以及数据中心管理中的智能演进路径。

3.1 面向数据中心的集成式 MPIML 架构

图 3 展示了用于数据中心的 MPIML 系统架构设计。该架构由 DCLib、DCTwin 和 DCBrain 三个相互协同的引擎组成,用于支持跨物理域的建模与优化。

DCLib:我们首先构建了一个灵活的 Python 库,用于方便地创建数据中心的设施模型。DCLib 提供了一个完整的框架,能够从信息层到物理层全面描述数据中心的各类对象。具体而言,该库包含建筑模块,为墙体、地板等关键建筑材料提供数据类。它还包含冷却模块,为 CRAH 单元、冷机、冷却塔等冷却系统提供类定义。此外,该库还涵盖数据中心的电力基础设施,如变压器与发电机。IT 设备模块提供服务器和机架的类定义,而工作负载模块用于管理不同类型的 IT 负载,包括作业与任务。凭借这些完备的模块,DCLib 成为构建、管理和模拟数据中心模型的一站式工具。

DCTwin:DCTwin 是一个面向数据中心的高保真数字孪生平台,能够支持复杂的多物理场耦合仿真,并实现各子系统的高精度联动模拟。它以 DCLib 输出的建模配置文件作为输入。DCTwin 的核心由可微分的物理驱动模型库构成,基于 PyTorch 与 Nvidia PhysicsNeMo,可用于热力学、流体力学、空气湿度学以及设施能耗等多物理域的仿真。此外,DCTwin 集成了来自多个学科领域的开源建模工具,用于生成训练数据并验证 PIML 模型的性能。主要工具包括用于 CFD 模型的 OpenFOAM、用于设施能耗分析的 EnergyPlus、用于电力分配建模的 Mesmo,以及用于 IT 负载调度的 CloudSim。

CDCBrain:系统的最上层是 DCBrain 引擎,用于支持多种类型的决策优化任务。该引擎整合了多种策略形式,包括无模型方法、有模型方法以及规则驱动方法。这些策略依托先进的工具库构建,例如 Tianshou、CVXPY 等。用户可以根据数据中心的运行需求设定优化目标与约束条件,并利用该引擎求解最优策略,例如具备安全约束的节能型 DRL 策略。

3.2 面向数据中心管理的智能演进

图 4 展示了 MPIML 所支持的智能演进路径,其包含三个关键的发展阶段,用以提升数据中心的运行能力。具体而言,每个阶段的目标如下:

预测型智能:基础层的智能旨在构建高保真、可实时运行的数据中心状态预测模型,包括热力学行为、设施能耗以及设备健康状态等。这些预测模型能够在不同边界条件和外部输入下预测系统状态变化,用于开展“假设场景”分析。预测结果可用于评估与验证系统可能的升级收益或性能退化。为确保预测精度,该阶段需要根据运行数据对模型中的未知参数进行校准。完成校准后的模型还能用于生成合成数据,缓解 §II 所讨论的数据稀缺问题。在某些领域,单次前向计算可能需要巨大的资源,例如运行 CFD 模型来预测数据大厅的精细温度场。如此高的计算开销不仅影响离线使用效率,也使得在线决策优化难以实现。为解决该问题,需要采用有效的模型降阶技术,以减少原始模型的计算负担。经过降阶的模型应能够在保证精度的前提下实现实时预测。

图 4 展示了 MPIML 智能演进的三个层级。预测型智能层级的目标是实现准确、及时的系统状态预测。决策型智能层级旨在利用前一阶段构建的模型来支持决策制定与优化。最终,这些策略与模型将被部署到实际数据中心中,并在运行过程中持续自适应调整。

决策型智能:第二层智能标志着系统从被动预测迈向主动的在线决策与优化。除了用于离线的假设情景分析外,上一阶段构建的预测模型还可用于辅助在线的决策优化。本阶段的目标是构建具备处方式能力的模型,以提升数据中心运营,例如节能冷却控制、面向可再生能源的 IT 资源规划、电池系统维护等。预测模型可通过基于采样的方法或基于梯度的方法来推动策略的开发。在基于采样的方法中,通常采用 DRL,通过包含多目标的奖励函数来学习参数化策略。举例来说,相较于只关注单一目标(例如维持某个温度设定点)的传统规则控制,DRL 策略能够在奖励函数中同时纳入功耗与温度等因素。借助已构建的预测模型,DRL 策略可以通过大量的模型交互进行训练。而在基于梯度的方法中,目标函数与约束函数必须对决策变量是可微的。因此,预测模型需要能够通过自动微分提供梯度信息。

自适应型智能:路线图的最高层是自适应智能,它在数据中心的整个生命周期中持续发挥作用。在线部署之后,该阶段旨在实现完全自动化,使已有模型与策略能够随系统变化(例如设施升级)自动调整。与前两个阶段相比,本阶段要求模型与策略在系统配置改变时仍能保持良好性能。为满足系统的约束条件,本阶段需要能够实现快速且安全调整的方法。因此,之前构建的预测模型应能够对随时间变化的系统动力学与配置进行外推。在这一点上,MPIML 方法具备明显优势,因为数据中心的基础物理规律在生命周期内始终保持一致。该层级的功能将尽可能减少人工干预与人为错误,提高管理效率,并促进可持续数据中心的自动化运行。

通过这一演进路线,我们的目标是将数据中心的运行方式,从当前的被动响应模式逐步提升到优化且自动化的水平。接下来,我们将介绍相关的应用场景以及支撑这些能力的关键技术。

图 5 展示了基于 MPIML 的预测型与决策型智能在多个应用场景中的支持能力。(a) CFD 模型自动校准,(b) 冷却系统的假设情景分析,(c) UPS 电池健康状态预测,(d) 具备安全约束的智能冷却控制,(e) 面向可再生能源与电网协同的 IT–设施联合优化。

4 应用与支撑技术

本节展示了由 MPIML 支撑的数据中心应用案例,覆盖从预测型到决策型的不同智能层级。

4.1 预测型应用

CFD 模型自动校准:CFD 模型广泛应用于数据大厅的设计原型构建,以及数据中心运行过程中的假设情景分析。然而,人工校准 CFD 模型以确定合适的参数设置十分耗时且费力。基于 PIML 的 CFD 代理模型具有优势:它们能够随着在线数据不断更新,并对特定输入保持可微,因此非常适合用于校准具有未知参数的原始 CFD 模型。如图 5(a) 所示,PIML 模型能够替代计算开销大且不可微的原始模型,从而利用梯度下降方法辅助参数搜索。通过融合已知物理规律与运行数据,物理驱动的代理模型在精度与生成训练数据的成本之间实现了良好平衡。通过提升仿真模型的高保真度,该应用为后续决策优化奠定基础,使系统能够在确保安全的前提下降低能耗与碳排放,突破传统依赖高能耗的保守运行方式。

冷却故障评估: 冷却系统发生故障不仅会导致服务中断,还会触发效率极低、能耗巨大的应急运行模式。因此,如图 5(b) 所示,主动开展冷却风险评估是确保设施以最佳效率运行并将能源浪费降至最低的必要前提。尽管可以采用多种 CFD 软件,但其求解成本极高,而且通常无法将冷站系统的故障纳入模拟。为解决这些问题,可以利用 MPIML 构建数据大厅与冷站的瞬态联合仿真模型,用于预测冷却故障。具体而言,可采用正交分解(POD,一种用于简化复杂空间数据表示的数学方法)结合热通量匹配,以及物理驱动神经网络(PINN,将物理方程嵌入训练过程的神经网络)来构建空气热力学模型。为了将空气热力学与冷冻水循环耦合,需要对换热器进行建模,例如 CRAH 中的冷却盘管。换热模型用于计算通过冷冻水盘管的水流量,以满足送风温度和湿度比的设定值。该模型可以通过隐式机器学习来获得,即基于能量平衡方程求解满足设定目标的冷冻水流量。此外,水系统中的设备(如水泵、冷机、冷却塔)的能耗模型可结合相似定律与运行数据进行识别。由于引入了物理先验,这些模型相比纯数据驱动模型通常需要更少的训练数据,并具备更强的外推能力。

电池系统健康预测: UPS(不间断电源)系统对数据中心的可靠性至关重要,而其中的电池不仅决定业务连续性,也在接入现场可再生能源和参与电网需求响应中发挥关键作用。预测电池健康状况不仅有助于避免宕机,还能在确保储能可在可再生能源离线时承担负载的前提下,延长电池资产的使用寿命,从而摊薄隐含碳排放。为降低风险、减少停机成本,必须提前预测 UPS 电池的健康状态(SoH)与剩余寿命(RUL),并采取相应的预防性维护。然而,UPS 电池常年处于浮充状态,很少经历真实的充放电过程,因此动态数据极其有限,不利于构建高质量的健康预测模型。如图 5(c) 所示,MPIML 能够综合利用电池内部的电化学、机械和热过程,因此在解决数据稀缺问题方面具有巨大潜力。电池健康与阻抗谱密切相关,而阻抗谱可通过反映电池电化学特性的电路模型进行模拟。此外,热特性与机械特性也能作为识别电池异常状况的重要指标。例如,异常的热量产生可能表明电池内部阻抗升高或发生局部短路。综合利用这些物理过程能够有效约束健康预测模型的训练,并显著降低对大量数据的依赖。

4.2 决策优化型应用

具备安全约束的智能冷却控制:冷却控制优化对于降低数据中心的能耗和相关碳排放十分关键,因为冷却通常占据约 35% 的用电量。现有冷却控制多采用 PID 控制器,将温度与相对湿度维持在目标设定点,但往往未充分考虑其能耗影响。目前广泛研究的基于 DRL 的冷却优化策略在降低能耗与碳排放方面表现出色。然而,DRL 智能体通常依赖试错式探索,这在真实系统中可能带来潜在风险。为减少此类风险,需要利用已知的物理规律对智能体的探索行为进行约束。具体而言,如图 5(d) 所示,可以将热力学模型作为安全层,通过求解二次规划来引导智能体的探索过程。在物理约束下,智能体能够以更少的违规行为学习到最优的冷却控制策略。探索过程中生成的数据还可用于识别设施能耗模型的参数,例如 CRAH 风机、水泵和冷却塔。在获得系统模型后,可以进一步采用基于模型的 DRL,以得到更高效的节能型冷却控制策略。

面向可再生能源的 IT–设施联合优化: 随着数据中心用电量不断攀升,将可再生能源纳入电力供给体系对于降低碳排放、实现可持续运营愈发关键。然而,可再生能源通常具有间歇性和区域分布不均的特点。为提高可再生能源的利用率,一种可行方式是同时调整 IT 负载调度并优化冷却控制。要实现负载迁移与设施控制的联合优化,需要建立能够全面评估数据中心碳排放并预测可再生能源发电量的模型。在这一点上,MPIML 通过精细化刻画设施能耗,有望实现数据中心碳排放的整体评估。利用这些模型,如图 5(e) 所示,优化目标是在满足 SLA 约束和需求预测的前提下,通过调节冷却设定点与 IT 资源配置来降低数据中心的整体碳排放。该优化问题可通过 MPC(模型预测控制)进行求解。

4.3 自适应型应用

物理驱动的终身优化 该阶段的实现依赖在线学习与终身学习技术。物理驱动模型并非静态,而是被设计为可持续校准的动态系统。当来自真实数据中心的新数据持续产生时,该框架会自动更新模型参数(例如热阻、风机效率曲线),以反映系统老化或设备升级带来的变化。这使得 DCBrain 生成的优化策略始终保持准确有效,最大限度减少人工干预,并在数据中心全生命周期内维持最佳的可持续性表现。

5 示例案例:基于 MPIML 的冷却控制优化

本节通过一个数据中心冷却控制优化的示例案例,展示基于 MPIML 的解决方案在实际应用中的性能表现。

5.1 测试平台介绍

为评估基于 MPIML 的解决方案性能,我们使用马来西亚某行业级数据中心的配置和历史数据构建了仿真测试平台。该数据中心由七个数据大厅组成,IT 设计容量为 18,350 kW。如图 6(a) 所示,冷机房包含五台冷机,每台冷机的制冷量为 4,572 kW,并配有相应的冷冻水泵。每条冷却水回路配置两座并联运行的冷却塔,并配有一台冷却水泵。在该案例中,我们选择冷机房及其关联的一个数据大厅进行评估,如图 6(b) 所示,该数据大厅包含 22 台 CRAH 设备,并采用热通道封闭设计。具体而言,优化目标是通过调整设施设定点(包括 CRAH 送风温度、CRAH 风机转速比例以及冷冻水供水温度),降低整个冷却系统的碳排放。服务级别协议(SLA)要求 IT 设备进风温度需维持在 27°C 以下,且相对湿度保持在 30%~60% 之间。

图 6 示例案例。(a) 冷机房测试平台系统,(b) 一个用于优化的关联数据大厅,(c) 覆盖空气、冷冻水与电力等多物理量的平均相对预测误差,以及 (d) 基于马来西亚电网排放因子 0.758 kgCO₂e/kWh,不同方法相较于现有策略在一年内的碳排放减量。

5.2 PIML 集成机制

PIML 的集成通过数据大厅与冷机房的耦合系统模型来实现。具体而言,我们采用能量平衡方程,以结点形式构建数据大厅的热力学模型。CRAH 的换热过程采用传递单元数(NTU)方法进行建模,用于计算空气与冷冻水循环之间的换热量。对于机械设备,如风机和水泵,其能耗由相似定律描述。这些方程作为预测模型的物理先验,而模型中的未知参数(如盘管几何参数、效率系数、性能曲线系数等)则通过运行数据进行学习。该物理驱动模型为基于模型的优化提供了一个高保真、可微分的仿真环境。我们的 MPIML 框架的核心原理不仅适用于热带地区,也能推广至其他环境。例如,在寒冷地区,热力学模型会进一步纳入自由冷却等现象。对于水下数据中心等新兴概念,模型则会侧重水动力学以及与周围水体的直接换热过程。

5.3 对比方法

我们分别从模型精度和冷却系统碳排放减排效果两个方面评估性能。在模型精度方面,我们比较纯数据驱动模型与物理驱动模型在预测不同物理量时的表现,这些物理量包括空气温湿度、冷冻水流量以及能耗。在冷却节能方面,我们评估如下几类方法的表现:

固定策略:该策略对应目前数据中心的实际运行方式,即将送风温度、风机转速比例与冷冻水供水温度设定为固定值。这是所选数据中心站点当前采用的运行策略。我们将其作为碳排放对比的基准方案。

无模型强化学习:该方法采用软演员–评论家(SAC)作为单智能体优化算法,通过大量系统交互学习控制策略,而无需构建系统动力学模型。

单域优化:该方法仅考虑数据大厅内部的物理过程,例如热力学与相似定律,用于构建数据大厅空气回路模型以执行模型预测控制,而不包含冷机房的动力学。

多域联合优化:该方法同时考虑数据大厅与冷机房涉及的多物理过程,构建整体的数据中心系统模型进行优化。具体而言,它综合考虑空气–水换热、CRAH 风机能耗、冷机能耗以及水泵能耗等因素。

对于基于模型的方法(即单域优化与多域联合优化),我们设置的预测时域为 1 小时,控制间隔为 5 分钟。优化问题通过 PyGRANSO 中开发的开源可微 BFGS-SQP 求解器完成求解。对于无模型强化学习方法,SAC 智能体的策略网络与价值网络均由两层隐藏层组成,每层包含 256 个神经元,并采用 ReLU 激活函数。策略的训练批大小设为 512,更新频率为每 288 个步长进行一次更新。学习率设置为 1e-3,经验回放池的大小为 1e6。

5.4 性能评估

首先,我们评估模型的预测误差。在给定运行中的 IT 负载和冷却控制动作的条件下,模型分别用于预测回风温度、相对湿度、满足送风设定点所需的冷冻水流量,以及整个冷却系统的能耗。我们选取了一周的数据中心运行数据,其中五天用于训练,另外两天用于测试。图 6(c) 展示了测试阶段的预测误差雷达图,误差以平均相对误差(MRE)为指标。该指标表示绝对误差与真实观测值的比值,因此是无量纲的百分比形式。例如,MRE 为 0.05 意味着平均预测误差相当于真实值的 5%。从结果可见,仅基于运行数据训练的物理驱动模型将 MRE 控制在 5% 以内,而纯数据驱动模型的 MRE 较高,约在 7% 到 9% 之间。随后,我们采用训练后的模型进行冷却控制优化。图 6(d) 展示了不同优化策略带来的年度碳排放减量。与固定基线策略相比,基于 MPIML 的策略实现了最高的碳减排量,每年可减少约 20 万吨碳排放,分别是无模型 RL 和单域优化方法的 2.5 倍与 1.6 倍。这表明所提出的方法能够实现整体性的数据中心可持续优化,并达到近似全局最优的运行表现。需要注意的是,引入多智能体控制有可能提升无模型 RL 的性能。但由于缺乏探索过程的监督,无模型 RL 在收敛之前需要充分探索,往往会出现严重的 SLA 违规。

6 可持续运行的挑战与未来趋势

我们的 MPIML 框架为数据中心运行优化奠定了基础,但要实现完全自主、可持续、并最终实现净零排放的数据中心,还需要解决一系列核心挑战。这些挑战构成了未来研究的重要方向,对于提升能源效率、实现深度可再生能源融合,以及保障数据中心在持续演进过程中的安全与可靠运行至关重要。

6.1 模型的适应性与可扩展性

一个主要挑战是随着数据中心的物理结构不断演变,如何确保 PIML 模型始终保持准确性。现有用于热力学建模的 PIML 模型往往依赖具体几何结构,也就是说,它们通常针对特定的物理布局进行训练。当新增 IT 设备或调整气流封闭结构时,这些模型可能迅速失效,从而导致控制效果下降并造成能源浪费。重新训练这些模型通常需要大量新的 CFD 仿真,计算成本巨大。这种适应性不足直接阻碍了数据中心的长期可持续运行,因为它无法支持持续性的优化。未来研究需要聚焦具备几何感知能力的 PIML 方法,例如利用图神经网络(GNNs)在非结构化网格上学习底层物理规律。此类模型能够随布局变化实时适配,从而保持持续的能效表现,并支持满足不断增长的计算需求所需的可持续扩展能力。

6.2 多尺度异构建模

随着 AI 负载的快速增长,数据中心正加速转向异构混合冷却系统。此类系统将传统的宏观空气冷却与针对高功率 GPU 的微观高效液体冷却相结合。从可持续性的角度来看,这带来了关键的多尺度挑战:芯片级液冷的优化必须与机房级空气冷却协同推进。如果无法对整个系统进行整体建模,液冷带来的效率提升可能被抵消,不仅造成大量能源浪费,也会削弱减碳成效。因此,未来的 PIML 框架必须具备跨尺度耦合能力,例如将用于液冷回路的一维流体动力学模型与用于空气流动的三维模型相结合。跨尺度建模能力对于可持续地管理 AI 专用数据中心的高功率密度至关重要。

6.3 模型的可信性与安全性

将不确定性量化纳入 PIML 框架,有望在关键任务应用中带来重要进展。模型的建立依赖于特定的假设和前提条件,而这一固有的假设性会使模型本身具有一定程度的不确定性。因此,这种不确定性也会传递到模型的预测结果中。具体来说,不确定性可能来自多种来源,包括模型假设、数据质量不足,以及被建模系统本身的内在波动性。这些不确定性可能导致模型与真实物理系统之间出现偏差,从而使预测不够可靠,并引发次优的决策结果。因此,有必要引入不确定性量化,使模型不仅能够给出预测结果,还能够表达其对该预测的置信度。通过量化由模型假设或低质量数据引入的不确定性,我们可以构建具备安全意识的优化策略,在确保运行处于安全边界内的前提下,提高能源效率。构建这种可信性,是实现智能化数据中心在节能与减碳方面全部潜力的必要前提。

7 结论

数据中心行业不断攀升的能源消耗正对全球可持续发展目标构成严峻且日益增长的挑战。要让这一关键的数字基础设施从高能耗负载转变为可持续且具备灵活调节能力的电网伙伴,我们必须超越单纯的能效提升,推动整体性的可持续优化。本文提出了一个基于 MPIML 的框架,旨在应对这一挑战。通过将基本物理规律与数据驱动模型相结合,我们的方法能够构建适用于关键任务优化的高保真、可靠且可信的数字孪生。这一方法克服了传统机器学习在安全性与可靠性方面的顾虑,为优化复杂的可持续目标提供了可行途径,例如减少碳足迹和提升间歇性可再生能源的利用比例。我们提出了一个集成系统与智能演进路线图,以推动数据中心运行从被动响应迈向全面的预测式与自适应阶段。基于行业级设施的示例进一步验证了该方法在碳排放减少方面的显著成效。基于 MPIML 的策略为确保支撑社会运转的数字基础设施能够实现可持续运行奠定了基础。

参考文献:

  1. IEA (2025), Global data centre CO2 emissions, Base Case, 2020-2035, IEA, Paris. [Online]. Available:  https://www.iea.org/data-and-statistics/charts/global-data-centre-co2-emissions-base-case-2020-2035
  2. D. Jacqueline, B. Daniel, L. Andy, R. Owen, and S. Max, “Uptime institute global data center survey 2022,” 2022.
  3. T. Wei, S. Ren and Q. Zhu, “Deep Reinforcement Learning for Joint Datacenter and HVAC Load Control in Distributed Mixed-Use Buildings,” in IEEE Trans. Sust. Comput., vol. 6, no. 3, pp. 370-384, 1 July-Sept. 2021.
  4. G. E. Karniadakis, I. G. Kevrekidis, L. Lu, P. Perdikaris, S. Wang, and L. Yang, “Physics-informed machine learning,” Nat. Rev. Phys., vol. 3. no. 6, pp. 422-440, 2021.
  5. R. Wang, X. Zhou, L. Dong, Y. Wen, R. Tan, L. Chen, G. Wang, and F. Zeng, “Kalibre: Knowledge-based neural surrogate model calibration for data center digital twins,” in Proc. 7th ACM Int. Conf. Syst. Energy-Efficient Buildings Cities Transp., 2020. pp. 200-209.
  6. R. Wang, Z. Cao, X. Zhou, Y. Wen, and R. Tan, “Phyllis: Physics-informed lifelong reinforcement learning for data center cooling control,” in Proc. 14th ACM Int. Conf. Future Energy Syst., 2023, pp. 114-126.

Leave a Reply

Your email address will not be published. Required fields are marked *