不只是仿真:LiquidTwin 让液冷数据中心的设计与运维变得智能化

过去几年,AI 算力基础设施的变化,不只是机柜里塞进了更多芯片,而是每一块芯片都更烫、热量更难散。英伟达Blackwell 代单卡最大功耗已达1000W 量级,以 GB300 NVL72 为代表的整柜级 AI 系统,满载机柜功率已达 130kW 以上,且仍在攀升。冷却能力已经成为了制约“算力释放上限”和“低碳运行下限”的核心约束

因此,直接液冷(Direct Liquid Cooling)正在从少数 HPC 场景中的可选方案,变成高功率智算中心的关键热基础设施。

但液冷并不是简单地把“空气”换成“水”。一旦进入真实数据中心,液冷系统会迅速变成一个复杂的热流耦合网络:冷板、歧管、快接头、管路、泵、阀门、CDU、换热器、传感器、控制器相互连接;任意一个支路的流量变化,都可能影响其他支路的压降与换热能力;任意一个局部退化,也可能被系统耦合效应放大成热安全风险。

ChatGPT Image Jun 25, 2026, 05_54_24 PM

图:数据中心液冷系统一次侧、二次侧示意图 (《绿色数据中心创新实践—冷板液冷系统设计参考白皮书》)

这也是液冷系统真正的难点:

它不是看不见,而是看不懂。

工程师可以看到温度、流量、压力和功耗曲线,但很难快速判断,比如:

  • 当前系统状态是否合理?是否有异常?故障发生在哪里?
  • 现在的热裕度还剩多少?离热安全红线有多远?
  • 某条支路温度升高,是流量不足、冷板退化,还是热负荷变化?
  • 有限的传感器应该放在哪里,才能最大程度看清系统状态?
  • 如何做好算力与热的耦合管理,以最大化算力释放?

我们开发 LiquidTwin的出发点,就是打开这个黑箱。

一、LiquidTwin 是什么?

LiquidTwin是一个面向液冷数据中心的可微分数字孪生平台。它不是单纯的仿真器,而是把大语言模型(LLM)与可微分仿真结合起来,贯通设计、校准、监测、诊断和优化控制的智能平台。

它集成了两大核心能力:

  • Liquid Master:LLM辅助的系统建模和系统状态实时分析
  • Differentiable Simulator:物理驱动的可微分热流耦合仿真

这两层能力共同回答液冷系统管理中的三个核心问题:

系统应该怎么建?

系统现在怎么样?

系统接下来该怎么做?

二、Liquid Master——用对话建模,用AI读懂系统状态

液冷系统建模一直是一件门槛很高的事情。

一个完整液冷回路不仅包含冷板和管路,还涉及歧管连接、支路阻力、泵曲线、阀门开度、换热器参数、热负荷分布和边界条件。参数设置不合理会导致仿真结果偏离真实系统。

LiquidTwin内置了Liquid Master,一个与仿真平台深度集成的 LLM 智能助手。它的目标不是替代工程师做最终设计判断,而是把原本分散在拓扑表、参数表、仿真日志和曲线图中的信息组织起来,帮助工程师更快完成建模、检查和分析。

2.1 用自然语言辅助建模

用户可以用自然语言描述液冷系统结构,例如:

生成包含一次侧和二次侧的模型:二次侧双排机柜,每排两个机柜,每个机柜两个服务器。一个CDU,两个并联的冷却塔。

模型自动生成

Liquid Master 可以根据这类描述,辅助用户完成组件选择、拓扑连接和参数配置,并对明显不合理的连接关系进行初步检查。

例如:

  • 是否存在断开的支路?
  • 泵、阀门、冷板和换热器是否处于合理连接位置?
  • 边界条件是否缺失?

这可以显著降低液冷系统建模的入门门槛,让工程师把更多精力放在设计判断,而不是繁琐的模型搭建上。

2.2 从仿真结果判断系统设计是否合理

对于模型的仿真结果,传统流程通常需要工程师查看曲线、表格和日志,再结合经验判断系统是否合理。Liquid Master 则可以直接进行结构化解读。例如,在一个测试案例中,系统可以输出如下分析:

自动分析模型

当前时刻系统物理状态稳定,但冷板侧热性能存在改善空间。回路总流量约为 8.46 L/min,两条支路流量分别为 srv1 = 4.30 L/min、srv2 = 4.16 L/min,流量不均衡度约为 3.2%。泵出口压力约为 40.0 kPa,换热器入口压力约为 15.9 kPa,总回路压降处于合理范围内。

这类分析不是简单复述数值,而是把流量、压降、温度和组件状态放在同一个物理逻辑下判断。更重要的是,Liquid Master 可以进一步追问:

  • 3.2% 的流量不均衡在当前设计约束下是否可接受?
  • 如果某支路温度持续偏高,问题更可能来自流量分配,还是冷板热阻?

这使仿真结果从“数字输出”变成了“可解释的工程判断”。

2.3 读取运行数据,用数字孪生对比诊断

Liquid Master不只分析仿真结果,还能接入液冷系统的历史运行数据,并用数字孪生进行对比诊断。具体来说,它会从数据中识别出值得警惕的运行特征,例如:某支路流量持续为零、某节点温度出现非物理跳变、泵压升与流量变化不匹配、支路压降异常偏大、冷板温升与热负荷不一致、换热器进出口温差不符合能量守恒。

Liquid Master 可以主动标记这类异常,帮助用户在早期发现问题。对于复杂液冷网络,这一点尤其重要,因为很多错误并不会表现为程序报错,而是隐藏在看似正常的曲线中。

实时数据分析

三、Differentiable Simulator——模型不只会算,还会“优化”

传统仿真主要回答一个问题:给定这个设计,系统会怎样? 比如泵速从2000rpm提到3000rpm,芯片温度降了1.2°C——它告诉你结果。但对设计和运维来说,工程师真正想问的,往往是反过来的:为了让芯片温度降下来,最有效的调节方法是什么? 是提高泵速、降低供水温度,还是优化某条支路的阻力?

传统仿真很难直接回答这个“反问”——你只能一个参数一个参数地试,试错成本很高。而这,正是可微分仿真的用武之地。

3.1可微分意味着什么?

简单来说,可微分仿真不仅能给出结果,还能告诉我们:

结果对每个设计变量、运行变量和模型参数有多敏感。

传统仿真告诉你:

泵速提高后,芯片温度下降了多少。

可微分仿真进一步告诉你:

芯片温度对泵速的梯度是多少,对管路阻力的梯度是多少,对冷板热阻的梯度是多少,对供水温度的梯度是多少。

有了这些梯度,系统就不只是“可计算”,而是“可优化”。

这意味着 LiquidTwin 可以支持参数标定、控制优化、传感器布置、可观测性分析和退化诊断等任务,而不需要为每个任务重新构建一个代理模型。

3.2热动态:用常微分方程描述系统热惯性

液冷系统的温度变化不是瞬时发生的。冷板有热容,管路有热容,换热器有动态响应,服务器热负荷也会随计算任务变化。要准确描述这些过程,需要动态模型。

LiquidTwin 将冷板、管路、换热器和节点温度建模为连续时间 ODE 系统,并通过可微分ODE积分器进行仿真。这带来两个好处:

  • 第一,模型可以自然描述瞬态过程,例如 GPU 负载突增后的温度爬升、泵速调节后的滞后响应、供水温度变化后的系统过渡过程。
  • 第二,模型输出对参数、控制变量和边界条件的梯度可以沿时间反向传播,使平台能够进行长时域参数标定、控制优化和敏感性分析。

换句话说,LiquidTwin 不只是看某一个时刻的温度,而是理解系统随时间演化的机制。

3.3物理 + 数据:让模型在已知工况内更准,在未知工况下更稳

真实数据中心的运行数据往往只覆盖有限工况。出于安全原因,我们很难故意让系统进入极端流量、极端温度或接近热失效的状态去采集数据。

这会导致一个典型问题:

纯数据驱动模型在历史数据范围内可能很准,但一旦进入历史数据没有覆盖的新工况,预测结果可能变得不可靠。

因此,LiquidTwin 的动态建模采用了物理和数据融合的思想:

  • 在已知工况内,允许数据驱动残差修正物理模型偏差;
  • 当运行点超出历史数据覆盖范围时,自动降低数据驱动修正的权重;
  • 在不确定区域,让模型回到更保守、更可解释的物理骨架。

这种机制的核心思想是:数据用于提高精度,物理用于保证边界。

对于液冷数据中心这样的任务,保守性并不是缺点,而是安全运行的必要条件。一个在未知工况下“过度自信”的模型,反而可能带来更高风险。

3.4 Runtime View——让复杂系统一目了然

液冷系统的运行状态,往往是工程师最难把握的部分。

在风冷系统中,热点通常还能通过机房温度、冷通道温度、服务器进风温度大致感知。但在液冷系统中,真正关键的状态藏在冷板内部、并联支路、歧管和 CDU 回路中。

LiquidTwin 的 Runtime View 提供两类可视化能力:

  • 3D 热场可视化
  • 系统时序曲线

    图:系统状态可视化

四、LiquidTwin 可以支持哪些任务?

基于同一套可微分热流耦合仿真内核,LiquidTwin 可以覆盖液冷系统从设计到运维的完整生命周期。

阶段 典型任务 核心问题
设计阶段 拓扑建模、瞬态仿真、组件选型 系统应该怎么建?不同设计方案下热安全裕度如何?
调试阶段 参数标定、模型校准、what-if 分析 如何让数字模型与真实系统对齐?
运维阶段 实时监测、异常识别、退化诊断 系统现在是否健康?异常来自哪里?
优化阶段 控制优化、传感器布置、能效-风险权衡 如何在保证热安全的同时降低能耗?

这也是 LiquidTwin 与传统液冷仿真的关键区别。

传统仿真通常服务于设计阶段,而 LiquidTwin 希望贯穿设计、调试、运行和优化全过程。

结语:从“仿真器”到“智能化数字孪生”

未来液冷数据中心需要的不只是更强的冷却设备,还需要更智能的系统级管理能力。LiquidTwin的定位,正是从传统仿真器进一步向液冷系统的智能化数字孪生演进。

传统液冷仿真 LiquidTwin
给定参数,计算结果 支持建模、标定、优化、诊断闭环
主要服务设计阶段 同时服务设计、调试和运行
工程师手动解释结果 LLM 辅助解释和异常识别
只能正向仿真 支持反向求导和敏感性分析
模型与现场数据割裂 可与实时运行数据持续校准
关注单次计算结果 关注长期运行状态和决策支持

LiquidTwin既能正向仿真,也能反向优化;既服务设计,也支持运维;既帮工程师看见系统状态,也帮他们理解系统为什么这样、接下来该怎么做。冷却已不只是后端基础设施,而是决定算力可用性、能效和可靠性的关键系统。让液冷系统变得可理解、可优化、可运维,正是 LiquidTwin 的价值所在。

Leave a Reply

Your email address will not be published. Required fields are marked *