不只是仿真：LiquidTwin 让液冷数据中心的设计与运维变得智能化

过去几年，AI 算力基础设施的变化，不只是机柜里塞进了更多芯片，而是每一块芯片都更烫、热量更难散。英伟达Blackwell 代单卡最大功耗已达1000W 量级，以 GB300 NVL72 为代表的整柜级 AI 系统，满载机柜功率已达 130kW 以上，且仍在攀升。冷却能力已经成为了制约“算力释放上限”和“低碳运行下限”的核心约束。

因此，直接液冷（Direct Liquid Cooling）正在从少数 HPC 场景中的可选方案，变成高功率智算中心的关键热基础设施。

但液冷并不是简单地把“空气”换成“水”。一旦进入真实数据中心，液冷系统会迅速变成一个复杂的热流耦合网络：冷板、歧管、快接头、管路、泵、阀门、CDU、换热器、传感器、控制器相互连接；任意一个支路的流量变化，都可能影响其他支路的压降与换热能力；任意一个局部退化，也可能被系统耦合效应放大成热安全风险。

图：数据中心液冷系统一次侧、二次侧示意图（《绿色数据中心创新实践—冷板液冷系统设计参考白皮书》）

这也是液冷系统真正的难点：

它不是看不见，而是看不懂。

工程师可以看到温度、流量、压力和功耗曲线，但很难快速判断，比如：

当前系统状态是否合理？是否有异常？故障发生在哪里？
现在的热裕度还剩多少?离热安全红线有多远?
某条支路温度升高，是流量不足、冷板退化，还是热负荷变化？
有限的传感器应该放在哪里，才能最大程度看清系统状态？
如何做好算力与热的耦合管理，以最大化算力释放？

我们开发 LiquidTwin的出发点，就是打开这个黑箱。

一、LiquidTwin 是什么？

LiquidTwin是一个面向液冷数据中心的可微分数字孪生平台。它不是单纯的仿真器，而是把大语言模型（LLM）与可微分仿真结合起来，贯通设计、校准、监测、诊断和优化控制的智能平台。

它集成了两大核心能力：

Liquid Master：LLM辅助的系统建模和系统状态实时分析
Differentiable Simulator：物理驱动的可微分热流耦合仿真

这两层能力共同回答液冷系统管理中的三个核心问题：

系统应该怎么建？

系统现在怎么样？

系统接下来该怎么做？

二、Liquid Master——用对话建模，用AI读懂系统状态

液冷系统建模一直是一件门槛很高的事情。

一个完整液冷回路不仅包含冷板和管路，还涉及歧管连接、支路阻力、泵曲线、阀门开度、换热器参数、热负荷分布和边界条件。参数设置不合理会导致仿真结果偏离真实系统。

LiquidTwin内置了Liquid Master，一个与仿真平台深度集成的 LLM 智能助手。它的目标不是替代工程师做最终设计判断，而是把原本分散在拓扑表、参数表、仿真日志和曲线图中的信息组织起来，帮助工程师更快完成建模、检查和分析。

2.1 用自然语言辅助建模

用户可以用自然语言描述液冷系统结构，例如：

生成包含一次侧和二次侧的模型：二次侧双排机柜，每排两个机柜，每个机柜两个服务器。一个CDU，两个并联的冷却塔。

Liquid Master 可以根据这类描述，辅助用户完成组件选择、拓扑连接和参数配置，并对明显不合理的连接关系进行初步检查。

例如：

是否存在断开的支路？
泵、阀门、冷板和换热器是否处于合理连接位置？
边界条件是否缺失？

这可以显著降低液冷系统建模的入门门槛，让工程师把更多精力放在设计判断，而不是繁琐的模型搭建上。

2.2 从仿真结果判断系统设计是否合理

对于模型的仿真结果，传统流程通常需要工程师查看曲线、表格和日志，再结合经验判断系统是否合理。Liquid Master 则可以直接进行结构化解读。例如，在一个测试案例中，系统可以输出如下分析：

当前时刻系统物理状态稳定，但冷板侧热性能存在改善空间。回路总流量约为 8.46 L/min，两条支路流量分别为 srv1 = 4.30 L/min、srv2 = 4.16 L/min，流量不均衡度约为 3.2%。泵出口压力约为 40.0 kPa，换热器入口压力约为 15.9 kPa，总回路压降处于合理范围内。

这类分析不是简单复述数值，而是把流量、压降、温度和组件状态放在同一个物理逻辑下判断。更重要的是，Liquid Master 可以进一步追问：

3.2% 的流量不均衡在当前设计约束下是否可接受？
如果某支路温度持续偏高，问题更可能来自流量分配，还是冷板热阻？

这使仿真结果从“数字输出”变成了“可解释的工程判断”。

2.3 读取运行数据，用数字孪生对比诊断

Liquid Master不只分析仿真结果，还能接入液冷系统的历史运行数据，并用数字孪生进行对比诊断。具体来说，它会从数据中识别出值得警惕的运行特征，例如：某支路流量持续为零、某节点温度出现非物理跳变、泵压升与流量变化不匹配、支路压降异常偏大、冷板温升与热负荷不一致、换热器进出口温差不符合能量守恒。

Liquid Master 可以主动标记这类异常，帮助用户在早期发现问题。对于复杂液冷网络，这一点尤其重要，因为很多错误并不会表现为程序报错，而是隐藏在看似正常的曲线中。

三、Differentiable Simulator——模型不只会算，还会“优化”

传统仿真主要回答一个问题：给定这个设计，系统会怎样? 比如泵速从2000rpm提到3000rpm，芯片温度降了1.2°C——它告诉你结果。但对设计和运维来说，工程师真正想问的，往往是反过来的：为了让芯片温度降下来，最有效的调节方法是什么? 是提高泵速、降低供水温度，还是优化某条支路的阻力?

传统仿真很难直接回答这个“反问”——你只能一个参数一个参数地试，试错成本很高。而这，正是可微分仿真的用武之地。

3.1可微分意味着什么？

简单来说，可微分仿真不仅能给出结果，还能告诉我们：

结果对每个设计变量、运行变量和模型参数有多敏感。

传统仿真告诉你：

泵速提高后，芯片温度下降了多少。

可微分仿真进一步告诉你：

芯片温度对泵速的梯度是多少，对管路阻力的梯度是多少，对冷板热阻的梯度是多少，对供水温度的梯度是多少。

有了这些梯度，系统就不只是“可计算”，而是“可优化”。

这意味着 LiquidTwin 可以支持参数标定、控制优化、传感器布置、可观测性分析和退化诊断等任务，而不需要为每个任务重新构建一个代理模型。

3.2热动态：用常微分方程描述系统热惯性

液冷系统的温度变化不是瞬时发生的。冷板有热容，管路有热容，换热器有动态响应，服务器热负荷也会随计算任务变化。要准确描述这些过程，需要动态模型。

LiquidTwin 将冷板、管路、换热器和节点温度建模为连续时间 ODE 系统，并通过可微分ODE积分器进行仿真。这带来两个好处：

第一，模型可以自然描述瞬态过程，例如 GPU 负载突增后的温度爬升、泵速调节后的滞后响应、供水温度变化后的系统过渡过程。
第二，模型输出对参数、控制变量和边界条件的梯度可以沿时间反向传播，使平台能够进行长时域参数标定、控制优化和敏感性分析。

换句话说，LiquidTwin 不只是看某一个时刻的温度，而是理解系统随时间演化的机制。

3.3物理 + 数据：让模型在已知工况内更准，在未知工况下更稳

真实数据中心的运行数据往往只覆盖有限工况。出于安全原因，我们很难故意让系统进入极端流量、极端温度或接近热失效的状态去采集数据。

这会导致一个典型问题：

纯数据驱动模型在历史数据范围内可能很准，但一旦进入历史数据没有覆盖的新工况，预测结果可能变得不可靠。

因此，LiquidTwin 的动态建模采用了物理和数据融合的思想：

在已知工况内，允许数据驱动残差修正物理模型偏差；
当运行点超出历史数据覆盖范围时，自动降低数据驱动修正的权重；
在不确定区域，让模型回到更保守、更可解释的物理骨架。

这种机制的核心思想是：数据用于提高精度，物理用于保证边界。

对于液冷数据中心这样的任务，保守性并不是缺点，而是安全运行的必要条件。一个在未知工况下“过度自信”的模型，反而可能带来更高风险。

3.4 Runtime View——让复杂系统一目了然

液冷系统的运行状态，往往是工程师最难把握的部分。

在风冷系统中，热点通常还能通过机房温度、冷通道温度、服务器进风温度大致感知。但在液冷系统中，真正关键的状态藏在冷板内部、并联支路、歧管和 CDU 回路中。

LiquidTwin 的 Runtime View 提供两类可视化能力：

3D 热场可视化
系统时序曲线

图：系统状态可视化

四、LiquidTwin 可以支持哪些任务？

基于同一套可微分热流耦合仿真内核，LiquidTwin 可以覆盖液冷系统从设计到运维的完整生命周期。

阶段	典型任务	核心问题
设计阶段	拓扑建模、瞬态仿真、组件选型	系统应该怎么建？不同设计方案下热安全裕度如何？
调试阶段	参数标定、模型校准、what-if 分析	如何让数字模型与真实系统对齐？
运维阶段	实时监测、异常识别、退化诊断	系统现在是否健康？异常来自哪里？
优化阶段	控制优化、传感器布置、能效-风险权衡	如何在保证热安全的同时降低能耗？

这也是 LiquidTwin 与传统液冷仿真的关键区别。

传统仿真通常服务于设计阶段，而 LiquidTwin 希望贯穿设计、调试、运行和优化全过程。

结语：从“仿真器”到“智能化数字孪生”

未来液冷数据中心需要的不只是更强的冷却设备，还需要更智能的系统级管理能力。LiquidTwin的定位，正是从传统仿真器进一步向液冷系统的智能化数字孪生演进。

传统液冷仿真	LiquidTwin
给定参数，计算结果	支持建模、标定、优化、诊断闭环
主要服务设计阶段	同时服务设计、调试和运行
工程师手动解释结果	LLM 辅助解释和异常识别
只能正向仿真	支持反向求导和敏感性分析
模型与现场数据割裂	可与实时运行数据持续校准
关注单次计算结果	关注长期运行状态和决策支持

LiquidTwin既能正向仿真，也能反向优化；既服务设计，也支持运维；既帮工程师看见系统状态，也帮他们理解系统为什么这样、接下来该怎么做。冷却已不只是后端基础设施，而是决定算力可用性、能效和可靠性的关键系统。让液冷系统变得可理解、可优化、可运维，正是 LiquidTwin 的价值所在。