Archives

数据中心CFD仿真中的黑箱建模:边界条件、自动网格与收敛判据

基于DCTwin的工程实践 近日,南洋理工大学CAP团队在GitHub上开源了数据中心CFD仿真工具DCTwin(https://github.com/CAP-GDCR/Dctwin-CFD )。DCTwin是一个基于OpenFOAM的自动化CFD框架,接收JSON格式的仿真配置文件(.cfdrun)与预导出的多区域STL几何文件,自动完成从blockMesh、snappyHexMesh网格生成到边界条件配置与求解的完整流程。本文基于DCTwin的开发实践,分享我们在边界条件设置、自动网格加密和收敛判据方面遇到的具体问题与解决方案。 1. 引言 数据中心的热管理问题正在变得越来越工程化和系统化。机柜功率密度提升、冷热通道组织、架空地板送风、空调回风路径和局部热点之间相互耦合,使得单靠经验规则很难判断一个布局是否可靠。CFD仿真能够在设计阶段给出温度、速度和压力场的空间分布,但真正落地时,工程师还要面对几何建模、网格划分、边界条件、求解控制和后处理等一整套工具链问题。在这个背景下我们开发了DCTwin数据中心热仿真数字孪生工具。以OpenFOAM为底层CFD求解器,而是面向数据中心场景,把几何建模、仿真配置、STL导出、OpenFOAM网格/求解以及浏览器端后处理串成一条相对完整的自动化流程。一方面降低OpenFOAM在数据中心CFD场景中的使用门槛,另一方面也是为了让仿真过程更容易被脚本、批量工况和未来的AI Agent工作流调用。 在这个过程中,我们逐渐发现,数据中心CFD热仿真的核心挑战并不只是“把模型建完跑起来”。服务器和空调(CRAC/ACU)等核心设备通常不解析其内部流场,而是作为”黑箱”进行建模:服务器被简化为一个穿流通道——冷空气从前面板进入,经过芯片散热后从背板排出热空气;空调则被简化为一个冷源——回风口吸入热空气,送风口排出冷空气。这种黑箱建模方式是数据中心CFD中的常见做法[1],但边界条件、网格分辨率和收敛判据的细节会显著影响结果的可信度。 因此,本文的目的是分享我们在开发过程中遇到的一些具体问题和对应解决办法。其中,边界条件看似只是输入参数的选择问题,实际上牵涉到求解器的收敛特性;网格加密看似只是精度设置,实际上会影响薄壁结构和零厚度baffle能否被稳定解析;残差收敛看似给出了停止标准,实际上不一定代表温度场已经达到物理稳态。下面我们围绕这几类问题展开,希望这些经验对从事数据中心CFD仿真的工程师和研究者有所帮助。图1展示了本文讨论对象对应的三维机房几何模型。 图1:DCTwin三维建模界面,展示数据中心机房的几何模型构建 2. CRAC热边界条件 在我们的调试经验里,空调边界常常比预期更容易被低估。几何模型看起来正确、风量和功率也填得完整,但只要送风温度的边界条件与求解器迭代方式不匹配,温度场就可能表现出持续漂移或难以稳定的问题。我们在DCTwin调试中遇到的一个典型教训,正是CRAC热边界条件并不是“把公式写进去”那么简单,而是要同时考虑物理含义和数值收敛性。 2.1 四种CRAC边界条件方法 CoolSim白皮书WP105[2]系统总结了数据中心CFD中CRAC的四种热边界条件设置方法。第一种是固定送风温度(Supply Temperature),直接将送风口温度指定为常数值,例如20°C。这是最简单也最常用的方式,适用于送风温度由空调控制器调节并在设定值附近波动的场景。具体控制精度取决于设备、控制策略和运行工况;在稳态CFD中,将送风温度建模为常数通常是一个可控的工程近似。 第二种是温降法(Temperature Drop),指定回风与送风的温差 ΔT = T_return – T_supply,送风温度随回风温度动态变化。这种方式隐含了一个假设:空调的制冷能力足以维持恒定的温降,无论热负荷如何变化。在设计工况下这一假设成立,但在过载或部分负荷工况下可能偏离实际。 第三种是制冷量法(Cooling Capacity),指定空调的制冷量Q,根据能量守恒公式 Q = ṁ·cp·(T_return – T_supply) 反算送风温度。这种方法能够表达空调制冷能力的上限——当热负荷超过额定制冷量时,Q被截断为Q_max,送风温度相应升高,通常比固定温降更接近过载工况下的物理行为。第四种是性能曲线法(Performance Data),使用空调厂商提供的多维性能曲线,制冷量随回风温度、湿度等参数变化,能更贴近具体设备特性,但实现和数据准备也最复杂。 在实际应用中,固定送风温度是稳态仿真中常见的选择[1]。这不仅是因为实现简单,也因为在稳态SIMPLE求解框架下,一个明确的送风温度Dirichlet边界通常更有利于获得稳定的温度场。下面我们将解释为什么带反馈的制冷量表达式在稳态求解中可能遇到麻烦。 2.2 Expression BC在稳态SIMPLE中的陷阱 一个自然的想法是在稳态仿真中使用制冷量法,即通过OpenFOAM的expression BC让送风温度根据回风温度动态计算: T_supply = max(T_return – Q_actual / (ṁ · cp), T_min) 其中 Q_actual = min(Q_needed, Q_max),Q_needed = […]

Read More

科研专题|AAAA’26 Oral:面向电池健康预测与不确定性量化的物理信息神经网络

引言 第40届AAAI会议(AAAI Conference on Artificial Intelligence)于2026年1月20日至1月27日在新加坡EXPO举办。作为人工智能领域最具影响力的国际顶级学术会议之一,AAAI长期致力于推动人工智能基础理论与应用研究的发展,并促进全球学术界与工业界的交流合作。 在本次会议中,南洋理工CAP组有一篇文章被接收为Oral文章,题目为:Physics-Informed Multi-Task Learning for Battery State of Health Prediction with Uncertainty Quantification,作者为:Tianwen Zhu¹,Guangyu Wu¹,Zhiwei Cao¹,Ruihang Wang¹,Jimin Jia¹,Yong Luo²,Yonggang Wen¹* ¹ 新加坡南洋理工大学计算机与数据科学学院 ² 中国武汉大学计算机学院 电池健康状态预测:从“高精度估计”向“高可信诊断”的范式演进 在电动汽车、储能系统及航空航天等高可靠性需求场景中,电池健康状态(SOH)预测并非独立的算法模块,而是关乎安全保障、寿命维护与运维成本的核心技术。精准识别容量衰减,是实现主动健康管理与风险隔离的前提。随着技术演进,电池智能诊断已由早期的机理建模转向数据驱动,并进一步向物理感知学习与可信人工智能迈进。 当前行业的关键挑战并非单纯追求更低的预测误差,而在于模型是否具备分布偏移下的自知之明。在实际应用中,相比于单纯的误差,模型在超分布场景下表现出的“过度自信”更具安全隐患。这是 SOH 预测算法从实验室环境走向工程化部署必须克服的瓶颈。 1. 现有研究的局限 现有的 SOH 预测方案主要分为两条路径: 物理模型:依赖等效电路或电化学机理,具备较强的可解释性,但由于电池内部电化学反应极其复杂,难以构建完美的显式控制方程。 学习模型:利用神经网络直接提取退化模式,拟合能力强,但在工况切换、环境漂移或小样本场景下,泛化性能往往受限。 在Learning-based方法中,确定性模型擅长点估计,却无法衡量预测结果的可靠性;概率模型虽试图量化不确定性,但通常依赖较强的先验假设或参数化分布。在噪声高、异质性强的电池退化场景中,现有方法普遍缺乏对异常样本与分布漂移的风险感知能力。 2. 核心范式 本研究的核心突破在于:不再将不确定性度量视为预测任务的附属模块,而是将 SOH 估计与可信度度量构建为统一的多任务学习框架。模型在优化预测精度的同时,同步构建对预测结果可靠性的感知能力。 图1: MTL 框架概览。该框架包含四个主要组成部分:(1)带有多头注意力机制的共享编码器,用于特征提取;(2)基于 PINN 的 SOH 预测任务;(3)基于 DAGMM […]

Read More

AI × 数据中心:如何实现高效、可靠的智能热管理?

在现代数据中心中,高效热管理关乎服务器稳定、能耗下降与成本优化。随着系统规模与耦合复杂度不断提升,传统“经验+规则”的方法愈发吃力。以深度强化学习(DRL)与基于学习的模型预测控制(LB-MPC)为代表的AI技术,为热管理带来新的路径。研究显示,AI驱动的动态热管理可在既有系统上进一步降低约 5%–20% 的冷却能耗。但在真实场景落地时,AI仍面临泛化、安全、样本效率、可解释、最优性与适应性等多重挑战——从“理论可行”到“可靠部署”的距离依然存在。

Read More

DCGPT: Transforming Future AIDC Operations

INTRODUCTION Artificial intelligence (AI) demand is rapidly expanding at an unprecedented rate all over the world. This growing trend has been piling pressure on data centers (DC). Unlike standard computational tasks, AI workloads involve complex computations for training and inference. Dedicated graphics processing unit (GPU), data processing unit (DPU), and networking devices are designed for […]

Read More

TOP 10 Data Center Trends in 2025: A Researcher Perspective

Yonggang Wen, Ph.D. As we move into 2025, the data center (DC) industry is believed to stand at the crossroads of technological innovations, environmental responsibility, and operational transformation. With the increasing demand for high-performance computing resulting from the surge in AI workloads, data centers are no longer just infrastructure providers; they have become global mission-critical […]

Read More

无痛的机器学习系统入门指南(二)- 模型部署

张怀政 论文题目:MLModelCI: An Automatic Cloud Platform for Efficient MLaaS 开源代码:https://github.com/cap-ntu/ML-Model-CI 深度学习正在改变生活中的方方面面。手中的APP,快递仓储物流的优化,蛋白质的预测,游戏的AI敌人等等,所谓“见面不谈人工智能,遍读诗书也枉然”。

Read More

深度强化学习的智能训练器

周昕 背景 基于模型的强化学习(Model-based Reinforcement Learning,MBRL)通过利用系统行为模型合成用于策略训练的的数据,被认为是解决强化学习中的高采样成本问题的一种有效方案。然而,MBRL框架受到优化控制策略、复杂目标系统的行为学习、以及复杂超参数控制等方面的限制。因此,在训练过程中往往需要大量的人工调整,成本极高。为了应对这一挑战,我们提出了一种“强化-强化学习”(Reinforcement on Reinforcement, RoR)的结构,将复杂的MBRL任务分解成两个相互耦合的强化学习“层”。其中,内层是标准的MBRL训练过程,属于标准的马尔科夫决策过程(Markov Decision Process, MDP),被称为“训练环境”(Training Process Environment, TPE)。外层则作为强化学习的智能体,用于学习内层TPE的最佳超参数配置,被称作“智能训练器”(Intelligent Trainer),如图1所示。该方法可以灵活的为不同的MBRL训练提供优化超参数和配置服务,我们称之为“Train the trainer”,意为使用强化学习来优化强化学习的训练过程。

Read More

FedReID: 联邦学习在行人重识别上的首次深入实践

庄伟铭 论文题目:Performance Optimization for Federated Person Re-identification via Benchmark Analysis 开源代码:https://github.com/cap-ntu/FedReID 行人重识别的训练需要收集大量的人体数据到一个中心服务器上,这些数据包含了个人敏感信息,因此会造成隐私泄露问题。联邦学习是一种保护隐私的分布式训练方法,可以应用到行人重识别上,以解决这个问题。但是在现实场景中,将联邦学习应用到行人重识别上因为数据异构性,会导致精度下降和收敛的问题。

Read More

MLModelCI – 自动化机器学习服务构建平台

黄以正 前不久,南洋理工大学的科研人员发布了一项最新的机器学习系统工作: MLModelCI — 一站式机器学习模型部署推理服务平台,该工作现在已经成功被接收为 ACM Multimedia 2020 的Open Source Competition Paper,欢迎访问开源地址:https://github.com/cap-ntu/ML-Model-CI 试用、反馈、贡献代码、参与到我们的开源工作中!

Read More

数字孪生: 点亮工业4.0的平行世界

王睿航 文 周昕 审阅 引言 随着工业4.0步伐的加速,产品生命周期管理(PLM)显得愈发重要。PLM是从产品需求开始到产品淘汰报废的全部生命历程,旨在提供有效的手段为企业创造收入,降低成本。目前,常规的技术包括数据管理,信息建模,信息追踪,知识管理以及集成化管理等模式[1]-[3]。传统的管理模式大多仅针对产品的单个信息维度或多个信息维度进行建模仿真,存在信息反映不全面,实时交互性差以及管理低效等问题。如何构建与实际产品完整且有效的交互体系已成为工业4.0发展的关键。

Read More