Archives

AI × 数据中心:如何实现高效、可靠的智能热管理?

在现代数据中心中,高效热管理关乎服务器稳定、能耗下降与成本优化。随着系统规模与耦合复杂度不断提升,传统“经验+规则”的方法愈发吃力。以深度强化学习(DRL)与基于学习的模型预测控制(LB-MPC)为代表的AI技术,为热管理带来新的路径。研究显示,AI驱动的动态热管理可在既有系统上进一步降低约 5%–20% 的冷却能耗。但在真实场景落地时,AI仍面临泛化、安全、样本效率、可解释、最优性与适应性等多重挑战——从“理论可行”到“可靠部署”的距离依然存在。 算法研究的多维度考量 在数据中心智能控制中,算法设计并非单一维度抉择,而是系统—目标—算法的综合平衡(见图一)。 图一:系统、目标、与算法的综合考量 AI 部署的挑战有哪些? 尽管AI在实验室与仿真中表现亮眼,实际部署仍需跨越以下门槛(见图二): 图二:可靠部署对算法的要求 现有解决方案有哪些局限? 目前,主要通过以下两种方式来解决 AI 的部署问题,但它们仍然存在明显的局限性。 1. 通过改进 AI 算法:研究者们尝试从算法层面提升 AI 模型的泛化能力、安全性和样本效率,例如: 安全强化学习(Safe DRL):在 AI 训练过程中引入安全约束,以确保生成的控制策略不会违反安全规则。 元强化学习(Meta DRL):让 AI 具备快速适应新环境的能力,以提升适应性。 然而,这些方法仍然难以满足图二中的多维度的要求,因而在实际数据中心中难以广泛应用。 2. 通过模拟仿真:该方法通过构建数据中心仿真环境,让 AI 在仿真环境中训练后再部署到真实系统。但是,这种方法也有明显的缺点:仿真精度与计算开销受限,难以完美复刻真实多物理、多尺度耦合;策略在落地时仍可能“失真”。 展望:数字孪生如何赋能AI 驱动的数据中心热管理? 数字孪生技术将在数据中心热管理中扮演“AI训练场”和“智能决策助手”的角色。例如,在新建数据中心或大规模负载调整前,运维人员可以在数字孪生中“预演”不同 AI 策略的效果,从而选出最优方案,避免直接在真实环境中实验可能带来的风险。此外,AI 结合数字孪生可以实现预测性维护,提前发现冷却系统的异常状况,减少意外故障,提高数据中心的整体稳定性。数字孪生在 AI 驱动热管理中的核心能力主要体现在以下几个方面: 结语 随着数据中心规模的持续扩展和智能化需求的不断提升,AI 在优化热管理、提升能效方面的作用愈发重要。然而,AI 控制策略的可靠部署仍然面临诸多挑战。面对这些问题,结合数字孪生技术,AI 控制可以在更精准的仿真环境中学习、优化和验证,确保其在复杂动态环境中的稳定性和适应性。未来,AI 与数字孪生的深度融合将进一步推动数据中心向智能化和绿色低碳的方向发展。 作者介绍: 张庆昂,现为南洋理工大学CAP组Research Fellow。博士毕业于新加坡国立大学机械系控制实验室。研究方向为基于深度学习和强化学习的数据中心智能热管理,涵盖数据驱动的热力系统建模,安全强化学习等方向。在此之前,他分别于2019年和2016年在西安交通大学和山东大学能源与动力工程学院获得硕士和学士学位。他曾在IEEE Transactions on Cybernetics, Applied Energy等控制和能源领域顶尖期刊上发表多篇论文,并担任审稿工作。

Read More

DCGPT: Transforming Future AIDC Operations

INTRODUCTION Artificial intelligence (AI) demand is rapidly expanding at an unprecedented rate all over the world. This growing trend has been piling pressure on data centers (DC). Unlike standard computational tasks, AI workloads involve complex computations for training and inference. Dedicated graphics processing unit (GPU), data processing unit (DPU), and networking devices are designed for […]

Read More

TOP 10 Data Center Trends in 2025: A Researcher Perspective

Yonggang Wen, Ph.D. As we move into 2025, the data center (DC) industry is believed to stand at the crossroads of technological innovations, environmental responsibility, and operational transformation. With the increasing demand for high-performance computing resulting from the surge in AI workloads, data centers are no longer just infrastructure providers; they have become global mission-critical […]

Read More

无痛的机器学习系统入门指南(二)- 模型部署

张怀政 论文题目:MLModelCI: An Automatic Cloud Platform for Efficient MLaaS 开源代码:https://github.com/cap-ntu/ML-Model-CI 深度学习正在改变生活中的方方面面。手中的APP,快递仓储物流的优化,蛋白质的预测,游戏的AI敌人等等,所谓“见面不谈人工智能,遍读诗书也枉然”。

Read More

深度强化学习的智能训练器

周昕 背景 基于模型的强化学习(Model-based Reinforcement Learning,MBRL)通过利用系统行为模型合成用于策略训练的的数据,被认为是解决强化学习中的高采样成本问题的一种有效方案。然而,MBRL框架受到优化控制策略、复杂目标系统的行为学习、以及复杂超参数控制等方面的限制。因此,在训练过程中往往需要大量的人工调整,成本极高。为了应对这一挑战,我们提出了一种“强化-强化学习”(Reinforcement on Reinforcement, RoR)的结构,将复杂的MBRL任务分解成两个相互耦合的强化学习“层”。其中,内层是标准的MBRL训练过程,属于标准的马尔科夫决策过程(Markov Decision Process, MDP),被称为“训练环境”(Training Process Environment, TPE)。外层则作为强化学习的智能体,用于学习内层TPE的最佳超参数配置,被称作“智能训练器”(Intelligent Trainer),如图1所示。该方法可以灵活的为不同的MBRL训练提供优化超参数和配置服务,我们称之为“Train the trainer”,意为使用强化学习来优化强化学习的训练过程。

Read More

FedReID: 联邦学习在行人重识别上的首次深入实践

庄伟铭 论文题目:Performance Optimization for Federated Person Re-identification via Benchmark Analysis 开源代码:https://github.com/cap-ntu/FedReID 行人重识别的训练需要收集大量的人体数据到一个中心服务器上,这些数据包含了个人敏感信息,因此会造成隐私泄露问题。联邦学习是一种保护隐私的分布式训练方法,可以应用到行人重识别上,以解决这个问题。但是在现实场景中,将联邦学习应用到行人重识别上因为数据异构性,会导致精度下降和收敛的问题。

Read More

MLModelCI – 自动化机器学习服务构建平台

黄以正 前不久,南洋理工大学的科研人员发布了一项最新的机器学习系统工作: MLModelCI — 一站式机器学习模型部署推理服务平台,该工作现在已经成功被接收为 ACM Multimedia 2020 的Open Source Competition Paper,欢迎访问开源地址:https://github.com/cap-ntu/ML-Model-CI 试用、反馈、贡献代码、参与到我们的开源工作中!

Read More

数字孪生: 点亮工业4.0的平行世界

王睿航 文 周昕 审阅 引言 随着工业4.0步伐的加速,产品生命周期管理(PLM)显得愈发重要。PLM是从产品需求开始到产品淘汰报废的全部生命历程,旨在提供有效的手段为企业创造收入,降低成本。目前,常规的技术包括数据管理,信息建模,信息追踪,知识管理以及集成化管理等模式[1]-[3]。传统的管理模式大多仅针对产品的单个信息维度或多个信息维度进行建模仿真,存在信息反映不全面,实时交互性差以及管理低效等问题。如何构建与实际产品完整且有效的交互体系已成为工业4.0发展的关键。

Read More