Article – CAP @ NTU

02/12/2025
N/A

AI × 数据中心：如何实现高效、可靠的智能热管理？

在现代数据中心中，高效热管理关乎服务器稳定、能耗下降与成本优化。随着系统规模与耦合复杂度不断提升，传统“经验+规则”的方法愈发吃力。以深度强化学习（DRL）与基于学习的模型预测控制（LB-MPC）为代表的AI技术，为热管理带来新的路径。研究显示，AI驱动的动态热管理可在既有系统上进一步降低约 5%–20% 的冷却能耗。但在真实场景落地时，AI仍面临泛化、安全、样本效率、可解释、最优性与适应性等多重挑战——从“理论可行”到“可靠部署”的距离依然存在。

Article

13/02/2025
N/A

DCGPT: Transforming Future AIDC Operations

INTRODUCTION Artificial intelligence (AI) demand is rapidly expanding at an unprecedented rate all over the world. This growing trend has been piling pressure on data centers (DC). Unlike standard computational tasks, AI workloads involve complex computations for training and inference. Dedicated graphics processing unit (GPU), data processing unit (DPU), and networking devices are designed for […]

Article

01/01/2025
N/A

TOP 10 Data Center Trends in 2025: A Researcher Perspective

Yonggang Wen, Ph.D. As we move into 2025, the data center (DC) industry is believed to stand at the crossroads of technological innovations, environmental responsibility, and operational transformation. With the increasing demand for high-performance computing resulting from the surge in AI workloads, data centers are no longer just infrastructure providers; they have become global mission-critical […]

Article

09/12/2020
N/A

无痛的机器学习系统入门指南（二）- 模型部署

张怀政论文题目：MLModelCI: An Automatic Cloud Platform for Efficient MLaaS 开源代码：https://github.com/cap-ntu/ML-Model-CI 深度学习正在改变生活中的方方面面。手中的APP，快递仓储物流的优化，蛋白质的预测，游戏的AI敌人等等，所谓“见面不谈人工智能，遍读诗书也枉然”。

Article

09/12/2020
N/A

深度强化学习的智能训练器

周昕背景基于模型的强化学习(Model-based Reinforcement Learning，MBRL)通过利用系统行为模型合成用于策略训练的的数据，被认为是解决强化学习中的高采样成本问题的一种有效方案。然而，MBRL框架受到优化控制策略、复杂目标系统的行为学习、以及复杂超参数控制等方面的限制。因此，在训练过程中往往需要大量的人工调整，成本极高。为了应对这一挑战，我们提出了一种“强化-强化学习”(Reinforcement on Reinforcement, RoR)的结构，将复杂的MBRL任务分解成两个相互耦合的强化学习“层”。其中，内层是标准的MBRL训练过程，属于标准的马尔科夫决策过程(Markov Decision Process, MDP)，被称为“训练环境”(Training Process Environment, TPE)。外层则作为强化学习的智能体，用于学习内层TPE的最佳超参数配置，被称作“智能训练器”(Intelligent Trainer)，如图1所示。该方法可以灵活的为不同的MBRL训练提供优化超参数和配置服务，我们称之为“Train the trainer”，意为使用强化学习来优化强化学习的训练过程。

Article

09/12/2020
N/A

FedReID: 联邦学习在行人重识别上的首次深入实践

庄伟铭论文题目：Performance Optimization for Federated Person Re-identification via Benchmark Analysis 开源代码：https://github.com/cap-ntu/FedReID 行人重识别的训练需要收集大量的人体数据到一个中心服务器上，这些数据包含了个人敏感信息，因此会造成隐私泄露问题。联邦学习是一种保护隐私的分布式训练方法，可以应用到行人重识别上，以解决这个问题。但是在现实场景中，将联邦学习应用到行人重识别上因为数据异构性，会导致精度下降和收敛的问题。

Article

10/11/2020
N/A

MLModelCI – 自动化机器学习服务构建平台

黄以正前不久，南洋理工大学的科研人员发布了一项最新的机器学习系统工作: MLModelCI — 一站式机器学习模型部署推理服务平台，该工作现在已经成功被接收为 ACM Multimedia 2020 的Open Source Competition Paper，欢迎访问开源地址：https://github.com/cap-ntu/ML-Model-CI 试用、反馈、贡献代码、参与到我们的开源工作中！

Article

09/02/2020
N/A

数字孪生: 点亮工业4.0的平行世界

王睿航文周昕审阅引言随着工业4.0步伐的加速，产品生命周期管理（PLM）显得愈发重要。PLM是从产品需求开始到产品淘汰报废的全部生命历程，旨在提供有效的手段为企业创造收入，降低成本。目前，常规的技术包括数据管理，信息建模，信息追踪，知识管理以及集成化管理等模式[1]-[3]。传统的管理模式大多仅针对产品的单个信息维度或多个信息维度进行建模仿真，存在信息反映不全面，实时交互性差以及管理低效等问题。如何构建与实际产品完整且有效的交互体系已成为工业4.0发展的关键。

Article