深度强化学习的智能训练器

周昕

背景

基于模型的强化学习(Model-based Reinforcement Learning，MBRL)通过利用系统行为模型合成用于策略训练的的数据，被认为是解决强化学习中的高采样成本问题的一种有效方案。然而，MBRL框架受到优化控制策略、复杂目标系统的行为学习、以及复杂超参数控制等方面的限制。因此，在训练过程中往往需要大量的人工调整，成本极高。为了应对这一挑战，我们提出了一种“强化-强化学习”(Reinforcement on Reinforcement, RoR)的结构，将复杂的MBRL任务分解成两个相互耦合的强化学习“层”。其中，内层是标准的MBRL训练过程，属于标准的马尔科夫决策过程(Markov Decision Process, MDP)，被称为“训练环境”(Training Process Environment, TPE)。外层则作为强化学习的智能体，用于学习内层TPE的最佳超参数配置，被称作“智能训练器”(Intelligent Trainer)，如图1所示。该方法可以灵活的为不同的MBRL训练提供优化超参数和配置服务，我们称之为“Train the trainer”，意为使用强化学习来优化强化学习的训练过程。

图1. “强化—强化学习”架构图

MBRL

近年来，强化学习在研究和应用方面获得了巨大的发展。与监督和非监督学习相比，强化学习解决了智能体应该如何在环境中采取行动以最大化收益的问题。例如，机器人控制、迷宫求解、以及给新兴的深度强化学习带来巨大影响力的AlphaGO [1]。因此，强化/深度强化学习已经成为大型复杂系统控制问题的热门选择，并在学术界和工业界迅速流行起来。然而实际场景在采用强化学习技术上面临着巨大的挑战。由于强化学习算法的性能通常取决于训练控制策略所需的大量操作数据，而当数据采集成本非常高昂的情况下，从物理系统中获取大量训练数据变得不可行。例如，为了解决机器人的控制问题，深度强化学习算法只有在得到大约300万个样本后，工作效率才有提升。而与一个物理机器人互动来学习策略动辄需要数百万秒，就显得不切实际了[2]。

为了解决这一问题，研究人员提出了MBRL框架，从物理(Physical)系统收集的数据被用来构建虚拟(Cyber)环境，而虚拟环境又可以合成用于策略训练的数据，最后合成数据和真实数据将共同作用于策略训练。一般虚拟环境中的数据合成的成本要远低于物理系统，因此采用MBRL结构具有低采样成本的优势[3][4]。而MBRL法在实际的应用中受到手动配置参数的限制。如图1所示，从实际环境获取的数据将用于以下两个目的，

1. 虚拟环境生成：虚拟环境由数据驱动，在给定当前状态及操作的情况下，模拟系统状态的迁移。虚拟环境可以用全局或局部的方式进行训练[4]。其中全局方式指从整个状态空间采样数据，有利于全局探索。局部方式则是指在有限空间中采集数据样本，加强局部开发。图1中TPE的a^[0]和a^[1]的便是控制在虚拟环境的训练和采样过程中是采用全局还是局部方式。

2. 控制策略训练：从真实环境采集的数据和从虚拟环境中合成的数据用于目标控制器(Target Controller)的训练，但只有在适当配置合成数据比例的情况下才能达到预期结果。在实验中我们观察到合成数据对某些任务很有帮助，而也有可能在其他任务中导致严重的性能衰退。此配置由图1中的a^[2]控制。

在之前的研究中，参数设置都是在训练阶段通过手动调整，通常容易导致额外的时间和/或资源成本。MBRL的这些缺陷也是我们提出RoR解决方案的初衷。

RoR框架

在RoR框架中，内层TPE是一个标准的MBRL系统。它利用真实和虚拟两个环境作为数据源以训练目标控制器，训练数据由真实环境以及虚拟环境(例如，神经网络模型)提供。外层，即智能训练器也是一个强化学习智能体，它通过奖励(Reward)信号和动作(action)输出来控制及优化目标控制器在真实以及虚拟环境之间的采样和训练过程。具体的说，我们提出了两种训练器可供选择，

1. 单头训练器：该方法是基于DQN [6] 实现单个训练器，以在线学习的方式优化超参数的设置。它以在线和按策略的方式，优化TPE的动作a。训练器与TPE的交互工作流程如图2所示。在此设计中，只有一个目标控制器参与训练，所有训练器的动作都在单一的训练流水线中测试。那么，单头训练器需要在有限的训练时间、步骤、和样本条件下快速学习。我们使用了DQN控制器来展示训练器的设计，并给出了与其他不同设计的比较。算法1展示了单头智能训练器的伪代码。

2. 集成训练器：该方法是由多个单头训练器组成，它们在各自的训练过程中采取独立行动，以解决单头训练器在测试时由于行为关联导致难以充分评估动作质量的问题。集成训练器包含多个训练过程，类似于boosted DQN [7]。其目的是在不增加额外采样成本的情况下，使不同的训练器的动作更加多样化，然后通过对其动作的表现进行排名来评估动作的价值。如图3所示，集成训练器由三个不同的训练器组成。其中，训练器0由智能训练器提供动作，称作DQN Trainer；训练器1的动作由随机策略提供动作，因此被称作Random Trainer；训练器2则是一个无模型的强化学习训练过程，不使用虚拟环境生成的合成数据，称作NoCyber Trainer。这三个不同的训练器可以兼顾不同的训练策略，每种策略在不同的情况下都能很好的发挥其作用。为了保持集成训练器的采样和训练质量，并能够从表现不佳的情况中恢复过来，我们提出了物理数据内存共享、参考抽样、基于顺序的训练奖励计算、以及权重迁移这几个方法(由于篇幅原因，在此不做赘述)。算法2展示了集成训练器的伪代码。

图2. 单头智能训练器的工作流程

算法1. 单头训练器算法伪代码

图3. 集成训练器的工作流程

算法2. 集成训练器算法伪代码

性能评估

我们基于OpenAI的Gym环境五种不同任务，钟摆(Pendulum)、山地汽车(Mountain Car)、探索者(Reacher)、半猎豹(Half Cheetah)、和游泳者(Swimmer)，对单头和集成训练器进行了性能评估，如图4所示。实验结果表明，单头训练器可以在虚拟环境和合成数据中获得更好的性能，而集成训练器在所有任务上都能达到整体良好的性能。如表1所示，训练成本评估表明，我们所提出的单头和集成训练器的训练时间不超过现有基本方法(Baseline Approaches)训练时间的2倍，因此，计算代价仍在可承受范围内。此外，表2展示了在实现预期性能的前提条件下，我们所提出的集成训练器与NoCyber Trainer、Random Trainer、和DQN Trainer相比，在采样成本上的节省情况。可以看到，与其他方法相比，集成训练器最多节省了56%的采样成本。

图4. OpenAI的Gym环境库中的五种任务

表1. 标准基于MBRL方法和单头、集成训练器的训练时间比较

表2. 实现预期性能前提下，集成训练器的采样成本与其他基本方法的比较

我们在研究中，提出了一种基于强化学习的智能训练器，并将其用于同样属于强化学习范畴的MBRL的训练和采样的学习。该方法将MBRL的训练过程作为优化的目标，并使用训练器对此过程进行监控和优化。我们所提出的训练器方案可用于实际应用，降低采样成本，同时获得接近最优的性能。在未来的工作中，我们计划通过加入更多的控制动作来进一步改进所提出来的Train the Trainer的框架，以期进一步降低算法的调试成本。

参考文献：

[1] D. Silver, A. Huang, C. J. Maddison, et al. “Mastering the game of go with deep neural networks and tree search,” Nature, vol. 529, pp. 484–503, 2016.

[2] M. Hausknecht and P. Stone, “Deep reinforcement learning in parameterized action space,” in Proceedings of the International Conference on Learning Representations (ICLR), May 2016.

[3] X. Guo, S. Singh, H. Lee, R. L. Lewis, and X. Wang, “Deep learning for real-time game play using offline monte-carlo tree search planning,” in Advances in neural information processing systems, 2014, pp. 3338–3346.

[4] S. Racani`ere, T. Weber, D. Reichert, L. Buesing, A. Guez, D. J. Rezende, A. P. Badia, O. Vinyals, N. Heess, Y. Li et al., “Imagination augmented agents for deep reinforcement learning,” in Advances in neural information processing systems, 2017, pp. 5690–5701.

[5] S. Racani`ere, T. Weber, D. Reichert, L. Buesing, A. Guez, D. J. Rezende, A. P. Badia, O. Vinyals, N. Heess, Y. Li et al., “Imaginationaugmented agents for deep reinforcement learning,” in Advances in neural information processing systems, 2017, pp. 5690–5701.

[6] M. Volodymyr, K. Koray, et al. “Playing Atari with Deep Reinforcement Learning,” arXiv preprint arXiv:1312.5602, 2013.

[7] I. Osband, C. Blundell, A. Pritzel, and B. Van Roy, “Deep exploration via bootstrapped DQN,” in Advances in neural information processing systems, 2016, pp. 4026–4034.

Leave a Reply Cancel reply