1.3 深度强化学习的应用实例
1.3.1 深度强化学习的应用实例
强化学习的研究和应用的热点正在转向“不完全信息博弈的策略”和“现实空间中智能系统的构建”。
先介绍不完全信息博弈。将棋和围棋被称为完全信息博弈,玩家互相了解游戏状态的所有信息。另一方面,大富翁、扑克和麻将等游戏被称为不完全信息游戏,这是因为不同的玩家所知道的信息是不同的,或者说牌中有些信息是所有人都不知道的。尽管如此,似乎人工智能在这种不完全信息游戏中超越人类也只是时间问题。
在现实空间中构建智能系统方面,已经发表了诸如自动控制技术和空调系统高效控制等方法。在这一领域,日本的Preferred Networks公司公开发表了一段使用深度强化学习方法来进行自动驾驶的视频[15](见图1.8)。
图1.8 通过分布式深度强化学习自动控制机器人[15]
此外,开发AlphaGo的Google DeepMind首席执行官Demis Hassabis博士宣布,使用强化学习改善了放置Google服务器的数据中心的冷却效率,成功降低了功耗[16]。展望未来,Google DeepMind将使用强化学习开发虚拟个人助理,并将强化学习引入英国的智能电网系统中[17]。
其他方面,最近的文献[18]发表了如何使用深度强化学习来抑制建筑物的震动。这种技术通过主动移动安装在每层楼中的隔震和阻尼减震器,来减少地震引起的高层建筑中长周期的震动的发生。在这种情况下,可尝试通过深度强化学习来学习如何移动阻尼器。
1.3.2 深度强化学习的未来前景
强化学习、深度强化学习正将其应用范围从PC上的游戏策略扩展到现实社会的应用中。作者认为:“深度强化学习将成为日本企业改变世界的原动力。”
DeepMind提出的通过强化学习改进数据中心冷却效率的方法细节尚未阐明。但大体上,不外乎通过在数据中心内外安装许多传感器来实现空间优化和时间优化,利用深度强化学习来实现空调(冷却装置)的控制。
空间优化是指:当大型数据中心内的部分服务器的温度上升时,控制哪些空调及这些空调朝什么方向吹风可以最有效地仅仅冷却该服务器周边。时间优化是指:由来自网络的状况以及来自数据中心周围所配置的温度和湿度传感器的信息,来预测一定时间后服务器的运行效率以及数据中心周围的气温,从而在时间上进行优化而避免不必要的冷却。
换句话说,如果可以确定“服务器的运行速率将降低,外部空气温度将降低,整个数据中心的室温也将降低,因此该服务器的温度将自然降低,现在也无须急着冷却”,就可以降低功耗。对于如Google数据中心这样的大型设施,人类很难通过制定最优的规则来进行这种控制。通过使用深度强化学习,当功耗低且系统得到冷却时给出正奖励,而当功耗高或不能正常冷却时给出负奖励,从而构建控制方法。
当今的时代被称为工业4.0或Society 5.0时代。将来如果引入作为新通信标准的5G通信,将实现多设备同时连接和超低延迟通信,并且物联网(Internet of Things,IoT)将得到快速发展。这样一来,可以在现实空间中放置大量的传感器来获取大量信息。如果可以从真实空间中获得大量信息,则可以进行更详细和有效的控制。例如,如果可以从城市中的传感器上获得人员和汽车的位置并有效地控制交通信号,则可以实现智能交通。还可以通过附着在身体上的传感器观察生物信息、视觉信息、会话信息等,提供休息或工作建议,以最大程度地提高工作效率。
但是,如果传感器的数量巨大则输入信息量将变得很大,那么像“如果此传感器的值大于某值就做该动作”这样的基于规则的控制将非常困难。因此,需要将巨大的输入信息缩减到控制所需的信息。通过从奖励信号中自我学习来构建控制规则,这正是深度强化学习能够做到的。
通过深度强化学习,可以将现实空间和网络空间整合在一起,构建一个能更智能地控制现实空间系统的社会(Society 5.0)。现实空间系统和设备控制是日本公司擅长的领域,因此,笔者认为,“深度强化学习×现实空间系统控制”是日本公司未来可以发挥积极作用的领域,深度强化学习对日本社会的未来将变得越来越重要。
如上所述,本章概述了机器学习及其三个分类,介绍了强化学习引人注目的理由,由应用案例和未来发展引出了作者的一些思考。下一章通过创建部分程序来介绍强化学习。