【技术博客】论文分享：Deep Q Network

主讲人

罗双（浙江大学公共管理学院博士）

本期论文

Human-level control through deep reinforcement learning

Deep Q Network

DQN与Qleanring类似都是基于值迭代的算法，但是在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不动作空间和状态太大十分困难。所以在此处可以把Q-table更新转化为一函数拟合问题，通过拟合一个函数function来代替Q-table产生Q值，使得相近的状态得到相近的输出动作。因此我们可以想到深度神经网络对复杂特征的提取有很好效果，所以可以将DeepLearning与Reinforcement Learning结合。这就成为了DQN

文章摘要

强化学习理论根植于心理学和神经科学，它可以很好的解释一个代理如何在一个环境中优化自己的控制。为了在真实复杂的物理世界中成功的使用强化学习算法，一个代理必须面对困难的任务：利用高维的传感器输入数据，达到很好的表达，并且泛化之前的经验到新的未见环境中。显然的，人类和其他动物通过协调的组合强化学习以及层次化的感知处理系统来很好的处理这个问题。前者已经被大量的神经数据证明了，揭示了在多巴胺能的神经元激发的相位信号和短时差分强化学习算法。现在强化学习算法已经在一些领域取得了成功，然而它之前在那些手动提取有用特征的领域、或者一些低维可以直接观察到的领域受到了应用限制。这里我们使用最近先进的手段训练深度神经网络类得到一个，名字叫深度Q值网络的算法，它可以使用端到端的强化学习算法从高维的传感器输入中成功的直接学习到成功的策略。我们在很有挑战的游戏Atari2600中测试了这个代理。我们证明了，使用同一种算法和网络，同一种超参数，在49种游戏集合中，仅仅使用像素点和游戏分数作为输入，超过以往的任何一种算法达到和专业游戏玩家的水平。这个工作在高维数据输入和动作输出之间建立了桥梁，使得人工智能代理可以有擅长一些列的挑战性的工作。

分享视频
https://momodel.cn/live/5ed36a16fd15f1e87594dc26