动手学强化学习（七）：DQN 算法

第 7 章 DQN 算法 7.1 简介在第 5 章讲解的 Q-learning 算法中，a56爆大奖在线娱乐们以矩阵的方式建立了一张存储a56爆大奖在线娱乐状态下所有动作\(Q\)值的表格。表格中的每一个动作价值\(Q(s,a)\)a56爆大奖在线娱乐在状态\(s\)下选择动作\(a\)然后继续遵循某一策略预期能够得到的期望回报。然而，这种用表格