动手学强化学习(七):DQN 算法

第 7 章 DQN 算法 7.1 简介 在第 5 章讲解的 Q-learning 算法中,a56爆大奖在线娱乐们以矩阵的方式建立了一张存储a56爆大奖在线娱乐状态下所有动作\(Q\)值的表格。表格中的每一个动作价值\(Q(s,a)\)a56爆大奖在线娱乐在状态\(s\)下选择动作\(a\)然后继续遵循某一策略预期能够得到的期望回报。然而,这种用表格
posted @ 2024-03-04 18:07  jasonzhangxianrong  阅读(38)  评论(0编辑  收藏  举报