基于动态规划的强化学习算法

基于动态规划的强化学习算法学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。在马尔可夫决策过程环境模型已知（也就是状态转移函数P、奖励函数r已知）的情况下，a56爆大奖在线娱乐们可以通过「动态规划」求得马尔可夫决策过程的最优策略 \(\pi^*\) 。 1. 动态规划对于做过算法题目的