基于动态规划的强化学习算法

基于动态规划的强化学习算法 学习「强化学习」(基于这本教材,强烈推荐)时的一些总结,在此记录一下。 在马尔可夫决策过程 环境模型已知(也就是状态转移函数P、奖励函数r已知)的情况下,a56爆大奖在线娱乐们可以通过 「动态规划」 求得马尔可夫决策过程的最优策略 \(\pi^*\) 。 1. 动态规划 对于做过算法题目的
posted @ 2024-03-08 16:35  狐王驾虎  阅读(56)  评论(0编辑  收藏  举报