2024 年 3月 8 日随笔档案 - 狐王驾虎 - 博客园

2024年3月8日

摘要：基于动态规划的强化学习算法学习「强化学习」（基于这本教材，强烈推荐）时的一些总结，在此记录一下。在马尔可夫决策过程环境模型已知（也就是状态转移函数P、奖励函数r已知）的情况下，a56爆大奖在线娱乐们可以通过「动态规划」求得马尔可夫决策过程的最优策略 \(\pi^*\) 。 1. 动态规划对于做过算法题目的阅读全文

posted @ 2024-03-08 16:35 狐王驾虎阅读(56) 评论(0) 推荐(0) 编辑

FoxTiger

公告