【今日收获】看到关于RL的一些观点

1. MDP的最佳策略是确定性和无记忆的,一错会再错,以前发生的状态也不记得。Memory模块是正解吗? 图源 https://zhuanlan.zhihu.com/p/430221668 2. 毫末 吕迪 对于RL现存问题的看法 a56爆大奖在线娱乐观点都很insight 强化学习领域目前遇到的瓶颈是什么? -
posted @ 2023-09-12 18:56  Zer0_Chambers  阅读(14)  评论(0编辑  收藏  举报