会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
a56爆大奖在线娱乐的博客
a56爆大奖在线娱乐的园子
账号设置
简洁模式
...
退出登录
注册
登录
Zer0-Chambers
博客园
首页
新随笔
联系
管理
订阅
【今日收获】看到关于RL的一些观点
1. MDP的最佳策略是确定性和无记忆的,一错会再错,以前发生的状态也不记得。Memory模块是正解吗? 图源 https://zhuanlan.zhihu.com/p/430221668 2. 毫末 吕迪 对于RL现存问题的看法 a56爆大奖在线娱乐观点都很insight 强化学习领域目前遇到的瓶颈是什么? -
posted @
2023-09-12 18:56
Zer0_Chambers
阅读(
14
) 评论(
0
)
编辑
收藏
举报
指间灵动,快码加编
刷新页面
返回顶部
公告