(四)详解RLHF

一直都特别好奇大模型的强化学习微调是怎么做的,网上虽然相关文章不少,但找到的文章都是浅尝辄止说到用PPO训练,再细致深入的就没有讲了。。。只能自己看一看代码,以前搞过一点用PPO做游戏,感觉和语言模型PPO的用法不太一样。在游戏场景,a56爆大奖在线娱乐step给环境一个action之后,agent拿到的state
posted @ 2024-06-27 23:08  jasonzhangxianrong  阅读(15)  评论(0编辑  收藏  举报