摘要: 一直都特别好奇大模型的强化学习微调是怎么做的,网上虽然相关文章不少,但找到的文章都是浅尝辄止说到用PPO训练,再细致深入的就没有讲了。。。只能自己看一看代码,以前搞过一点用PPO做游戏,感觉和语言模型PPO的用法不太一样。在游戏场景,a56爆大奖在线娱乐step给环境一个action之后,agent拿到的state 阅读全文
posted @ 2024-06-27 23:08 jasonzhangxianrong 阅读(31) 评论(0) 推荐(0) 编辑
摘要: title: "使用 PPO 算法进行 RLHF 的 N 步实现细节" thumbnail: /blog/assets/167_the_n_implementation_details_of_rlhf_with_ppo/thumbnail.png authors: - user: vwxyzjn - 阅读全文
posted @ 2024-06-27 22:46 jasonzhangxianrong 阅读(5) 评论(0) 推荐(0) 编辑
摘要: title: "将强化学习重新引入 RLHF" thumbnail: /blog/assets/putting_rl_back_in_rlhf_with_rloo/thumbnail.png authors: - user: vwxyzjn - user: ArashAhmadian org: Co 阅读全文
posted @ 2024-06-27 22:30 jasonzhangxianrong 阅读(7) 评论(0) 推荐(0) 编辑
摘要: title: "ChatGPT 背后的“功臣”——RLHF 技术详解" thumbnail: /blog/assets/120_rlhf/thumbnail.png authors: - user: natolambert - user: LouisCastricato guest: true - 阅读全文
posted @ 2024-06-27 22:25 jasonzhangxianrong 阅读(16) 评论(0) 推荐(0) 编辑