2024 年 6月 27 日随笔档案 - jasonzhangxianrong - 博客园

2024年6月27日

摘要：一直都特别好奇大模型的强化学习微调是怎么做的，网上虽然相关文章不少，但找到的文章都是浅尝辄止说到用PPO训练，再细致深入的就没有讲了。。。只能自己看一看代码，以前搞过一点用PPO做游戏，感觉和语言模型PPO的用法不太一样。在游戏场景，a56爆大奖在线娱乐step给环境一个action之后，agent拿到的state 阅读全文

posted @ 2024-06-27 23:08 jasonzhangxianrong 阅读(31) 评论(0) 推荐(0) 编辑

（三）使用 PPO 算法进行 RLHF 的 N 步实现细节

摘要： title: "使用 PPO 算法进行 RLHF 的 N 步实现细节" thumbnail: /blog/assets/167_the_n_implementation_details_of_rlhf_with_ppo/thumbnail.png authors: - user: vwxyzjn - 阅读全文

posted @ 2024-06-27 22:46 jasonzhangxianrong 阅读(5) 评论(0) 推荐(0) 编辑

（二）将强化学习重新引入 RLHF

摘要： title: "将强化学习重新引入 RLHF" thumbnail: /blog/assets/putting_rl_back_in_rlhf_with_rloo/thumbnail.png authors: - user: vwxyzjn - user: ArashAhmadian org: Co 阅读全文

posted @ 2024-06-27 22:30 jasonzhangxianrong 阅读(7) 评论(0) 推荐(0) 编辑

（一）"ChatGPT 背后的“功臣”——RLHF 技术详解"

摘要： title: "ChatGPT 背后的“功臣”——RLHF 技术详解" thumbnail: /blog/assets/120_rlhf/thumbnail.png authors: - user: natolambert - user: LouisCastricato guest: true - 阅读全文

posted @ 2024-06-27 22:25 jasonzhangxianrong 阅读(16) 评论(0) 推荐(0) 编辑

公告