(三)使用 PPO 算法进行 RLHF 的 N 步实现细节

title: "使用 PPO 算法进行 RLHF 的 N 步实现细节" thumbnail: /blog/assets/167_the_n_implementation_details_of_rlhf_with_ppo/thumbnail.png authors: - user: vwxyzjn -
posted @ 2024-06-27 22:46  jasonzhangxianrong  阅读(3)  评论(0编辑  收藏  举报