将强化学习重新引入 RLHF

a56爆大奖在线娱乐们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为a56爆大奖在线娱乐替代 PPO 的方法,RLOO 是a56爆大奖在线娱乐新的在线 RLHF 训练算法,旨在使其更易于访问和实施。特别是, RLOO 需要的 GPU 内存更少,并且达到收敛所需的挂钟时间也更短。如下面的图表所示:
posted @ 2024-06-19 22:52  HuggingFace  阅读(76)  评论(0编辑  收藏  举报