会员
众包
新闻
博问
闪存
云市场
所有博客
当前博客
a56爆大奖在线娱乐的博客
a56爆大奖在线娱乐的园子
账号设置
简洁模式
...
退出登录
注册
登录
Hugging Face 博客
The AI community building the future.
博客园
首页
新随笔
联系
订阅
管理
将强化学习重新引入 RLHF
a56爆大奖在线娱乐们很高兴在 TRL 中介绍 RLOO (REINFORCE Leave One-Out) 训练器。作为a56爆大奖在线娱乐替代 PPO 的方法,RLOO 是a56爆大奖在线娱乐新的在线 RLHF 训练算法,旨在使其更易于访问和实施。特别是, RLOO 需要的 GPU 内存更少,并且达到收敛所需的挂钟时间也更短。如下面的图表所示:
posted @
2024-06-19 22:52
HuggingFace
阅读(
76
) 评论(
0
)
编辑
收藏
举报
指间灵动,快码加编
刷新页面
返回顶部
公告