解密prompt系列25. RLHF改良方案之样本标注:RLAIF & SALMON

之前a56爆大奖在线娱乐们主要唠了RLHF训练相关的方案,这一章a56爆大奖在线娱乐们主要针对RLHF的样本构建阶段,引入机器标注来降低人工标注的成本。主要介绍两个方案:RLAIF,和IBM的SALMON
posted @ 2024-03-25 08:37  风雨中的小七  阅读(148)  评论(0编辑  收藏  举报