2024 年 6月 30 日随笔档案 - jasonzhangxianrong - 博客园

2024年6月30日

摘要：大模型RLHF：PPO原理与源码解读原文链接：图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读 a56爆大奖在线娱乐直接从一个RLHF开源项目源码入手（deepspeed-chat），根据源码的实现细节，给出尽可能丰富的训练流程图，并对所有的公式给出直观的解释。希望可以帮助大家更具象地感受RLHF的训阅读全文

posted @ 2024-06-30 22:39 jasonzhangxianrong 阅读(33) 评论(0) 推荐(0) 编辑

（五）DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍

摘要： DeepSpeed Chat: 一键式RLHF训练，让你的类ChatGPT千亿大模型提速省钱15倍如需引用 DeepSpeed Chat，请引用a56爆大奖在线娱乐们的arxiv report: @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast a 阅读全文

posted @ 2024-06-30 17:46 jasonzhangxianrong 阅读(8) 评论(0) 推荐(0) 编辑

公告