摘要: 发表时间:2024(ICLR 2024) 文章要点:文章提出Retroformer,用策略梯度的方式调优prompt,更好的利用环境的reward。大体思路是学习一个retrospective LLM,将之前的轨迹和得分作为输入,得到一个新的prompt,这个prompt综合分析了之前的经验,从而提 阅读全文
posted @ 2024-05-13 23:56 initial_h 阅读(25) 评论(0) 推荐(0) 编辑