2024 年 5月 13 日随笔档案 - initial_h - 博客园

2024年5月13日

RETROFORMER: RETROSPECTIVE LARGE LANGUAGE AGENTS WITH POLICY GRADIENT OPTIMIZATION

摘要：发表时间：2024(ICLR 2024) 文章要点：文章提出Retroformer,用策略梯度的方式调优prompt，更好的利用环境的reward。大体思路是学习一个retrospective LLM，将之前的轨迹和得分作为输入，得到一个新的prompt，这个prompt综合分析了之前的经验，从而提阅读全文

posted @ 2024-05-13 23:56 initial_h 阅读(25) 评论(0) 推荐(0) 编辑

initial_h

???https://github.com/initial-h

公告