摘要: 发表时间:2024(ICLR2024) 文章要点: 文章提出用预训练的视觉语言模型作为zero-shot的reward model(VLM-RMs)。好处在于可以通过自然语言来给定一个具体的任务,通过VLM-RMs让强化学习基于reward学习这个任务(using pretrained vision 阅读全文
posted @ 2024-06-11 11:15 initial_h 阅读(14) 评论(0) 推荐(0) 编辑