摘要: 一、概述 T5 使用常规交叉熵损失(与任何语言模型一样)。 假设您正在微调 T5 以进行翻译,并且您有以下训练示例: * source sentence: "hello how are you" * target sentence: "salut comment ça-va" 首先,需要使用 对模型 阅读全文
posted @ 2024-06-16 21:41 jasonzhangxianrong 阅读(31) 评论(0) 推荐(0) 编辑