(十三)T5是如何计算损失的

一、概述 T5 使用常规交叉熵损失(与任何语言模型一样)。 假设您正在微调 T5 以进行翻译,并且您有以下训练示例: * source sentence: "hello how are you" * target sentence: "salut comment ça-va" 首先,需要使用 对模型
posted @ 2024-06-16 21:41  jasonzhangxianrong  阅读(31)  评论(0编辑  收藏  举报