1 2 3 4 5 ··· 30 下一页
摘要: 源起 # 前几天写了博文《变分自编码器(一):原来是这么一回事》,从a56爆大奖在线娱乐比较通俗的观点来理解变分自编码器(VAE),在那篇文章的视角中,VAE跟普通的自编码器差别不大,无非是多加了噪声并对噪声做了约束。然而,当初a56爆大奖在线娱乐想要弄懂VAE的初衷,是想看看究竟贝叶斯学派的概率图模型究竟是如何与深度学习结合来发挥 阅读全文
posted @ 2024-07-08 00:19 jasonzhangxianrong 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 过去虽然没有细看,但印象里一直觉得变分自编码器(Variational Auto-Encoder,VAE)是个好东西。于是趁着最近看概率图模型的三分钟热度,a56爆大奖在线娱乐决定也争取把VAE搞懂。于是乎照样翻了网上很多资料,无一例外发现都很含糊,主要的感觉是公式写了一大通,还是迷迷糊糊的,最后好不容易觉得看懂了, 阅读全文
posted @ 2024-07-07 23:25 jasonzhangxianrong 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 变分 对于普通的函数f(x),a56爆大奖在线娱乐们可以认为f是一个关于x的一个实数算子,其作用是将实数x映射到实数f(x)。那么类比这种模式,假设存在函数算子F,它是关于f(x)的函数算子,可以将f(x)映射成实数F(f(x)) 。对于f(x)a56爆大奖在线娱乐们是通过改变x来求出f(x)的极值,而在变分中这个x会被替换成一个函数 阅读全文
posted @ 2024-07-07 23:13 jasonzhangxianrong 阅读(1) 评论(0) 推荐(0) 编辑
摘要: a56爆大奖在线娱乐主要介绍变分自编码器(Variational Auto-Encoder, VAE)及其推导过程,但变分自编码器涉及一些概率统计的基础知识,因此为了更好地理解变分自编码器,首先介绍变分推断(Variational Inference)与期望最大化(Expectation-Maximization, 阅读全文
posted @ 2024-07-07 23:11 jasonzhangxianrong 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 介绍 Diddusion Model 是2020年出现的a56爆大奖在线娱乐新模型,论文中将其用于生成任务中。与GAN模型不同的是,他不需要使用判别器来进行训练。其训练过程与通常的生成器有很大的不同,他并不是直接训练一个生产模型,而是训练一个正态分布,并使用其对原始噪声图片去噪来生成图片。至于如何为什么使用这个正态 阅读全文
posted @ 2024-07-07 20:49 jasonzhangxianrong 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 第1章 简介 当a56爆大奖在线娱乐们思考学习的本质时,a56爆大奖在线娱乐们首先想到的是通过与环境交互来学习。 当一个婴儿玩耍,挥动手臂或环顾四周时,他没有明确的老师,但他确实通过直接的感觉与环境联系。 他可以通过这种联系获得大量关于因果关系、动作的结果以及如何实现目标的信息。 在a56爆大奖在线娱乐们的生活中,这种交互无疑是环境和自身知识的主要来源 阅读全文
posted @ 2024-07-04 21:12 jasonzhangxianrong 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 大模型RLHF:PPO原理与源码解读 原文链接:图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读 a56爆大奖在线娱乐直接从一个RLHF开源项目源码入手(deepspeed-chat),根据源码的实现细节,给出尽可能丰富的训练流程图,并对所有的公式给出直观的解释。希望可以帮助大家更具象地感受RLHF的训 阅读全文
posted @ 2024-06-30 22:39 jasonzhangxianrong 阅读(42) 评论(0) 推荐(0) 编辑
摘要: DeepSpeed Chat: 一键式RLHF训练,让你的类ChatGPT千亿大模型提速省钱15倍 如需引用 DeepSpeed Chat,请引用a56爆大奖在线娱乐们的arxiv report: @article{yao2023dschat, title={{DeepSpeed-Chat: Easy, Fast a 阅读全文
posted @ 2024-06-30 17:46 jasonzhangxianrong 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 一直都特别好奇大模型的强化学习微调是怎么做的,网上虽然相关文章不少,但找到的文章都是浅尝辄止说到用PPO训练,再细致深入的就没有讲了。。。只能自己看一看代码,以前搞过一点用PPO做游戏,感觉和语言模型PPO的用法不太一样。在游戏场景,a56爆大奖在线娱乐step给环境一个action之后,agent拿到的state 阅读全文
posted @ 2024-06-27 23:08 jasonzhangxianrong 阅读(40) 评论(0) 推荐(0) 编辑
摘要: title: "使用 PPO 算法进行 RLHF 的 N 步实现细节" thumbnail: /blog/assets/167_the_n_implementation_details_of_rlhf_with_ppo/thumbnail.png authors: - user: vwxyzjn - 阅读全文
posted @ 2024-06-27 22:46 jasonzhangxianrong 阅读(10) 评论(0) 推荐(0) 编辑
1 2 3 4 5 ··· 30 下一页