摘要:
字节megascale论文学习笔记 阅读全文
摘要:
大模型训练 数据并行相关的学习笔记, 主要内容 zero, zero++ 阅读全文
摘要:
张量并行相关原理的学习笔记 阅读全文
摘要:
流水线并行相关原理的学习笔记 阅读全文
摘要:
GPU进行卡间通信/多机通信的算法简介 阅读全文
摘要:
在CUDA程序中, 访存优化个人认为是最重要的优化项. 往往kernel会卡在数据传输而不是计算上, 为了最大限度利用GPU的计算能力, a56爆大奖在线娱乐们需要根据GPU硬件架构对kernel访存进行合理的编写. 阅读全文
摘要:
介绍CUDA的基本概念和架构,帮助读者建立对CUDA的初步认识,包括硬件架构/CUDA基础等内容 阅读全文
摘要:
Paddle图神经网络训练, PGLBox代码阅读笔记, 主要为核心GPU游走相关逻辑, 分布式训练部分后续补充. 阅读全文
摘要:
推荐系统中对embedding维度进行自动调优的常见方法 阅读笔记. 阅读全文
摘要:
现代c++设计模式 part2
桥接,适配器,装饰器 阅读全文