学习让我快乐

从 transformer 到 FlashAttention 再到 PagedAttention(1)

整理笔记时发现这篇之前学习 transformer 的总结, 略加梳理之后发表出来, 希望能帮到你=. = 本文假设你已经有这里提到的数学常识. 先看 transformer, 先理清 encoder 一个层输入/输出, 如下图所示, P.S. 我发现动动手把输入/输出 shape 写出来很是有助于加深理解呀.: encoder 部分最低层的输入很明显是用户输入, 此时 ...

Posted by w@hidva.com on September 1, 2024

再读 Gpipe, 前向传播, 后向传播

整理笔记时发现这篇之前学习 Gpipe 的总结, 略加梳理之后发表出来, 希望能帮到你=. = 关于前向传播, 后向传播, 以及 Gpipe 中 pipeline parallelism 一开始是囫囵吞枣地一股脑生咽下去的; 看似是懂了 gpipe, 但其实说到细节处总有点含含糊糊的地方. 现在正好有空, 总结梳理下. 本文假设你已经有这里提到的数学常识. 再次回到吴恩达老师...

Posted by w@hidva.com on September 1, 2024

从数据库到 AI

在昨天晚上, 在我完成了概率导论(9): 经典统计推断推送之后, 我终于算是结束了自己数学知识重建体系的第一阶段. 当时忽然感觉到一阵恍惚, 我是为啥要重建自己的数学知识来着? 哦对, 想起来了, 是当时在看 jemalloc 采样逻辑时那块代码死活看不懂, 幸好 jemalloc 大佬留了关于采样逻辑背后设计的文档, 但不幸的是文档也是看不懂, 各种不知道的名词满天飞, 对这些名词的...

Posted by w@hidva.com on August 13, 2024

概率导论(9): 经典统计推断

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 总的来说，在我们的记号中，概...

Posted by w@hidva.com on August 11, 2024

概率导论(8): 贝叶斯统计推断

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 例 8.3, 略作补充整...

Posted by w@hidva.com on August 11, 2024

概率导论(5): 极限理论

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! $Z_n, S_n$; 这里 n ...

Posted by w@hidva.com on August 11, 2024

概率导论(4): 随机变量的深入内容

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 4.1.zy1 $P(X+Y \l...

Posted by w@hidva.com on August 11, 2024

概率导论(3): 一般随机变量

系列导言, 本文是作者在学习 Dimitri 概率导论的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习 Dimitri 概率导论并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 习题 3.1.3/习题 3.1.4...

Posted by w@hidva.com on August 11, 2024

多元微积分基本定理

在概率论学习中, 联合连续随机变量 X, Y 的联合概率密度函数 f 以及联合分布函数 F 具有如下关系: \[\begin{align} F(x, y) &= \int_{-\infty}^x \int_{-\infty}^y f(s,t)\mathrm{d}t \mathrm{d}s\\ f(x, y) &= \frac{\partial^2 F}{\partial x...

Posted by w@hidva.com on August 7, 2024

陶哲轩实分析: 黎曼积分(3)

系列导言, 本文是作者在学习史济怀老师数学分析教程的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习史济怀老师数学分析教程并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 这里额外插入一下关于黎曼-斯蒂尔杰斯积分...

Posted by w@hidva.com on July 28, 2024

数学分析(16): 反常积分

系列导言, 本文是作者在学习史济怀老师数学分析教程的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习史济怀老师数学分析教程并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 16.1.zy1, $\int_a^{\i...

Posted by w@hidva.com on July 28, 2024

数学分析(14): 数项级数

系列导言, 本文是作者在学习史济怀老师数学分析教程的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习史济怀老师数学分析教程并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 定理 14.1.4, 该命题等同于: 序列...

Posted by w@hidva.com on July 28, 2024

数学分析(10): 多重积分(3)

系列导言, 本文是作者在学习史济怀老师数学分析教程的读书笔记, 侧重于记录我当时没有看懂的部分, 以及对书中部分知识点的一些扩展. 非常零散, 不成系统. 对本系列的使用最好是读者也在学习史济怀老师数学分析教程并且恰好有某处不太明白, 可以参考着本系列说不定这里就有答案. 本系列文章在写作时参考了互联网上零零散散非常多的资料在此表示感谢! 引理 10.6.1, 略作补充线...

Posted by w@hidva.com on July 28, 2024

从 transformer 到 FlashAttention 再到 PagedAttention(1)

再读 Gpipe, 前向传播, 后向传播

从数据库到 AI

概率导论(9): 经典统计推断

概率导论(8): 贝叶斯统计推断

概率导论(5): 极限理论

概率导论(4): 随机变量的深入内容

概率导论(3): 一般随机变量

多元微积分基本定理

陶哲轩实分析: 黎曼积分(3)

数学分析(16): 反常积分

数学分析(14): 数项级数

数学分析(10): 多重积分(3)

ABOUT ME