Logos515’s Blog

傅里叶特征位置编码详解

4 minute read

起因是在做模式识别与机器视觉布置的论文阅读作业中，一篇微软亚洲研究院的文章：Perceiver: General Perception with Iterative Attention，这篇文章本来是将 Transformer 在多模态数据上的应用的，其原理简单来说就是利用交叉注意力迭代地使用低维的 Latent...

Mamba 代码详解

22 minute read

前几天在看 Mamba 模型的基本原理框架，本来以为已经掌握了，但是后续在看 Mamba-2 的时候，发现一些内容和之前我的理解对不上（尤其是输入和输出的维度部分），所以感觉还是需要结合代码理解比较好。昨天花了一天的时间配环境，踩了不少坑（笨死了！）这里也简单提一嘴好了。然后会对 Mamba 官方代码逐行分析。

Mamba !

10 minute read

丝毫没有为 RNN 和 Transformer 的离去而遗憾，立刻赶到现场的是我们的 Kobe Bryant Mamba 模型（逃）。原论文为 2024 年的 COLM 的 Outstanding paper，但先前曾被多个顶会拒绝（悲），果然搞学术投论文就像买彩票。原来这篇文章的标题为 Mamba Out，后来...

从 RNN 到 Transformer

8 minute read

这篇博客是我在学习了李沐大神的《动手学深度学习（中文版）》的第八章循环神经网络，第九章现代循环神经网络，第十章注意力机制之后写就的，预期会结合自己对 RNN 和 Attention 的理解讨论神经网络是如何从 RNN 发展到 Transformer 的。

关于梯度消失和梯度爆炸

1 minute read

梯度消失和梯度爆炸在初期一直是深度神经网络训练的一个难点，但前人做的许多工作已经基本上解决了这个问题。但研究这个问题还是有必要的，其涉及到神经网络优化的基本原理。

Logos515

Welcome!

Recent posts

傅里叶特征位置编码详解

Mamba 代码详解

Mamba !

从 RNN 到 Transformer

关于梯度消失和梯度爆炸