傅里叶特征位置编码详解
起因是在做模式识别与机器视觉布置的论文阅读作业中,一篇微软亚洲研究院的文章:Perceiver: General Perception with Iterative Attention,这篇文章本来是将 Transformer 在多模态数据上的应用的,其原理简单来说就是利用交叉注意力迭代地使用低维的 Latent...
起因是在做模式识别与机器视觉布置的论文阅读作业中,一篇微软亚洲研究院的文章:Perceiver: General Perception with Iterative Attention,这篇文章本来是将 Transformer 在多模态数据上的应用的,其原理简单来说就是利用交叉注意力迭代地使用低维的 Latent...
前几天在看 Mamba 模型的基本原理框架,本来以为已经掌握了,但是后续在看 Mamba-2 的时候,发现一些内容和之前我的理解对不上(尤其是输入和输出的维度部分),所以感觉还是需要结合代码理解比较好。昨天花了一天的时间配环境,踩了不少坑(笨死了!)这里也简单提一嘴好了。然后会对 Mamba 官方代码逐行分析。
丝毫没有为 RNN 和 Transformer 的离去而遗憾,立刻赶到现场的是我们的 Kobe Bryant Mamba 模型(逃)。原论文为 2024 年的 COLM 的 Outstanding paper,但先前曾被多个顶会拒绝(悲),果然搞学术投论文就像买彩票。原来这篇文章的标题为 Mamba Out,后来...
这篇博客是我在学习了李沐大神的《动手学深度学习(中文版)》的第八章循环神经网络,第九章现代循环神经网络,第十章注意力机制之后写就的,预期会结合自己对 RNN 和 Attention 的理解讨论神经网络是如何从 RNN 发展到 Transformer 的。
梯度消失和梯度爆炸在初期一直是深度神经网络训练的一个难点,但前人做的许多工作已经基本上解决了这个问题。但研究这个问题还是有必要的,其涉及到神经网络优化的基本原理。