Welcome!

Recent posts

Mamba !

10 minute read

丝毫没有为 RNN 和 Transformer 的离去而遗憾,立刻赶到现场的是我们的 Kobe Bryant Mamba 模型(逃)。原论文为 2024 年的 COLM 的 Outstanding paper,但先前曾被多个顶会拒绝(悲),果然搞学术投论文就像买彩票。原来这篇文章的标题为 Mamba Out,后来...

从 RNN 到 Transformer

8 minute read

这篇博客是我在学习了李沐大神的《动手学深度学习(中文版)》的第八章循环神经网络,第九章现代循环神经网络,第十章注意力机制之后写就的,预期会结合自己对 RNN 和 Attention 的理解讨论神经网络是如何从 RNN 发展到 Transformer 的。

关于梯度消失和梯度爆炸

1 minute read

梯度消失和梯度爆炸在初期一直是深度神经网络训练的一个难点,但前人做的许多工作已经基本上解决了这个问题。但研究这个问题还是有必要的,其涉及到神经网络优化的基本原理。

Pytorch 实现循环神经网络

3 minute read

最近在看李沐老师的《动手学深度学习》,这是一本很好的深度学习入门教材,对于基础的神经网络知识的讲解相当到位。尤其是其中介绍循环神经网络的地方,老师的讲解和代码都很详细了。但是作为学生,在学习的过程中还是难免有不懂的地方,所以我想写这一篇博客来对这一章的内容进行一次小小的总结。

Python + Pytorch 指北

3 minute read

这篇博客主要记录自己在学习 python 过程中遇到的一些细节或坑。