大语言模型压缩方法
暑假正式开始了,论文的阅读计划也要提上日程。话说暑假真是忙碌,又要家教,又要练琴,又要科研的()
暑假正式开始了,论文的阅读计划也要提上日程。话说暑假真是忙碌,又要家教,又要练琴,又要科研的()
六月是期末月,忙着课内的事情,所以一直没有时间写博客记录,考完之后放松了几天,继续码字。
本篇文章主要记录自己在学习深度学习时看到的一些关于神经网络优化知识,当前主要参考的是李沐《动手学深度学习》第十一章的内容,感兴趣的同学可以自行阅读教程。本博客会对教程中的一些细节进行深入探讨,例如重参数化等。
起因是在做模式识别与机器视觉布置的论文阅读作业中,一篇微软亚洲研究院的文章:Perceiver: General Perception with Iterative Attention,这篇文章本来是将 Transformer 在多模态数据上的应用的,其原理简单来说就是利用交叉注意力迭代地使用低维的 Latent...
前几天在看 Mamba 模型的基本原理框架,本来以为已经掌握了,但是后续在看 Mamba-2 的时候,发现一些内容和之前我的理解对不上(尤其是输入和输出的维度部分),所以感觉还是需要结合代码理解比较好。昨天花了一天的时间配环境,踩了不少坑(笨死了!)这里也简单提一嘴好了。然后会对 Mamba 官方代码逐行分析。
丝毫没有为 RNN 和 Transformer 的离去而遗憾,立刻赶到现场的是我们的 Kobe Bryant Mamba 模型(逃)。原论文为 2024 年的 COLM 的 Outstanding paper,但先前曾被多个顶会拒绝(悲),果然搞学术投论文就像买彩票。原来这篇文章的标题为 Mamba Out,后来...
这篇博客是我在学习了李沐大神的《动手学深度学习(中文版)》的第八章循环神经网络,第九章现代循环神经网络,第十章注意力机制之后写就的,预期会结合自己对 RNN 和 Attention 的理解讨论神经网络是如何从 RNN 发展到 Transformer 的。
梯度消失和梯度爆炸在初期一直是深度神经网络训练的一个难点,但前人做的许多工作已经基本上解决了这个问题。但研究这个问题还是有必要的,其涉及到神经网络优化的基本原理。
最近在看李沐老师的《动手学深度学习》,这是一本很好的深度学习入门教材,对于基础的神经网络知识的讲解相当到位。尤其是其中介绍循环神经网络的地方,老师的讲解和代码都很详细了。但是作为学生,在学习的过程中还是难免有不懂的地方,所以我想写这一篇博客来对这一章的内容进行一次小小的总结。
这篇博客主要记录自己在学习 python 过程中遇到的一些细节或坑。
这篇文章是我在读了一篇模型量化的综述后动笔写就的,本人水平极其有限,写文章只是为了记录学习,如果有任何错误请及时指出并联系我修改!
很早之前我就想要做一个Github个人网站,用于记录自己的学习经历,同时也希望能分享给更多的人。正好五一劳动节放假,休闲之余想起了这未了的心愿,遂花了点时间(啊哈哈其实花了不少时间)搭建了一个个人主页。目前这个主页还是很贫瘠的,希望它能够越来越丰富吧。