2312.00752
标题:
Mamba: Linear-Time Sequence Modeling with Selective State Spaces作者: Albert Gu and Tri Dao
类别: 新的通用框架
其中Tridao也是FlashAttn的作者
注意 这篇文章不要轻易学习写作手法 即使是这种级别的文章当年也是被拒稿了的
结构:
Introduction
State Space Models
Selective State Space Models
Empirical Evaluation
Discussion
Conclusion
Abstract
翻译一
基础模型,在大多数的令人兴奋的深度学习中起支撑作用,基本全用的Transformer架构和它的注意力机制.很多亚二次的时间复杂度的架构比如线性注意力,门控卷积,循环神经网络和结构状态空间模型都邮件都被提出以缓解Transformer在长序列上的计算效率问题.但是在语言等关键模态上 这些方法的性能仍然不如注意力机制.
论文解析
首先先引出问题背景: Transformer的问题, 然后引出了在Transformer的问题上的其他研究──线性注意力,门控...以缓解计算效率。接着引出它们的问题──语言模态上不如注意力机制
翻译二
我们发现 这类模型的一个关键弱点在于它们无法进行基于内容的推理,并据此提出了若干改进...将SSM作为..来弥补...的不足 使模型能..
其次尽管这个改变让卷积的很多加速算法无法使用 但是我们设计了一个算法能... 然后我们将它们集成到一种简化的... 也就是Mamba
Mamba具有..的性能 并且在..呈现... 可达到..级别
论文解析
在介绍完了背景后 开始讲Mamba的改进 模板为: 提出了声明 解决了什么 使它更好的...
Introduction
翻译一
基础模型是指...的模型. 它们已经成为现代机器学习...的一种有效范式. 该类型的骨干是...例如语言 语音(然后引用一堆成果)
论文解析
抛砖引玉 因为Mamba是一个基础模型 所以介绍基础模型是什么
翻译二