2312.00752

  • 标题: Mamba: Linear-Time Sequence Modeling with Selective State Spaces

  • 作者: Albert Gu and Tri Dao

  • 类别: 新的通用框架

其中Tridao也是FlashAttn的作者

注意 这篇文章不要轻易学习写作手法 即使是这种级别的文章当年也是被拒稿了的

  • 结构:

  1. Introduction

  2. State Space Models

  3. Selective State Space Models

  4. Empirical Evaluation

  5. Discussion

  6. Conclusion

Abstract

  1. 翻译一

基础模型,在大多数的令人兴奋的深度学习中起支撑作用,基本全用的Transformer架构和它的注意力机制.很多亚二次的时间复杂度的架构比如线性注意力,门控卷积,循环神经网络和结构状态空间模型都邮件都被提出以缓解Transformer在长序列上的计算效率问题.但是在语言等关键模态上 这些方法的性能仍然不如注意力机制.

论文解析

首先先引出问题背景: Transformer的问题, 然后引出了在Transformer的问题上的其他研究──线性注意力,门控...以缓解计算效率。接着引出它们的问题──语言模态上不如注意力机制
  1. 翻译二

我们发现 这类模型的一个关键弱点在于它们无法进行基于内容的推理,并据此提出了若干改进...将SSM作为..来弥补...的不足 使模型能..

其次尽管这个改变让卷积的很多加速算法无法使用 但是我们设计了一个算法能... 然后我们将它们集成到一种简化的... 也就是Mamba

Mamba具有..的性能 并且在..呈现... 可达到..级别

论文解析

在介绍完了背景后 开始讲Mamba的改进 模板为: 提出了声明 解决了什么 使它更好的...

Introduction

  1. 翻译一

基础模型是指...的模型. 它们已经成为现代机器学习...的一种有效范式. 该类型的骨干是...例如语言 语音(然后引用一堆成果)

论文解析

抛砖引玉 因为Mamba是一个基础模型 所以介绍基础模型是什么
  1. 翻译二