2312.00752

标题: Mamba: Linear-Time Sequence Modeling with Selective State Spaces
作者: Albert Gu and Tri Dao
类别: 新的通用框架

其中Tridao也是FlashAttn的作者

注意这篇文章不要轻易学习写作手法即使是这种级别的文章当年也是被拒稿了的

结构:

Introduction
State Space Models
Selective State Space Models
Empirical Evaluation
Discussion
Conclusion

Abstract

翻译一

基础模型,在大多数的令人兴奋的深度学习中起支撑作用,基本全用的Transformer架构和它的注意力机制.很多亚二次的时间复杂度的架构比如线性注意力,门控卷积,循环神经网络和结构状态空间模型都邮件都被提出以缓解Transformer在长序列上的计算效率问题.但是在语言等关键模态上 这些方法的性能仍然不如注意力机制.

论文解析

首先先引出问题背景: Transformer的问题, 然后引出了在Transformer的问题上的其他研究──线性注意力,门控...以缓解计算效率。接着引出它们的问题──语言模态上不如注意力机制

翻译二

我们发现 这类模型的一个关键弱点在于它们无法进行基于内容的推理,并据此提出了若干改进...将SSM作为..来弥补...的不足 使模型能..

其次尽管这个改变让卷积的很多加速算法无法使用 但是我们设计了一个算法能... 然后我们将它们集成到一种简化的... 也就是Mamba

Mamba具有..的性能 并且在..呈现... 可达到..级别

论文解析

在介绍完了背景后 开始讲Mamba的改进 模板为: 提出了声明 解决了什么 使它更好的...

Introduction

翻译一

基础模型是指...的模型. 它们已经成为现代机器学习...的一种有效范式. 该类型的骨干是...例如语言 语音(然后引用一堆成果)

论文解析

抛砖引玉 因为Mamba是一个基础模型 所以介绍基础模型是什么

翻译二