Linear RNN development
type
status
date
slug
summary
tags
category
icon
password
这篇post 收到 @Songlin Yang 大佬的视频“What’s Next to Mamba? Towards More Expressive Recurrent Update Rules”的影响,感恩大佬的分享
Linear RNN 重新翻红与Mamba系列的论文离不开关系,但归根到底是因为Transformer 结构所带来的 Quadratic time complexity,如图

可以显而易见的看出,RNN被提出需要解决的是Transformer 推理缓慢的问题,而这是因为Transformer Self-attention带来的不可避免的问题。
在视频中,@Songlin Yang大佬提出,将linear RNN的发展分为以下三个类别
- Gated Linear RNNs (HGRN, Griffin, …)
- State-space models(S4, Mamba, …)
- Linear attention (RetNet, GLA, xLSTM, DeltaNet , Mamba2, …)
Prev
Stochastic Processes
Next
Linear Attention
Loading...