Hippo: Sliding Transforms
type
status
date
slug
summary
tags
category
icon
password
这篇博文的出发点是最近在看的SSM论文,在其中相当大的贡献在于其工作将连续的信号存储看成了一个在线函数逼近问题,并得到了一个压缩记忆的A矩阵。这个A矩阵贯穿了Mamba一系列工作。在此,我将一些学习这些论文中所提到的数学知识,使用自己的方式来讲解。
HiPPO的核心创新
- 通用性:统一框架支持多种正交基(Legendre、Laguerre等),而非局限于单一变换。
- 动态窗口:通过缩放度量支持窗口大小随时间增长,更适配长序列建模。
- 连续时间建模:从连续信号出发,保证理论最优性,再通过离散化适配实际应用。
- 与经典方法的本质区别:HiPPO的度量抽象和连续时间视角为滑动变换提供了新的数学基础,突破了传统离散方法的限制。
首先,需要了解什么是滑动变换
- 滑动变换与普通变换之间的差别
- Hippo 与 Sliding Transforms的区别
1. Sliding Transforms in Signal Processing
在信号处理领域,Sliding Transforms 通常指的是那类通过在信号上移动(滑动)一个局部窗函数,对信号进行局部化变换以获得时间—频率信息的方法。
这类方法的核心思想是:对于非平稳信号,仅靠全局傅里叶变换往往不能揭示信号中随时间变化的频率特性;因此,引入一个局部窗函数,让窗函数在信号上滑动,对每一段局部信号分别进行傅里叶变换,从而获得局部频谱信息。
这一思想的典型代表就是短时傅里叶变换(Short-Time Fourier Transform, STFT),此外在实时信号处理里还常用“Sliding DFT”来高效更新局部傅里叶系数。
例子:分析一个时变频信号
(1) 傅里叶变换公式
Define
其中:
- 代表整个信号的频谱,它描述了信号中所有频率成分的全局分布。
问题:这个变换是基于整个时间范围 ,意味着它假设信号的频率特性在整个时间轴上是恒定的(即平稳信号)。
- 如果信号是非平稳的(即它的频率内容随时间变化),则全局傅里叶变换会导致:
- 频率信息被平均化,无法看到随时间变化的细节;
- 在这个例子中,信号在 1 秒时是 10 Hz,2 秒时是 20 Hz,傅里叶变换可能会给出一个同时包含 10 Hz 和 20 Hz 成分的频谱,但无法告诉我们这些成分何时出现。
(2) 短时傅里叶变换(STFT)
Define
其中:
- 表示窗函数在信号上的中心位置,也就是窗“滑动”的位置;
- 为频率变量;
- 用于对信号在时间 附近进行局部加权,从而使得傅里叶变换反映的是该局部区域内的频谱信息。
随着 的移动:
- 当 落在 区间内,窗内主要包含 10 Hz 成分,因此 STFT 在该时刻的频谱主峰在 10 Hz 附近;
- 当 落在 区间内,窗内主要包含 20 Hz 成分,因此 STFT 的频谱主峰转移到 20 Hz 附近。
通过STFT得到的时频图(spectrogram,即 的图像)可以直观展示信号频率随时间变化的情况,这正是 Sliding Transform 在非平稳信号分析中的重要应用。
通过这个例子可以直观的看到,Sliding Transform实际上就是在非平稳信号分析应用而生的
2、Hippo 与 Sliding Transforms的区别
在Sliding Transform中,虽然使用滑动窗口的方式避免了传统变换的问题。但是在固定窗口下,会导致记忆丢失问题。也因此Hippo做了一些创新:
- 使用了一种缩放度量,窗口大小随着时间增长而增长
- 与传统变换的离散化方式不同,Hippo先进行ODE,然后对ODE 离散化
缩放度量
Define
在数学上,正交多项式(Orthogonal Polynomials) 通常在一个加权测度 下定义,使得:
其中:
- 是某种正交多项式(如 Legendre, Laguerre, Chebyshev)。
- 是一个测度(可以简单理解为加权函数)。
- 这个测度决定了正交性如何定义,以及哪些部分的输入信号应该被赋予更高的权重。
不同的测度 产生不同的正交多项式,比如:
- Legendre: (均匀权重)
- Laguerre: (指数衰减权重)
- Chebyshev: (适用于[-1,1]的加权)
➡ 这个数学背景为 HiPPO 选择不同的缩放度量提供了理论基础。
For example
在最佳逼近理论(Approximation Theory) 中,我们经常希望在一个度量 下,找到最优的低维表示:
其中:
- 是原始信号;
- 是一个由正交多项式组成的近似;
- 决定了误差计算的权重——即哪些区域的误差更重要。
可以看出测度度量,实际上是对每一个sliding transform的窗口赋予一个加权函数进行加权。而Hippo利用了这个特点,来对历史数据的遗忘来进行控制,允许记忆逐渐衰减,同时使用ODE离散化来配合达到记忆管理 长距离依赖的问题
ODE离散化
Hippo的初始目的,即构造一个能存储整个过去输入 的最佳有限维状态,例如
对于一个时间序列 ,我们希望构造一个有限维状态向量 ,使得它能存储过去所有的输入:
但由于存储所有历史数据是不现实的,我们需要找到一个最优的有限维表示,以最小的信息损失来近似整个历史数据。
采用正交多项式作为投影基函数
在数学上,我们可以使用 正交多项式(Orthogonal Polynomials) 作为基函数,来表示整个历史的最佳近似:
其中:
- 是一组 正交多项式基(如 Legendre, Laguerre, Chebyshev)。
- 是每个基函数上的投影系数。
这样,我们可以用有限维的状态向量 来近似整个历史:
HiPPO 选择正交多项式是因为它们在时间上是动态的,即一个N阶的正交多项式可以分为
其中:
- 低阶多项式(如 ) 主要描述 长时依赖(长期趋势)。
- 高阶多项式(如 ) 主要描述 短时变化(局部细节)。
故其能适应不同的时间尺度。
Prev
Hippo Operator
Next
Transformer Series
Loading...