Hippo: Sliding Transforms

type

status

date

slug

summary

HiPPO的核心创新

通用性：统一框架支持多种正交基（Legendre、Laguerre等），而非局限于单一变换。

动态窗口：通过缩放度量支持窗口大小随时间增长，更适配长序列建模。

连续时间建模：从连续信号出发，保证理论最优性，再通过离散化适配实际应用。

与经典方法的本质区别：HiPPO的度量抽象和连续时间视角为滑动变换提供了新的数学基础，突破了传统离散方法的限制。

首先，需要了解什么是滑动变换

滑动变换与普通变换之间的差别

Hippo 与 Sliding Transforms的区别

1. Sliding Transforms in Signal Processing

💡

在信号处理领域，Sliding Transforms 通常指的是那类通过在信号上移动（滑动）一个局部窗函数，对信号进行局部化变换以获得时间—频率信息的方法。

这类方法的核心思想是：对于非平稳信号，仅靠全局傅里叶变换往往不能揭示信号中随时间变化的频率特性；因此，引入一个局部窗函数，让窗函数在信号上滑动，对每一段局部信号分别进行傅里叶变换，从而获得局部频谱信息。

这一思想的典型代表就是短时傅里叶变换（Short-Time Fourier Transform, STFT），此外在实时信号处理里还常用“Sliding DFT”来高效更新局部傅里叶系数。

例子：分析一个时变频信号

(1) 傅里叶变换公式

Define

其中：

代表整个信号的频谱，它描述了信号中所有频率成分的全局分布。

💡

问题：这个变换是基于整个时间范围，意味着它假设信号的频率特性在整个时间轴上是恒定的（即平稳信号）。

如果信号是非平稳的（即它的频率内容随时间变化），则全局傅里叶变换会导致：

频率信息被平均化，无法看到随时间变化的细节；

在这个例子中，信号在 1 秒时是 10 Hz，2 秒时是 20 Hz，傅里叶变换可能会给出一个同时包含 10 Hz 和 20 Hz 成分的频谱，但无法告诉我们这些成分何时出现。

(2) 短时傅里叶变换（STFT）

Define

其中：

表示窗函数在信号上的中心位置，也就是窗“滑动”的位置；

为频率变量；

用于对信号在时间附近进行局部加权，从而使得傅里叶变换反映的是该局部区域内的频谱信息。

💡

随着的移动：

当落在区间内，窗内主要包含 10 Hz 成分，因此 STFT 在该时刻的频谱主峰在 10 Hz 附近；

当落在区间内，窗内主要包含 20 Hz 成分，因此 STFT 的频谱主峰转移到 20 Hz 附近。

通过STFT得到的时频图（spectrogram，即的图像）可以直观展示信号频率随时间变化的情况，这正是 Sliding Transform 在非平稳信号分析中的重要应用。

通过这个例子可以直观的看到，Sliding Transform实际上就是在非平稳信号分析应用而生的

2、Hippo 与 Sliding Transforms的区别

在Sliding Transform中，虽然使用滑动窗口的方式避免了传统变换的问题。但是在固定窗口下，会导致记忆丢失问题。也因此Hippo做了一些创新：

使用了一种缩放度量，窗口大小随着时间增长而增长

与传统变换的离散化方式不同，Hippo先进行ODE，然后对ODE 离散化

缩放度量

Define

在数学上，正交多项式（Orthogonal Polynomials） 通常在一个加权测度下定义，使得：

其中：

是某种正交多项式（如 Legendre, Laguerre, Chebyshev）。

是一个测度（可以简单理解为加权函数）。

这个测度决定了正交性如何定义，以及哪些部分的输入信号应该被赋予更高的权重。

不同的测度产生不同的正交多项式，比如：

Legendre：（均匀权重）

Laguerre：（指数衰减权重）

Chebyshev：（适用于[-1,1]的加权）

➡ 这个数学背景为 HiPPO 选择不同的缩放度量提供了理论基础。

For example

在最佳逼近理论（Approximation Theory） 中，我们经常希望在一个度量下，找到最优的低维表示：

其中：

是原始信号；

是一个由正交多项式组成的近似；

决定了误差计算的权重——即哪些区域的误差更重要。

💡

可以看出测度度量，实际上是对每一个sliding transform的窗口赋予一个加权函数进行加权。而Hippo利用了这个特点，来对历史数据的遗忘来进行控制，允许记忆逐渐衰减，同时使用ODE离散化来配合达到记忆管理长距离依赖的问题

ODE离散化

Hippo的初始目的，即构造一个能存储整个过去输入 的最佳有限维状态，例如

对于一个时间序列，我们希望构造一个有限维状态向量，使得它能存储过去所有的输入：

但由于存储所有历史数据是不现实的，我们需要找到一个最优的有限维表示，以最小的信息损失来近似整个历史数据。

采用正交多项式作为投影基函数

在数学上，我们可以使用 正交多项式（Orthogonal Polynomials） 作为基函数，来表示整个历史的最佳近似：

其中：

是一组 正交多项式基（如 Legendre, Laguerre, Chebyshev）。

是每个基函数上的投影系数。

这样，我们可以用有限维的状态向量来近似整个历史：

💡

HiPPO 选择正交多项式是因为它们在时间上是动态的，即一个N阶的正交多项式可以分为

其中：

低阶多项式（如 ）主要描述 长时依赖（长期趋势）。

高阶多项式（如 ）主要描述 短时变化（局部细节）。

故其能适应不同的时间尺度。