Ref

{ % FilterNet_2411.01623v2.pdf % }

Motivation

解决的问题:神经网络对于时序预测的不准确性(Timeseries forecasting)

点名批评 iTransformer

主要贡献:

在研究基于深度Transformer的时间序列预测模型时,通过一个简单的模拟实验,研究者们观察到了一个有趣的现象,这激发了他们探索一种新的角度,即将信号处理技术应用于深度时间序列预测。

受到信号处理中滤波过程的启发,研究者们提出了一个简单而有效的网络——FilterNet。这个网络基于两个可学习的频率滤波器构建,这些滤波器能够通过选择性地通过或衰减时间序列信号的某些成分来提取关键的信息性时间模式,从而提高预测性能。

研究者们在八个时间序列预测基准数据集上进行了广泛的实验。实验结果表明,与现有的最先进的预测算法相比,他们的模型在有效性和效率方面都取得了更优越的性能。

Methods

网络架构

Overall Structure of FilterNet

输入的时间序列数据(LL为观测时间窗长度,NN为变量个数),表示为

X=[X11:L,X21:L,,XN1:L]\bf X=[{X}_{1}^{1:L},{X}_{2}^{1:L},\ldots,{X}_{N}^{1:L}]

预测之后τ\tau时间的数据,表示为

Y=[X1L+1:L+τ,X2L+1:L+τ,,XNL+1:L+τ]\bf Y = [X_1^{L+1:L+\tau}, X_2^{L+1:L+\tau}, \ldots, X_N^{L+1:L+\tau}]

Instance Normalization

此模块为了解决数据本身的非平稳性,更好地进行时序数据预测。

预测模型在测试期间可能面临分布偏移(distribution shifts),这种偏移可能是由于协变量偏移(covariate shift)或条件偏移(conditional shift)引起的。

协变量偏移:
协变量偏移发生在模型训练和应用时,输入数据(特征)的分布发生变化,但输出标签的分布保持不变。这会导致模型在训练集上表现良好,但在测试集上表现不佳。协变量偏移可以由多种因素引起,包括环境变化、时间推移、数据收集方式的改变或人为干预
。例如,一个用于预测疾病的模型,如果训练集来自过去的青年人数据,而测试集来自未来的老年人数据,就可能存在外部协变量偏移

条件偏移:
条件偏移,也称为标签偏移,是指训练数据和测试数据的标签分布P(y)不同,而输入分布P(x)相同。这意味着输出标签的分布发生了变化,但输入数据的分布保持不变。这可能导致模型在训练时学习到的关联性在新的标签分布下不再适用,从而影响模型的预测性能。

Norm(X)=[Xi1:LMeanL(Xi1:L)StdL(Xi1:L)]i=1N\mathrm{Norm}(\bf X) = [\frac{\bf X_{i}^{1:L} - \mathrm{Mean_L(\bf X_{i}^{1:L})}}{\mathrm{Std}_L(\bf X_{i}^{1:L})}]_{i=1}^{N}

其中,MeanL()\mathrm{Mean}_L(\cdot)是在时间维度上取平均,StdL()\mathrm{Std_L(\cdot)}同理.

与其对应的InverseNorm\mathrm{InverseNorm}表示为如下形式:

InverseNorm(P)=[PiL+1:L+τ×StdL(Xi1:L)+MeanL(Xi1:L)]i=1N\mathrm{InverseNorm}(\bf P)=[P_{i}^{L+1:L+\tau} \times \mathrm{Std_L(X_{i}^{1:L}) + Mean_L(X_i^{1:L})}]_{i=1}^{N}

P\bf P是预测数据。

附录中对于Instance Norm Block的讨论

Freq. Filter Block

FilterBlock(Z)=F1(F(Z)Hfilter)\mathrm{FilterBlock}(\bf Z)=\mathcal{F}^{-1}(\mathcal{F}(\bf Z)\mathcal{H}_{filter})

F()\mathcal{F}(\cdot)是傅里叶变换。

针对普通塑形滤波器 Plain shaping filter
Hfilter\mathcal{H}_{filter}搞成可学习的:Hϕ\mathcal{H}_\phi

针对上下文塑形滤波器 Contextual shaping filter
Hfilter\mathcal{H}_{filter}搞成data-driven可学习的:Hϕ(F(Z))\mathcal{H}_\phi(\mathcal{F}(\bf Z))

Plain Shaping Filter

Prior: 对于多变量的时序数据,channel-independence策略优于channel-mixing

Two types of Plain Shaping Filter, channel-shared and channel-unique

Given the serial input ZRN×L\bf Z \in \mathbb{R}^{N\times L}

Z=F(Z)S=ZLHϕ,Hϕ{Hϕ(Uni),Hϕ(Ind)}S=F1(S)\begin{aligned} & \mathcal{Z}=\mathcal{F}(\mathbf{Z}) \\ & \mathcal{S}=\mathcal{Z}\odot_L\mathcal{H}_\phi,\mathcal{H}_\phi\in\{\mathcal{H}_\phi^{(\mathcal{U}ni)},\mathcal{H}_\phi^{(Ind)}\} \\ & \mathbf{S}=\mathcal{F}^{-1}(\mathcal{S}) \end{aligned}

L\odot_L是在L维度逐元素相乘。使用时,这个滤波器会随机初始化滤波参数并在训练过程中学习。

Contextual Shaping Filter

Given the serial input ZRN×L\bf Z \in \mathbb{R}^{N\times L}

ZN×L=F(Z)ε=κ(Z)Hϕ(Z)=σ(εDW1:K),W1:K=i=1KWiS=εDHϕ(Z)SN×D=F1(S)\begin{aligned} & \boldsymbol{Z}^{\boldsymbol{N}\times L}=\mathcal{F}(\mathbf{Z}) \\ & \varepsilon=\kappa(\mathcal{Z}) \\ & \mathcal{H}_{\phi}(\mathcal{Z})=\sigma(\varepsilon\odot_D\mathcal{W}_{1:K}),\mathcal{W}_{1:K}=\prod_{i=1}^K\mathcal{W}_i \\ & \mathcal{S}=\varepsilon\odot_D\mathcal{H}_\phi(\mathcal{Z}) \\ & \mathbf{S^{N\times D}}=\mathcal{F}^{-1}(\mathcal{S}) \end{aligned}