引言
本博客内容来自于公众号:时间序列分析团队
AAAI由国际人工智能促进协会(Association for the Advancement of Artificial Intelligence, AAAI)主办,是人工智能领域历史最悠久、内容覆盖最广的国际顶级会议之一,也是中国计算机学会(CCF)推荐的A类国际学术会议。
AAAI 2025于2025年2月25日- 3月4日在美国宾夕法尼亚州费城举办。本届AAAI会议共有12957篇有效投稿,录用3032篇,录取率为 23.4%。
AAAI 2025中包含时间序列分析论文63篇,其中预测31篇,具体论文如下:
1. HDT: Hierarchical Discrete Transformer for Multivariate Time Series Forecasting
简要介绍:
本文提出了一种称为分层离散变换器(HDT)的矢量量化框架,该框架使用l2归一化增强矢量量化策略将时间序列建模为离散令牌表示,其中HDT将MTS预测转换为离散令牌生成。为了解决生成模型在长期预测中的局限性,HDT使用了一种分层离散变换器。该模型在低水平上捕获了目标的离散长期趋势,并利用这一趋势作为条件来生成目标在高水平上的离散表示,该表示引入了目标本身的特征,以延长高维MTS中的预测长度。
2. Amplifier: Bringing Attention to Neglected Low-Energy Components in Time Series Forecasting
代码链接:https://github.com/aikunyi/Amplifier
简要介绍:
本文提出了一种能量放大技术来解决现有模型在时间序列预测中容易忽视低能分量的问题。该技术包括能量放大块和能量恢复块。能量放大模块增强低能量组件的能量,以提高模型对这些组件的学习效率,而能量恢复模块则将能量恢复到原始水平。此外,考虑到能量放大数据通常在频谱中显示两个不同的能量峰值,本文将能量放大技术与季节趋势预测器相结合,独立地模拟这两个峰值的时间关系,作为提出的模型Amplifier的支柱。此外,本文提出了一种用于放大器的半通道交互时间关系增强块,从数据中每个通道的共性和特异性的角度增强了模型捕获时间关系的能力。
3. Unlocking the Power of LSTM for Long Term Time Series Forecasting
代码链接:
https://github.com/Eleanorkong/P-sLSTM
简要介绍:
传统的递归神经网络架构,如长短期记忆神经网络(LSTM),在时间序列预测(TSF)任务中历来起着重要作用。虽然最近推出的用于自然语言处理的sLSTM引入了有利于长期顺序学习的指数门控和记忆混合,但其潜在的短时记忆问题是直接在TSF中应用sLSTM的障碍。为了解决这个问题,本文提出了一种名为P-sLSTM的简单而高效的算法,该算法基于sLSTM,结合了补丁和信道独立性。这些修改大大提高了sLSTM在TSF中的性能,实现了最先进的结果。
4.Unlocking the Power of Patch: Patch-Based MLP for Long-Term Time Series Forecasting
简要介绍:
最近的研究试图改进Transformer架构,以证明其在长期时间序列预测(LTSF)任务中的有效性。尽管超越了许多线性预测模型,性能不断提高,但本文仍然对Transformers作为LTSF的解决方案持怀疑态度。本文将这些模型的有效性主要归因于所采用的补丁机制,该机制在一定程度上增强了序列局部性,但未能完全解决置换不变自注意机制固有的时间信息丢失问题。进一步的研究表明,用Patch机制增强的简单线性层可能优于基于Transformer的复杂LTSF模型。此外,与使用渠道独立性的模型不同,本文的研究强调了跨变量相互作用在提高多元时间序列预测性能方面的重要性。变量之间的相互作用信息非常有价值,但在过去的研究中被误用,导致次优的交叉变量模型。基于这些见解,本文提出了一种用于LTSF任务的新颖而简单的基于补丁的MLP(PatchMLP)。具体来说,本文采用简单的移动平均从时间序列数据中提取平滑分量和含噪声残差,通过信道混合进行语义信息交换,并专门处理具有信道独立性的随机噪声。PatchMLP模型在几个真实世界的数据集上始终如一地实现了最先进的结果。本文希望这一令人惊讶的发现将刺激LTSF领域的新研究方向,并为更高效、更简洁的解决方案铺平道路。
5. A Lightweight Sparse Interaction Network for Time Series Forecasting
简要介绍:
最近的研究表明,线性模型在长期时间序列预测(TSF)中可以优于几种transformer模型。然而,线性模型不是通过自我关注显式地执行时间交互,而是基于堆叠的MLP结构隐式地执行它,这可能不足以捕捉复杂的时间依赖关系,其性能仍有改进的潜力。为此,本文提出了一种用于TSF任务的轻量级稀疏交互网络(LSINet)。受自我注意稀疏性的启发,本文提出了一种多头稀疏交互机制(MSIM)。与自我注意不同,MSIM通过稀疏性诱导的伯努利分布学习时间步长之间的重要联系,以捕捉TSF的时间依赖性。所提出的自适应正则化损失保证了稀疏性。此外,本文观察到时间交互的可共享性,并建议对MSIM进行共享交互学习,以进一步提高效率并改善收敛性。LSINet是一个线性模型,仅包含低开销的MLP结构,并配备了显式的时间交互机制。在公共数据集上的广泛实验表明,LSINet在TSF任务中比高级线性模型和transformer模型具有更高的准确性和更高的效率。
6.Disentangling Long-Short Term State Under Unknown Interventions for Online Time Series Forecasting
代码链接:
https://github.com/DMIRLAB-Group/LSTD
简要介绍:
当前的时间序列预测方法在在线场景中很困难,因为当数据按顺序到达时,很难在适应短期变化的同时保持长期依赖性。尽管最近的一些方法通过控制潜在状态的更新来解决这个问题,但它们无法区分长期/短期状态,导致无法有效地适应非平稳。为了应对这一挑战,本文提出了一个通用框架,用于在线时间序列预测的长期/短期状态。本文的想法受到了以下观察的启发,即短期变化可能由股市突然政策等未知干预措施引发。基于这一认识,本文正式化了一个对短期状态进行未知干预的数据生成过程。在温和的假设下,进一步利用未知干预导致的短期状态的独立性来建立识别理论,以实现长期/短期状态的解纠缠。基于这一理论,开发了一个长短期去纠缠模型(LSTD),分别使用长短期编码器提取长短期状态。此外,LSTD模型结合了一个平滑约束来保留长期依赖关系,以及一个中断依赖约束来强制忘记短期依赖关系,从而促进了长期/短期状态的解纠缠。
7. Sequence Complementor: Complementing Transformers for Time Series Forecasting with Learnable Sequences
简要介绍:
自推出以来,transformer已经改变了时间序列预测中传统模型(如RNN、MLP)的发展轨迹,这归因于它能够捕获时间令牌内的全局依赖关系。后续研究主要涉及改变标记化和自我关注模块,以更好地使Transformers适应时间序列中的非平稳性、通道依赖性和变量相关性等特殊挑战。然而,在研究了几种代表性方法后,本文发现序列表示的表达能力是影响Transformer在时间预测中性能的关键因素,其中序列表示熵和均方误差之间几乎呈线性关系,更多样化的表示表现更好。本文提出了一种新的带有序列互补器的注意力机制,并从信息论的角度证明了其可行性,其中这些可学习的序列能够提供当前输入之外的补充信息来吸引注意力。本文通过理论上覆盖的多样化损失进一步增强了序列复合物。对长期和短期预测的实证评估证实了其优于最近最先进的方法。
8. Auto-Regressive Moving Diffusion Models for Time Series Forecasting
代码链接:
https://github.com/daxin007/ARMD
简要介绍:
时间序列预测(TSF)在各个领域都至关重要,基于扩散的TSF模型的最新进展显示出相当大的前景。然而,这些模型通常采用传统的扩散模式,将TSF视为基于噪声的条件生成任务。这种方法忽略了时间序列固有的连续序列特性,导致扩散机制和TSF目标之间存在根本性的错位,从而严重损害了性能。为了弥合这种错位,并受经典的自回归移动平均(ARMA)理论的启发,该理论将时间序列视为从先前数据点演变而来的连续序列级数,我本文提出了一种新的自回归运动扩散(ARMD)模型,首先实现了基于连续序列扩散的TSF。与之前从高斯白噪声开始的方法不同,该模型采用了基于链的先验扩散,准确地模拟了时间序列的演变,并利用中间状态信息来提高预测的准确性和稳定性。具体来说,该方法通过将未来序列视为初始状态,将历史序列视为最终状态,并在正向过程中使用基于滑动的技术生成中间序列,来重新解释扩散过程。该设计使扩散模型的采样过程与预测目标相一致,从而形成了一个无条件、连续的顺序扩散TSF模型。
9. KernelMatmul: Scaling Gaussian Processes to Large Time Series
代码链接:
https://github.com/Turakar/kernel-matmul
简要介绍:
时间序列预测需要可靠的不确定性估计。高斯过程回归为以概率方式对此进行建模提供了一个强大的框架。然而,由于其立方时间复杂性和二次内存要求,它在大时间序列中的应用具有挑战性。本文提出了KernelMatmul,这是一种加速高斯过程推理的新方法,从而有助于将高斯过程回归扩展到大型、不规则采样和多输出时间序列。利用共轭梯度与稀疏近似相结合,KernelMatmul实现了时间和内存复杂度在样本数量上呈线性。
10. Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting
代码链接:
https://github.com/TROUBADOUR000/AMD
简要介绍:
基于Transformer和基于MLP的方法已成为时间序列预测(TSF)的主要方法。然而,现实世界的时间序列往往在不同尺度上显示出不同的模式,未来的变化是由这些重叠尺度的相互作用决定的,需要高容量的模型。虽然基于Transformer的方法在捕获长距离依赖关系方面表现出色,但它们具有较高的计算复杂性,并且往往会过度拟合。相反,基于MLP的方法在建模时间动力学方面提供了计算效率和熟练程度,但它们在有效地捕捉复杂尺度的时间模式方面存在困难。基于对时间序列中多尺度纠缠效应的观察,本文提出了一种新的基于MLP的自适应多尺度分解(AMD)框架用于TSF。该框架将时间序列分解为多个尺度上的不同时间模式,利用多尺度可分解混合(MDM)块来剖析和聚合这些模式。通过双依赖交互(DDI)块和自适应多预测器合成(AMS)块的补充,该方法有效地模拟了时间和信道依赖性,并利用自相关来改进多尺度数据集成。
11. VarDrop: Enhancing Training Efficiency by Reducing Variate Redundancy in Periodic Time Series Forecasting
简要介绍:
变量标记化将每个变量独立地嵌入为单独的标记,在多元时间序列预测方面取得了显著的进步。然而,在变量令牌中使用自我关注会导致变量数量的二次计算成本,从而限制了其在大规模应用程序中的训练效率。为了解决这个问题,本研究提出了VarDrop,这是一种简单而有效的策略,通过在训练过程中省略冗余的变量令牌来减少令牌的使用。VarDrop自适应地排除给定批次中的冗余令牌,从而减少用于点产品注意力的令牌数量,同时保留基本信息。具体来说,该方法引入了k主频散列(k-DFH),它利用频域中排名的主频作为散列值,有效地对表现出类似周期行为的变量令牌进行分组。然后,通过分层抽样只对每组中的代表性代币进行抽样。通过使用这些选定的标记执行稀疏注意力,缩放点积注意力的计算成本显著降低。
12. Battling the Non-stationarity in Time Series Forecasting via Test-time Adaptation
代码链接:
https://github.com/kimanki/TAFAS
简要介绍:
深度神经网络在时间序列预测(TSF)方面取得了显著进展,TSF是时间序列建模的主要任务之一。尽管如此,时间序列的非平稳性破坏了在关键任务部署环境中预先训练的源时间序列预测者的可靠性。本研究介绍了一种为TSF量身定制的开创性测试时间自适应框架(TSF-TTA)。TAFAS是TSF-TTA的拟议方法,它灵活地使源预测器适应不断变化的测试分布,同时保留了在预训练期间学习到的核心语义信息。部分观测到的地面实况和门控校准模块的新颖利用使源预报员能够进行主动、稳健和模型无关的适应。
13. TimeCAP: Learning to Contextualize, Augment, and Predict Time Series Events with Large Language Model Agents
简要介绍:
时间序列数据在各种应用中都是必不可少的,包括气候建模、医疗监测和金融分析。了解与真实世界时间序列数据相关的上下文信息对于准确可靠的事件预测通常至关重要。本文介绍了TimeCAP,这是一个时间序列处理框架,创造性地采用大型语言模型(LLM)作为时间序列数据的上下文化器,扩展了它们作为预测器的典型用途。TimeCAP包含两个独立的LLM代理:一个生成捕获时间序列上下文的文本摘要,另一个使用此丰富的摘要进行更明智的预测。此外,TimeCAP采用了一种多模态编码器,与LLM代理协同工作,通过与上下文示例相互增强输入来提高预测性能。
14. Neural Conformal Control for Time Series Forecasting
代码链接:
https://github.com/complex-ai-lab/ncc
简要介绍:
本文介绍了一种用于时间序列的神经网络共形预测方法,该方法增强了非平稳环境中的自适应性。该方法充当一个神经控制器,旨在实现所需的目标覆盖,以端到端的方式利用辅助多视图数据和神经网络编码器来进一步增强自适应性。此外,该模型旨在通过整合单调性约束来增强不同分位数中预测区间的一致性,并利用相关任务的数据来提高少镜头学习性能。
15. TimeCMA: Towards LLM-Empowered Multivariate Time Series Forecasting via Cross-Modality Alignment
代码链接:
https://github.com/ChenxiLiu-HNU/TimeCMA
简要介绍:
多元时间序列预测(MTSF)旨在学习变量之间的时间动态,以预测未来的时间序列。现有的基于统计和深度学习的方法存在可学习参数有限和小规模训练数据的问题。最近,将时间序列与文本提示相结合的大型语言模型(LLM)在MTSF中取得了良好的性能。然而,本文发现目前基于LLM的解决方案在学习解纠缠嵌入方面存在不足。本文介绍TimeCMA,这是一个通过跨模态对齐实现MTSF的直观而有效的框架。具体来说,本文提出了一种具有两个分支的双模编码:时间序列编码分支提取解纠缠但较弱的时间序列嵌入,LLM授权的编码分支用文本作为提示包裹相同的时间序列,以获得纠缠但稳健的提示嵌入。因此,这种跨模态比对从基于时间序列和提示模态相似性的提示嵌入中检索到解纠缠和鲁棒的时间序列嵌入,即“两个世界中最好的”。作为另一个关键设计,为了降低时间序列及其长度文本提示的计算成本,本文设计了一个有效的提示,鼓励将最重要的时间信息封装在最后一个令牌中:只有最后一个符号被传递给下游预测。本文进一步存储最后的令牌嵌入,以加快推理速度。
16. CALF: Aligning LLMs for Time Series Forecasting via Cross-modal Fine-Tuning
代码链接:
https://github.com/Hank0626/CALF
简要介绍:
深度学习(如Transformer)已被广泛成功地应用于多元时间序列预测(MTSF)。与现有的侧重于从单一时间序列输入模式训练模型的方法不同,基于大型语言模型(LLM)的MTSF方法具有跨模式文本和时间序列输入,最近显示出巨大的优势,特别是在时间数据有限的情况下。然而,目前基于LLM的MTSF方法通常侧重于调整和微调LLM,而忽略了文本和时间输入令牌之间的分布差异,从而导致次优性能。为了解决这个问题,本文提出了一种新的跨模态LLM微调(CALF)框架,通过减少文本和时间数据之间的分布差异来实现MTSF,该框架主要由具有时间输入的时间目标分支和具有对齐文本输入的文本源分支组成。为了减少分布差异,开发了跨模态匹配模块,首先对齐跨模态输入分布。此外,为了最小化特征和输出空间中的模态分布差距,开发了特征正则化损失来对齐两个分支之间的中间特征,以获得更好的权重更新,同时引入了输出一致性损失,以使两个分支的输出表示有效对应。由于模态对准,CALF以较低的计算复杂度为长期和短期预测任务建立了最先进的性能,并表现出与LLM类似的有利的少热和零样本能力。
17.WPMixer: Efficient Multi-Resolution Mixing for Long-Term Time Series Forecasting
简要介绍:
时间序列预测对于各种应用至关重要,如天气预报、电力负荷预测和财务分析。在最近的研究中,用于时间序列预测的MLP混合器模型已被证明是基于变压器模型的有前景的替代方案。然而,这些模型的性能尚未达到其潜力。本文提出了一种基于MLP的新模型——小波补丁混合器(WPMixer),用于长期时间序列预测,该模型利用了补丁、多分辨率小波分解和混合的优点。该模型基于三个关键组成部分:(i)多分辨率小波分解,(ii)补丁和嵌入,以及(iii)MLP混合。多分辨率小波分解有效地提取了频域和时域的信息。修补允许模型通过回顾窗口捕获扩展的历史,并增强了捕获本地信息的能力,而MLP混合则包含了全局信息。
18. Times2D: Multi-Period Decomposition and Derivative Mapping for General Time Series Forecasting
代码链接:
https://github.com/Tims2D/Times2D
简要介绍:
时间序列预测在能源管理、交通规划、金融市场、气象和医学等各个领域都有重要应用。然而,实时序列数据往往呈现出复杂的时间变异性和剧烈波动,这给时间序列预测带来了重大挑战。以前依赖于1D时间序列表示的模型通常难以应对复杂的时间变化。为了解决一维时间序列的局限性,本研究引入了Times2D方法,将一维时间序列转换为二维空间。Times2D由三个主要部分组成:第一,周期分解块(PDB),通过将时间序列转换为频域中的2D张量来捕获一个周期内和同一周期之间的时间变化。其次,一阶和二阶导数热图(FSDH)分别捕捉到急剧变化和转折点。最后,聚合预测块(AFB)整合了PDB和FSDH的输出张量,以进行准确预测。这种2D变换能够利用2D卷积运算来有效地捕获时间序列的长短特征。文献中大规模数据的综合实验结果表明,所提出的Times2D模型在短期和长期预测方面都达到了最先进的性能。
19. Cherry-Picking in Time Series Forecasting: How to Select Datasets to Make Your Model Shine
代码链接:
https://github.com/luisroque/bench
简要介绍:
时间序列预测的重要性推动了解决这一问题的持续研究和新方法的开发。通常,这些方法是通过实证研究引入的,这些研究经常声称所提出的方法具有更高的准确性。然而,由于实验设置的局限性,人们对这些结果的可靠性和普遍性越来越担忧。本文讨论了一个关键的局限性:所使用的数据集的数量和代表性。本文研究了数据集选择偏差,特别是樱桃采摘数据集的实践对预测方法性能评估的影响。通过对一组不同的基准数据集进行实证分析,本文的研究结果表明,挑选数据集会显著扭曲方法的感知性能,往往夸大其有效性。此外,本文的结果表明,通过选择性地选择四个数据集——大多数研究都报告了这一点——46%的方法可以被认为是同类中最好的,77%的方法可以排在前三位。此外,最近基于深度学习的方法对数据集选择表现出很高的敏感性,而经典方法表现出更大的鲁棒性。最后,本文的结果表明,当在基准的一个子集上实证验证预测算法时,将测试的数据集数量从3个增加到6个,可以将错误识别算法为最佳算法的风险降低约40%。本文的研究强调了对更准确地反映现实世界情景的全面评估框架的迫切需求。采用这样的框架将确保开发出稳健可靠的预测方法。
20. xPatch: Dual-Stream Time Series Forecasting with Exponential Seasonal-Trend Decomposition
代码链接:
https://github.com/stitsyuk/xPatch
简要介绍:
近年来,基于transformer的模型在时间序列预测中的应用受到了广泛关注。虽然经常显示出有希望的结果,但由于其注意力机制,transformer架构在充分利用时间序列数据中的时间关系方面遇到了挑战。本文设计了eXponential Patch(简称xPatch),这是一种利用指数分解的新型双流架构。受经典指数平滑方法的启发,xPatch引入了创新的季节趋势指数分解模块。此外,本文提出了一种双流架构,由基于MLP的线性流和基于CNN的非线性流组成。该模型研究了在无变压器模型中采用配线和信道独立技术的好处。最后,本文开发了一个鲁棒的反正切损失函数和一个sigmoid学习率调整方案,可以防止过拟合并提高预测性能。
21. Hierarchical Classification Auxiliary Network for Time Series Forecasting
代码链接:
https://github.com/syrGitHub/HCAN
简要介绍:
深度学习通过其捕捉序列关系的强大能力,显著推进了时间序列预测。然而,用均方误差(MSE)损失训练这些模型通常会导致预测过于平滑,这使得处理复杂性和从具有高可变性和不可预测性的时间序列数据中学习高熵特征变得具有挑战性。本文引入了一种新方法,通过交叉熵损失对时间序列值进行标记来训练预测模型,同时考虑时间序列数据的连续性。具体来说,提出了一种分层分类辅助网络HCAN,这是一种通用的模型无关组件,可以与任何预测模型集成。HCAN基于层次感知注意力模块,该模块在不同层次级别集成了多粒度高熵特征。在每个级别,我们为时间步分配一个类标签,以训练一个不确定性感知分类器。该分类器通过证据理论减轻了对softmax损失的过度信心。本文还实现了分层一致性损失,以保持跨层次级别的预测一致性。
22. TimePFN: Effective Multivariate Time Series Forecasting with Synthetic Data
代码链接:
https://github.com/egetaga/TimePFN
简要介绍:
时间序列应用的多样性和特定领域数据的稀缺性凸显了对具有强大少镜头学习能力的时间序列模型的需求。本文提出了一种新的训练方案和一种基于 transformer的架构,统称为TimePFN,用于多元时间序列(MTS)预测。TimePFN基于先验数据拟合网络(PFN)的概念,旨在近似贝叶斯推理。我们的方法包括(1)通过不同的高斯过程核和线性共区域化方法生成合成MTS数据,以及(2)一种能够利用所有输入补丁的时间和跨通道依赖性的新型MTS架构。
23.HyperMixer: Specializable Hypergraph Channel Mixing for Long-term Multivariate Time Series Forecasting
简要介绍:
长期多元时间序列(LMTS)预测旨在基于渠道相关的历史数据预测未来的发展趋势。考虑到难以捉摸的信道相关性,大多数现有方法通过将信道视为独立的或尝试性地建模成对信道相互作用来折衷,这使得处理信道相关性中的高阶相互作用和时间变化的特征变得具有挑战性。本文提出了HyperMixer,这是一种新的可特殊化超图信道混合插件,它引入了多功能超图结构来捕获组信道交互和时变模式,用于长期多元时间序列预测。具体来说,为了对高阶信道交互进行编码,本文将多个信道构造成超图,实现了一种两阶段的消息传递机制:信道到组和组到信道。此外,提出了功能上可特殊化的超图结构,以提高超图捕捉跨周期时变模式的能力,进一步完善信道相关性的建模。
24. CSformer: Combining Channel Independence and Mixing for Robust Multivariate Time Series Forecasting
简要介绍:
在多元时间序列分析领域,信道独立性的概念越来越多地被采用,由于其消除噪声和无关变量影响的能力,表现出了出色的性能。然而,这样的概念往往简化了通道之间的复杂交互,从而可能导致信息丢失。为了应对这一挑战,本文提出了一种渠道独立后混合的策略。基于这一策略,本文引入了CSformer,这是一个具有两阶段多头自我注意机制的新框架。该机制旨在提取和整合通道特定和序列特定的信息。独特的是,CSformer采用参数共享来增强这两种信息之间的协作效果。此外,本文的框架有效地结合了序列和通道适配器,显著提高了模型在各个维度上识别重要信息的能力。
25. FilterTS: Comprehensive Frequency Filtering for Multivariate Time Series Forecasting
代码链接:
https://github.com/wyl010607/FilterTS
简要介绍:
多元时间序列预测在各个行业都至关重要,准确提取复杂的周期和趋势成分可以显著提高预测性能。然而,现有的模型往往难以捕捉到这些复杂的模式。为了应对这些挑战,本文提出了FilterTS,这是一种利用基于频域的专门滤波技术的新型预测模型。FilterTS引入了动态交叉变量滤波模块,这是一项关键创新,它动态地利用其他变量作为滤波器,以提取和增强多元时间序列中变量之间的共享可变频率分量。此外,静态全局滤波模块捕获整个训练集中识别的稳定频率分量。此外,该模型在频域中构建,将时域卷积转换为频域乘法运算,以提高计算效率。
26. Revisiting Attention for Multivariate Time Series Forecasting
简要介绍:
多变量时间序列预测(MTSF)的Transformer方法都是基于传统的注意力机制。它们涉及序列嵌入和对Q、K和V进行线性投影,然后在这个潜在空间内计算注意力。然而,当前还没有深入研究注意力机制,以探索这种映射空间是否是MTSF的最佳选择。为了研究这个问题,本文首先提出了频谱注意力(FSatten),这是一种基于频域空间的新型注意力机制。它采用傅里叶变换进行嵌入,并引入多头频谱缩放(MSS)来取代传统的Q和K的线性映射。FSatten可以准确地捕捉序列之间的周期依赖关系,并优于传统的注意力,而不需要改变主流架构。本文进一步设计了一种更通用的方法,称为缩放正交注意力(SOatten)。本文提出了一种基于相邻相似性偏差的正交嵌入和头部耦合卷积(HCC)来指导模型学习综合依赖模式。
27. Affirm: Interactive Mamba with Adaptive Fourier Filters for Long-term Time Series Forecasting
简要介绍:
https://github.com/zjuml/Affirm
简要介绍:
在长期序列预测(LTSF)中,模型必须能够熟练地从历史时间序列数据中识别和提取,以预测未来的状态。尽管基于Transformer的模型在LTSF中擅长捕捉长期依赖关系,但它们的实际应用受到计算效率低下、噪声敏感性和在较小数据集上过拟合等问题的限制。因此,本文引入了一种具有自适应傅里叶滤波器模型(Affirm)的新型时间序列轻量级交互式Mamba。具体来说,(i)提出了一种自适应傅里叶滤波器块。该神经算子采用傅里叶分析来细化特征表示,使用可学习的自适应阈值降低噪声,并通过元素乘法使用全局和局部语义自适应傅里叶滤波器捕获频率间的相互作用。(ii)引入双交互式Mamba块,以促进不同粒度下的高效模态内交互,捕获更详细的局部特征和广泛的全局上下文信息,为LTSF提供更全面的表示。
28.Probabilistic Forecasting of Irregularly Sampled Time Series with Missing Values via Conditional Normalizing Flows
简要介绍:
对具有缺失值的不规则采样多元时间序列的概率预测对于包括医疗保健、天文学和气候在内的各个领域的决策至关重要。假设数据为高斯分布,最先进的方法仅估计单通道和单时间点观测值的边际分布。本文提出了一种新的模型,ProFITi使用条件归一化流来学习多元条件分布:时间序列未来值的联合分布,以过去的观测值和特定的通道和时间点为条件,而不假设底层分布的任何固定形状。作为模型组件,在整条实数线上引入了一个新的可逆三角形注意层和一个可逆非线性激活函数。
29. Apollo-Forecast: Overcoming Aliasing and Inference Speed Challenges in Language Models for Time Series Forecasting
代码链接:
https://github.com/Ivan-YinTY/Apollo-Forecast
简要介绍:
将时间序列编码为令牌并使用语言模型进行处理已被证明可以大大增强模型对看不见的任务进行泛化的能力。然而,现有的时间序列预测语言模型遇到了几个障碍,包括混叠失真和推理时间延长,主要是由于量化过程的局限性和大型模型的计算需求。本文介绍了Apollo Forecast,这是一个新的框架,通过两项关键创新来应对这些挑战:抗混叠量化模块(AAQM)和竞争解码(RD)技术。AAQM熟练地将序列编码为令牌,同时减轻原始信号中的高频噪声,从而提高信号保真度和整体量化效率。RD采用草稿模型来实现并行处理和结果集成,这显著加快了长期预测的推理速度,特别是在大规模模型中。
30. WaveletMixer: A Multi-Resolution Wavelets Based MLP-Mixer for Multivariate Long-Term Time Series Forecasting
简要介绍:
时间序列预测(TSF)旨在预测时间序列数据的未来值,在许多现实世界的应用中起着至关重要的作用,例如金融、疾病传播或天气预测。然而,由于数据中复杂的时间依赖性,这也是一项非常具有挑战性的任务,特别是对于长期预测。本文介绍了小波混合器,这是一种迭代的多层次、多分辨率和多阶段方法,可以从全局和局部的角度有效地捕获多元时间序列的长期依赖关系,以提高预测性能。WaveletMixer在以下关键方面与现有作品有着根本的不同。首先,它利用小波变换的多层次特性,以不同的分辨率为不同的频域创建多个预测模型。其次,利用不同频域之间的关系,在局部和全局视角下同时迭代调整各级所有预测模型,以减少预测误差和偏差,从而显著提高最终精度。第三,虽然小波混合器是一个通用框架,可用于提高任何深度学习架构(如MLP、LSTM或Transformer)的性能,但本文还引入了TS Learner,这是一种基于MLP的模型,可进一步提高长期预测的性能。
31. STEM-LTS: Integrating Semantic-Temporal Dynamics in LLM-driven Time Series Analysis
简要介绍:
时间序列预测在金融、医疗保健和气候科学等领域发挥着至关重要的作用。然而,随着现代时间序列数据变得越来越复杂,具有高维度、复杂的时空依赖性和多尺度进化模式,传统的分析方法和现有的预测模型面临着重大挑战。尽管大型语言模型(LLM)在捕捉长期依赖关系方面表现出色,但它们仍然难以应对多尺度动态和季节模式。此外,虽然LLM的语义表示能力很丰富,但它们往往缺乏与时间序列数据的数值模式和时间结构的明确对齐,导致预测准确性和可解释性受到限制。为了应对这些挑战,本文提出了一种新的框架STEM-LTS(大规模时间序列的语义时态建模)。STEM-LTS通过将时间序列分解技术与基于LLM的建模相结合,增强了捕获复杂时空依赖关系的能力。框架内的语义-时间对齐机制显著提高了LLM解释和预测时间序列数据的能力。此外,开发了一种自适应多任务学习策略,以优化模型在多个维度上的性能。