本文来源公众号“Coggle数据科学”,仅用于学术分享,侵权删,干货满满。
原文链接:ICLR 2025:LLMs能否理解时间序列异常?
LLMs能否理解时间序列异常?
大型语言模型(LLMs)在时间序列预测领域已经受到广泛关注,但它们在异常检测方面的潜力尚未得到充分探索。本研究旨在调查LLMs是否能够理解和检测时间序列数据中的异常,重点关注零样本(zero-shot)和少样本(few-shot)场景。
https://arxiv.org/pdf/2410.05440
本文研究揭示了关于LLMs在时间序列方面的一些令人惊讶的发现:
-
LLMs将时间序列理解为图像比理解为文本更好。
-
当提示LLMs进行明确的时间序列分析推理时,它们并没有表现出增强的性能。
-
与普遍观点相反,LLMs对时间序列的理解并非源于它们的重复偏见或算术能力。
-
LLMs在时间序列分析中的行为和表现因不同模型而存在显著差异。
时序异常定义
时间序列异常可以在两个层面上进行分析:(1)在单个序列内,特定的点或区间偏离正常模式;(2)在不同序列之间,整个序列被视为异常。
时序异常模式分类
时间序列异常的模式可以根据其性质分为两大类:超出正常值范围的超出范围异常和仅在特定上下文中表现出异常行为的上下文异常。上下文异常可以进一步细分为频率异常、趋势异常和上下文单点异常。每种类型都具有独特的特征和检测挑战。通过检查LLMs如何识别这些不同类型的异常,我们可以验证关于LLMs对时间序列数据理解的假设是否在不同的模式变化中始终成立。
超出范围异常
超出范围异常是位于时间序列正常值范围之外的数据点。即使时间序列的顺序被打乱,这些异常也可以被检测到,如图1(d)所示。如果一个模型能够检测到超出范围的异常,但无法检测到上下文异常,这表明它没有利用时间序列中的位置信息。
上下文异常
上下文异常是偏离时间序列预期模式的数据点或连续子序列。只有当时间序列的顺序被保留时,这些异常才可被检测到。
论文实验
实验设置
实验使用了四种最先进的多模态大型语言模型(M-LLMs),其中两种是开源的:Qwen-VL-Chat(Bai等人,2023年)和InternVL2-Llama3-76B(Chen等人,2024年),另外两种是专有的:GPT-4o-mini(OpenAI,2024年)和Gemini-1.5-Flash(Google,2024年)。
每种模型有21种提示变体,其中13种用于文本,8种用于视觉。在对照实验中,对于每种模型,我们报告特定变体或在该条件下得分最高的前3种变体。
LLMs生成异常区间,可以转换为二进制标签,但不输出异常分数。因此,我们报告精确度、召回率和F1分数。
实验结果
在本节中,我们讨论与我们的观察结果一致的假设以及我们可以自信拒绝的假设。
没有发现证据表明通过CoT明确推理提示可以提高LLMs在时间序列分析中的性能。
有趣的是,当我们明确使用CoT来模拟人类对时间序列的推理时,所有模型和异常类型上的异常检测性能稳步下降,如图3所示。这些发现表明,LLMs在时间序列异常检测中的性能可能并不依赖于CoT提示旨在唤起的那种逐步逻辑推理。
然而,这并不一定意味着LLMs根本不使用推理;相反,它们理解时间序列数据的方式可能与我们对明确、类似人类推理过程的期望不同。
LLMs的重复偏见并不能解释它们识别周期性结构的能力。
如果这个假设是真的,我们期望注入噪声会导致文本性能的大幅下降(因为标记不再重复),而视觉性能的下降则不会那么大。
然而,两种模态的性能下降是相似的,如图4所示,文本性能的下降往往并不显著。这表明LLMs识别文本频率异常的能力有其他根源,而不是它们的标记重复偏见。
LLMs对时间序列的理解与其执行算术计算的能力无关。
我们设计了一个上下文学习场景,其中LLMs对五位整数加法的准确率下降到12%。尽管如此,LLMs的异常检测性能仍然基本一致,这表明LLMs的异常检测能力并不直接与其算术能力相关。
时间序列异常作为图像被M-LLMs检测到的效果比作为文本被LLMs检测到的效果更好。
在各种模型和异常类型中,M-LLMs从可视化的时间序列中发现异常的能力远比从文本时间序列中发现异常的能力强。唯一的例外是在使用专有模型检测频率异常时。这与人类对时间序列数据进行视觉检查的偏好一致。
LLMs对异常的理解与人类的视觉感知不一致。
我们创建了一个“平坦趋势”数据集,其中异常趋势对于人类来说太微妙而无法通过视觉检测,但当计算梯度的移动平均值时变得明显。LLMs的性能与常规趋势数据集非常相似,无论模态如何。这表明LLMs在检测异常时并不受人类相同的限制。
当输入时间序列有更多的标记时,LLMs的性能会变差。
我们观察到,当将时间序列从1000步插值到300步时,性能一致提高。值得注意的是,所有实验中表现最佳的前3种文本变体通常都应用了这种缩短。这强调了LLM处理长时间序列的困难,尤其是因为分词器将每个数字表示为单独的标记。
个别模型在零样本和少样本异常检测中表现出明显不同的行为。
例如,GPT在处理更长序列时的性能下降并不像其他模型那么严重,而像Qwen这样的模型在处理视觉输入时要成功得多。
论文结论
LLMs在检测视觉频率异常方面并不有效,因此基于视觉LLMs的异常检测系统应在将数据输入LLMs之前利用傅里叶分析来提高性能。 此外模型选择和可能的集成方法对于设计基于LLMs的异常检测系统至关重要。
THE END !
文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。