ICLR 2022 Spotlight | Anomaly Transformer：基于关联差异的时序异常检测方法

将门创投 2022-02-21 08:22

本文介绍本组时间异常检测方向的最新工作：ANOMALY TRANSFORMER: TIME SERIES ANOMALY DETECTION WITH ASSOCIATION DISCREPANCY，该论文是ICLR 2022会议的Spotlight（亮点）论文。本篇文章探索了通过基于不同时间点之间的关联差异来进行时序异常检测的方法。

作者：徐介晖*，吴海旭*，王建民，龙明盛
链接：https://openreview.net/pdf?id=LzQQ89U1qm_

一、引言

现实世界的系统会有大量的连续数据，这些时序数据的异常检测对于保障系统安全、避免经济损失有着重要意义，例如服务器、地空设备的监测等。本文关注无监督时序异常检测问题。

这一问题已经受到了广泛关注。但是经典异常检测方法（例如LOF、OC-SVM）很少考虑时间信息，这使得他们在时序场景中应用受限。基于深度网络方法，往往是通过循环网络（RNN）学习时序数据点级别的表征，进而依靠重建或预测误差进行判定，然而，此类方法所学习的点级别表征的信息量较小，并且可能被正常模式主导，使得异常点难以区分。

因此，如何获取更具信息含量的表征，进而定义更加具有区分性的判据对于时序异常检测尤为关键。

二、动机

不同于点级别表征，我们注意到在时间序列中每一个点都可以由其与整个序列的关联来表示，可以表示为其在时间维度上的关联权重分布。同时，相比于正常点来说，异常点很难与序列的所有点都构建很强的关联，且由于连续性往往更加关注邻近区域。这种整个序列和邻近先验之间的关联差异为时序异常检测提供了天然的、强区分度的判据。

基于上述观察，我们提出了Anomaly Transformer模型用于建模时序关联，同时利用极大极小（Minimax）策略突出正常、异常点之间差别，实现了基于关联差异（Association Discrepancy）的时序异常检测。Anomaly Transformer在不同领域的5个数据集上都取得了SOTA的效果。

三、方法

3.1 Anomaly transformer

Anomaly transformer模型包含用于建模时序关联的Anomaly-Attention，其整体结构是Anomaly-Attention和前馈层的交替堆叠，从而有利于模型从多层次特征中学习潜在的时序关联。

如下图所示，Anomaly-Attention（左）同时建模了数据的先验关联（Prior-Association）和序列关联（Series-Association）。除了重建误差之外，我们的模型还采用了极大极小策略（Minimax）用于进一步增大异常点和正常点所具有的关联差异的差距。

整体架构

3.1.1 Anomaly-Attention

我们提出的一种新的注意力机制Anomaly-Attention，用于统一建模先验关联和序列关联，进而方便关联差异的计算。

· 对于先验关联 ，我们采用了可学习的高斯分布，其高斯分布的中心在对应序列的索引上。这种设计可以利用单峰分布的特点，使模型更加关注临近的点。同时，为了使得先验关联能够适应不同的时序模式，高斯先验包含可学习的参数。

· 对于序列关联 ，它是由标准Transformer中注意力计算获得，一个点的序列关联即是该点在注意力矩阵中对应行的注意力分布。该分支是为了学习原始序列中的关联，从而自适应地学习最有效果的关联。

与逐点表征相比，我们的两种关联都很好地维持了每个点在时间维度上的依赖从而使得表征具有了更丰富的信息。它们也分别反映了邻近先验和习得的真实关联。这两者之间的差异，即为关联差异（Association Discrepancy），可以天然的将正常点和异常点区分开来。

3.1.2 关联差异（Association Discrepancy）

为了量化正常点和异常点之间的差别，我们如下定义关联差异，它由先验和序列关联中的对称KL距离计算获得。

3.2 极大极小关联学习

为了无监督地学习表征，我们利用重建误差来进行模型优化。同时，为了加大正常点和异常点之间的差距，我们使用了一个额外关联差异损失来增大关联差异。在这种设计下，由于先验关联的单峰特性，新增的关联差异损失会驱使序列关联更加关注非邻近的区域，从而使得异常点的重建更加的艰难，进而更加可辨别。

然而直接最小化关联差异将使得高斯先验的差异急剧变小，结果就会导致先验分布无意义。因此，为了更好的控制关联学习的过程，我们采用了一种Minimax策略。

在最小化阶段，我们让先验关联近似从原始时序中学得的序列关联，该过程将使得先验关联适应不同的时序模式。在最大化阶段，我们优化序列关联来最大化关联之间的差异。该过程将使得序列关联更加注意非临接的点。

我们将标准化后的关联差异与重建误差结合起来制定了新的异常检测判据：

四、实验

我们在不同领域的5个数据集上进行了模型验证，涵盖服务检测、地空探索等多个应用。Anomaly Transformer在5个基准中均实现了SOTA的效果。更多基准模型及数据说明请见论文。

4.1 消融实验

为了进一步验证我们所提出模块的有效性，我们设计消融实验验证了提出的训练策略、先验关联、新的异常判据的有效性。

4.2 可视化分析

针对5类不同的异常类别，我们可视化了其在不同异常判据下的区分性。数值越高意味着该点异常的概率越大。不难发现基于关联的异常评判曲线有着更加准确的可区分性。

针对5类不同的异常类别，我们可视化了其在先验关联中最终学得的的大小。不难发现，在异常点处的在整个序列中都比较小，这代表了它与非临接部分的关联非常弱，这也符合我们认为异常点与整个序列构建强关联的假设。

4.3 优化策略

为了验证优化策略对于关联学习的影响，我们对比了直接使用重建误差训练、直接最大化关联差异、极大极小关联差异的影响。

如表所示，直接最大化关联差异将会引起高斯先验的优化问题，从而使得效果退化。而最大最小化策略使先验关联对序列关联增加了一个很强的限制，最终可以达到一个更加有辨别能力的结果。

五、总结

本文关注无监督时序异常检测问题，提出了基于关联差异的异常检测模型Anomaly transformer，并通过一个最大最小化学习策略大幅提高了模型的异常检测能力。

Anomaly transformer在服务监测、地空探索、水流观测等应用中均展现出了优秀的异常检测结果，模型具有良好的效果鲁棒性，具有很强的应用落地价值。

本文来自：公众号【THUML】
作者：徐介晖

Illustration by Igor Kapustin from icons8

-The End-

扫码观看！

本周上新！

关于我“门”

▼

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

⤵一键送你进入TechBeat快乐星球

阅读原文