×

用于动态时空预测的Long-Range Transformers

minsx minsx 发表于2021-10-13 00:00:00 浏览142 评论0

抢沙发发表评论

用于动态时空预测的Long-Range Transformers

关注人工智能学术前沿 回复 :ts31

5秒免费获取论文pdf文档,及项目源码



摘要

多变量时间序列预测(TSF)侧重于基于历史背景对未来价值的预测。在这些问题中,因变量提供了额外的信息或未来行为变化的早期预警信号。最先进的预测模型依赖于时间步之间的神经注意力这允许时间学习,但没有考虑变量之间不同的空间关系本文通过将多元TSF转换为一个新的时空序列公式来解决这个问题,其中每个输入标记代表给定时间步长的单个变量的值。然后,Long-Range Transformers可以学习空间、时间和价值信息之间的交互作用,共同沿着这个扩展序列。我们的方法,我们称之为Spacetimeformer,适用于由依赖于预定义的可变图的图神经网络控制的高维预测问题。我们在从交通预测到电力需求和天气预测的基准上取得了有竞争力的结果,同时纯粹从数据中学习空间和时间关系。



1.介绍


在本文中,我们提出将多元输入扁平化为长序列,其中每个输入令牌隔离给定时间步长的单个变量的值。由此产生的输入允许Long-Range Transformers架构共同学习跨越空间和时间的自我注意网络。这就创造了一种时空注意力机制


图1说明了时间注意力和时空注意力的区别。


图1:时间学习(左)与时空学习(右):将变量分割成单独的符号,创建一个时空图,我们可以为每个变量关注不同的时间步骤。


我们的方法可以解释长上下文窗口和预测未来的许多时间步,同时也发现数百个变量之间的空间关系。该模型的空间可扩展性为目前由图神经网络(GNN)方法主导的各种预测问题提供了应用。GNN依赖于表示输入变量之间关系的预定义图形。我们的经验表明,时空序列学习与Transformers可以恢复必要的关系,以实现在这些任务上的竞争表现,而学习空间和时间连接纯粹来源于数据。我们评估了从交通预测到电力生产和长期天气预测的各种时空频谱技术。


2.模型概述


3.1 Spatiotemporal Forecasting withTransformers

3.2 Long-Range Transformers for Real-World          3.2.1Spatiotemporal Forecasting

   3.2.2Scaling with Fast-Attention

   3.2.3Scaling with Initial and Intermediate Conv1Ds.

   3.2.4Local and Global Attention.

   3.2.5Output and Loss Functions.

3.3 Connecting to Spatial Forecasting and GNNs

图2:输入编码管道:(1)包含时间信息的标准多元输入格式。解码器输入缺失(?)值设为零,用于进行预测。(2)时间序列通过一个Time2Vec层生成一个表示周期性输入模式的频率嵌入。(3)二进制嵌入表示该值是作为上下文给出还是需要预测。(4)将每个时间序列的整数索引映射到具有查找表嵌入的空间表示。(5)通过前馈层投影每个时间序列的Time2Vec嵌入和变量值。(6) Value&Time, Variable, and Given embeddings are sum and lay out s.t。MSA关注时间和变量空间的关系,以较长的输入序列为代价。



我们通过向每个编码器和解码器层添加额外的本地注意模块来解决这个问题。每个变量序列在处理全局标记之前先处理自身。请注意,这确实意味着我们正在通过分离时间和空间注意力来简化全局注意力层,这在上述讨论的方法中很常见,此外还有Video transformer (Arnab等人,2021)和其他远程NLP架构(Zhu等人,2021)(Zhang等人,2021)。相反,每个标记先关注其自身序列中的每个标记,然后关注整个时空全球序列中的每个标记。我们使用Pre-Norm架构(Xiong et al. 2020)和BatchNorm规范化,而不是文献中的标准LayerNorm和其他替代方法。

附录c中讨论了附加的实现细节,一层编码器-解码器体系结构如图3所示。


关注人工智能学术前沿 回复 :ts31

5秒免费获取论文pdf文档,及项目源码


3.实验概述


基线模型

我们比较了来自TSF和GNN文献的代表性方法。


这些包括前面提到的MTGNN模型和Temporal ablation,以及一个基本的自回归线性模型(linear AR),一个不需要注意的标准编码器-解码器LSTM,以及一个基于CNN/ conv1d的LSTNet (Lai et al. 2018)。



数据集

我们用五个数据集来评估我们的方法,包括( trafficforecasting, weatherprediction, solar energy production,and a simple toy example)交通预测、天气预测、太阳能生产和一个简单的玩具示例。每个任务的描述可以在附录B中找到,关键信息的总结在表1中提供。


实验结果

表2中。时间嵌入被迫妥协它的注意力随着时间步长,在某种程度上降低了对具有如此明显频率的变量的预测能力。标准(“完全”)注意力与时间嵌入记忆相吻合,但Performer很好地近似。
我们的方法学习所有标记之间不妥协的时空关系,以生成所有三个指标最准确的预测。


结果如表3所示。我们的时空嵌入方案提供了最准确的预测,它对时间方法的改进似乎在更长的序列中增加,其中时间注意力的损害可能更相关。LSTM是最具竞争力的基线。


表4中,我们的方法明显比TSF基线更准确。我们推测,这是由于预测由于天气或其他局部影响而导致的电力生产异常变化的能力增强。MTGNN学习类似的空间关系,但它的时间预测不那么准确。


表5中,我们的方法清楚地从TSF模型中分离出来,并进入了专用GNN方法的性能范围——即使是那些依赖于预定义道路图的方法。



结论

本文提出了一种统一的多变量预测方法,该方法基于Long-Range Transformer架构对长时空输入序列的应用。我们的方法联合学习时间和空间关系,以实现长序列时间序列预测的竞争性结果,并可以在不依赖预先定义的图的情况下扩展到高维空间问题


我们认为未来的发展至少有两个有前途的方向。首先,远程变压器是一个活跃的研究领域;更小的内存占用和更多的计算资源可能会提高性能,并使这种方法的应用程序出现更大的问题。其次,我们还不清楚是否充分利用了我们方法的动态图功能。我们的模型学习跨时间和空间的可变图,而不假设一个固定的空间关系。然而,做出这一假设的GNN方法具有类似的预测精度。随着时间的推移调整变量之间的关系可能对所讨论的基准数据集的好处有限。例如,交通数据集包含一些自适应图是有益的情况(例如,由于事故或其他道路封闭而改变交叉口关系),但在某些应用中,这种时序图调整可能更重要。本文提出的方法和未来的改进可能在这些领域更有益。


扫码关注我们

微信号 :AI_Frontiers

qq群:966308496

今日头条:人工智能学术前沿

知乎:人工智能学术前沿

米斯云

访客