【每周论文】20210110-BusTr_ConSTGAT_HetETA

BusTr: Predicting Bus Travel Times from Real-Time Traffic

https://dl.acm.org/doi/10.1145/3394486.3403376

KDD’20

1. 概述

本文提出了一个机器学习模型-BusTr,模型基于“实时交通”+“时空上下文”数据,实现对“公交旅行时间”的预测。模型期望通过尽可能易得的数据,以适应不同质量的数据来源,从而可以面向全球尺度提供服务。因此,本文尤其关注模型的泛化能力,并在样本、特征、训练细节等方面做了很多工作。最后,本文通过多组实验论证了方法的有效性和泛化能力,尤其是和SOTA方法DeepTTE做对比。

2. 本文与历史工作的区别

  • 模型重点考虑了”泛化“问题,对于训练数据集中没出现过的城市也要有预测能力。
  • 模型使用了严格的特征集。
  • 模型使用全球尺度的大数据训练。
  • 模型从实时交通数据做推断。

3. 具体方法

  • 数据:每个样本是一个序列,序列元素由“站点”和“路段”组成,路段由站点或交叉口断开。样本按照一系列启发式规则采样得到。

  • 特征:①全局特征:公交线路ID做Embedding;曜日和半小时片分别做Embedding(其中小时的Embedding前两位用循环数值初始化)。②元素位置特征:点位(站点或路段起点)的多尺度S2Cell做Embedding后求和;③路段元素附加特征:路段长度;路段预估速度(取自GoogleMap的交通预测系统)

  • 模型:

    • 整体是分段求和形式,元素是站点或路段。 T ^ = ∑ q ∈ Q t ^ q \hat{T}=\sum_{q\in Q}\hat{t}_q T^=qQt^q
    • 对站点单元,直接对“全局特征”和“站点位置特征”过全连接

在这里插入图片描述

  • 对路段单元,预估速度 s s s和距离 d d d并按公式聚合,该公式表示“实时依赖”和“实时无关”的融合: Segment duration = α d s + β d \text{Segment duration}=\alpha \frac{d}{s} +\beta d Segment duration=αsd+βd

在这里插入图片描述

  • 后处理:对负数有0裁切

在这里插入图片描述

  1. 后处理:对负数用0裁切

4. 训练细节

  • Spatial input ablation:类似于dropout,对S2Cell的特征,根据不同级别配置不同的概率进行剔除,以提高泛化,且倾向粗粒度Cell;

  • Feature selection:训练分为两步,第一步按照

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值