论文笔记：城市轨道交通系统短时OD需求预测

《Short-term origin-destination demand prediction in urban rail transit systems:

A channel-wise attentive split-convolutional neural network method》

摘要：城市轨道交通(URT)的短时起点-终点(OD)流量预测对于智能、实时的轨道交通运营管理起着至关重要的作用。与其他短时交通预测方法不同，短期OD流预测具有三个独特的特点：1)数据可用性：预测过程中无法获得实时OD流；2)数据维度：OD流的维数远高于交通网络的基数；3)数据稀疏性：城市轨道交通OD流具有时空稀疏性。因此，迫切需要开发一种新的、明确考虑轨道交通系统特点的OD流量预测方法。为此，提出了一种基于通道的注意力分离卷积神经网络(CAS-CNN)。该模型由多个新颖的组成部分组成，如基于通道的注意机制和分离的CNN。特别是，创新性地引入了进站/出站门控机制来解决数据可用性问题。为了解决数据的维数和数据稀疏性问题，文章还首次提出了掩码损失函数。文中还详细讨论了模型的可解释性。CAS-CNN模型在北京地铁的两个大规模真实数据集上进行了测试，其性能优于其他基准方法。该模型有助于城市轨道交通短期OD流量预测的发展，也为轨道交通的实时运营和管理奠定了基础。

创新点：

（1）详细总结了轨道交通OD预测的特点以及与其他交通预测任务的比较。总结了轨道交通短期OD预测存在的问题。

（2）考虑到历史OD流量信息和实时进站/出站信息之间的内在相关性，提出了一种汇聚历史OD流量信息和实时进站/出站信息的门控机制

（3）引入分离的CNN模型，将稀疏的OD流信息转化为密集的有用特征。据我们所知，这是分离CNN首次在短期OD预测中引入

（4）提出了一种基于OD吸引度(ODAD)指标的掩码损失函数，用于处理较小或为零的OD流。

模型：

在这一部分中，我们将阐述方法体系结构。首先，定义了城市轨道交通的短期OD预测问题，并引入了ODAD指标。然后开发了模型架构，接着介绍了分离式CNN、通道式注意机制和进站/出站门控机制。

3.1 Problem definition

本研究的目的是利用历史信息对下一时段的OD矩阵进行预测。在本研究中，时间间隔被定义为30分钟。OD矩阵M和进站/出站N可以从城市轨道交通中的智能卡数据中提取，并可以根据以下等式定义。值得注意的是，每个时间间隔的OD流量取决于乘客进入车站的时间间隔，因为每个乘客的离开时间可能不同。根据相应的进站、进站时间、出站和出站时间提取进站/出站序列。

关于短时OD预测，以往的研究一般使用最近几个时间间隔的OD矩阵作为模型输入来预测后续时间间隔的OD矩阵。然而，由于出行持续时间的限制，无法获得实时的OD矩阵。因此，这些研究不能应用于实时操作。同样，在轨道交通的实时运营中，无法获得实时的OD矩阵。然而，实时进站/出站是可用的。因此，本研究试图利用前几天的OD矩阵，以及当天的进站/出站，来预测短期OD矩阵。方程式如下：

其中是在d天的时间间隔t中的OD矩阵。输入之一是在过去几天d-x的相同时间间隔t中的OD矩阵。另一个输入是同一天d的最后几个时间间隔t-y期间的进站/出站序列。

由于无法获得实时OD矩阵，我们创新性地设计了一种以实时流入为输入的进站/出站门控机制，以提供实时信息。

3.2 Origin–destination attraction degree (ODAD) level

为了表征不同流量的OD流，我们引入了一个新的指标ODAD。它被定义为一个较长周期内特定时间间隔内的平均OD流量，如公式所示。

其中是在n天期间从站i到站j的平均OD流量。这是一个随时间变化的动态指标。对于特定的OD对，值可能在清晨较低，而在高峰时段较高。这也是用来避免随机性的平均指标。

为了处理具有不同吸引程度的OD对，我们将所有OD对按照ODAD值分为五个等级，如表所示，不同ODAD等级下OD数量的变化如图所示，时间上，低等级和最低等级的OD对占大多数。在空间上，OD流只发生在特定区域。这些较小的值对模型性能有负面影响，因为缺乏规律性增加了预测的难度。因此，处理这些小值或零值很有挑战性。为了解决这一问题，我们创新性地根据3.7节中“低”的ODAD水平引入了掩码损失函数，从而减少了小OD流量或零OD流量对预测精度的影响。这项研究中使用的“低”ODAD水平是固定的，不会随着时间的推移而改变。

3.3 Model development

这篇文章提出了基于分离式CNN、通道注意力和进站/出站门控机制的预测框架(简称CAS-CNN，如下图)来进行城市轨道交通OD的短期预测。CAS-CNN包括历史数据和实时数据两个分支。

在历史数据的分支(简称主干)中，首次引入分离的CNN来捕捉不同感知场的时空相关性，并从稀疏的OD流中产生密集的信息。利用通道注意力度对输入进行加权，并从OD矩阵中提取不同的高层特征。据我们所知，这是首次将分离的CNN应用于城市轨道交通OD预测。

在实时信息的分支中，我们使用实时进站/出站作为输入来提取重要信息。为了融合这两个数据源，设计了一种巧妙的进站/出站门控机制，通过考虑历史OD流量信息和实时进站/出站信息之间的内在相关性来聚合它们。

为了解决OD流量小且为零的问题，我们还引入了一种基于低ODAD水平的掩码损失函数。

在接下来的几节中，我们将详细介绍分离CNN、通道注意力、进站/出站门控机制以及掩码损失函数。

3.4 Split CNN

现有的研究一般使用一个相同大小的核来提取特征。在这种情况下，为了提高训练性能，通常的方法是增加网络深度(层数)。然而，层数的增加有多个不良影响，如过拟合、梯度消失、梯度爆炸等。虽然残差网络被提出解决这些问题，但它也增加了网络的复杂性和训练时间等计算资源。

在GoogLeNet的启发下，本研究首次引入分离CNN模型来解决短期OD预测任务。据我们所知，这是首次将分离的CNN应用于城市轨道交通的短期OD预测。我们选择用不同的内核来扩展网络，而不是加深网络，因为这可以有效地增加网络的适应性

如上所述，城市轨道交通短期OD预测的问题之一是数据稀疏。由于在两个方面存在严重的数据稀疏问题，分离式架构非常适合于轨道交通的OD矩阵。

从时间上看，ODAD水平“最低”的OD流(即，零OD流)全天都超过40%。通过设计分离结构，可以从相对稀疏的矩阵中产生密集的数据，并且可以通过不同大小的核来提取更多的信息。它不仅提高了神经网络的性能，而且保证了训练效率

在空间上，只有某些特定区域存在OD流。因此，在平坦区域，较小的核足以捕捉其空间特征。然而，在峰值区域，更大的核更合适，因为它可以使用更大的感知场来捕捉更多的信息。在这种情况下，一些重要信息不能轻易遗漏。

为此，我们引入了分离的CNN用于城市轨道交通OD预测。第i层的第j特征图中位置(x，y)处的值v可以如下计算

3.5 Channel-wise attention

人-视觉注意机制是人类视觉的一种脑信号处理机制。通过快速扫描全局图像，人类视觉获得需要关注的目标区域。然后，更多的注意力资源被投入到这一领域，以获得关于目标的更详细的信息。其他无用的信息同时被隐藏。这是一种被人类用来在有限的注意力资源下从大量信息中快速选择高价值信息的机制。人类视觉注意机制显著提高了视觉信息处理的效率和准确性。

在人类视觉注意的驱动下，人们提出了多种注意机制，如Transformer中的自我注意和位置注意、残余注意、多层注意和空间注意。通道注意机制最早是由Chen等人提出的。它被用来权衡不同的高层特征，并可在多个方面应用于OD预测。

一方面，在轨道交通OD预测领域，缺乏实时的OD矩阵。因此，我们使用过去几天相同时间间隔内的OD矩阵作为模型输入之一。然而，有些OD矩阵与输出高度相关。其中一些与产出的关联度较低。人们理所当然地认为，通道方面的关注可以用来权衡不同的OD输入。

另一方面，分离CNN的输出代表了从输入中提取的高层特征。重要的是，自适应地更多地关注一些关键特性，以提高模型性能。因此，文章创新性地将通道注意机制应用到分离的CNN的输出中，并将它们加在一起。下图显示了通道注意力的详细信息。因此，输出可以表示如下。

3.6 Inflow/outflow-gated mechanism

如上所述，在城市轨道交通中，实时OD矩阵是不可用的。如何结合实时信息进行OD预测是非常重要的。进站/出站与OD流量之间存在很强的相关性。

在这种关系的推动下，文章首次引入了进站/出站门控机制来有效地控制干线输出，并融合了进站/出站和OD矩阵信息，如下图所示。进站/出站经过1×1卷积层。它们的输出被相乘，然后被注意力参数向量加权。加权的流入特征加上模型主干按行的输出，然后进行1×1卷积，得到最终的预测结果。

值得注意的是，应用1×1卷积层来获得最终输出。每个1×1卷积核可以实现跨通道的信息通信。在提取非线性特征时，1×1核可以代替完全连通层，同时降低了模型复杂度。因此，虽然这意味着简单的线性组合，但它有利于信息融合和特征提取。

3.7 Masked loss function

正如前面几节所讨论的，有许多小的或零的OD流会显著影响预测性能。此外，不同ODAD水平的OD流量在时间和空间上都是高度不平衡的。因此，引入了一个掩码损失函数(M-Loss)。根据低ODAD级别构造一个掩码文件来掩码ODAD级别低于2的OD流。

模型配置：

前四周的数据用于训练和验证模型，其余的用于测试模型。验证率设置为0.1。在模型训练过程中采用了提前停止技术，避免了过拟合。根据参数调整结果，确定了时间步长、过滤器、批次大小和R(缩减)等超参数。对于进站/出站门控分支，利用整个网络中最后五个时间步长(2.5小时)的进站/出站序列。对于第一个拆分的CNN，有一个带有16个过滤器的层；对于第二个拆分的CNN，有一个带有一个过滤器的层。学习率为0.001，批次大小为16。在通道方向的注意中，张量缩减R被设置为2。在过去五天的相同时间间隔内使用OD矩阵。使用Xavier正态初始化器来初始化CNN的相关参数。