论文解读-How Do We Move: Modeling Human Movement with System Dynamics-CSDN博客

本文链接：https://blog.csdn.net/wwpwwpwwpemmm/article/details/123396642

这是一篇通过GAN和系统动力学对人类移动进行建模的论文。

Introduction

研究人类运动行为建模的三种方法，
在这里插入图片描述本篇文章完成的工作：
（1）首次尝试用系统动力学来模拟移动代理的状态转换，从决策的角度来描述人类运动的状态转换，并在GAIL框架下学习运动政策。
（2）考虑系统的随机动态建模时的状态转换，并提供不同的可能的方法来整合系统动力学的见解。

定义

（1）state：agent的状态包括出行者的信息。
（2）action:agent的移动方向.
（3）Agent：即旅行者。
（4） System dynamics：输入当前状态和动作，输出下一个系统的状态。
（5）Objective：目标是最小化观察到的出行者运动轨迹与模型生成的出行者轨迹之间的差异，即生成的轨迹逼近真实轨迹。

Mthod

1.obview

模型结构如图所示，
在这里插入图片描述 $\mathcal{G}_{\delta}$ ，输入：系统状态 $S$ ,输出：对每个agent的物理约束g。

$\pi_{\theta}$ ,输入：观测到的轨迹，物理约束 $g^{t}$ ,输出：动作分布 $\pi_{\theta}(a|s)$ ,并从中产生预测动作 $\hat{a}^{t}$ ；用RNN表示。

$s^t,\hat{a}^t,$ 系统状态 $S^t$ ，这些可以生成agent的下一个状态，进而可以生成运动轨迹 $\tau^{G}$ 。

使用GAIL框架对模型进行优化，优化目标为，
在这里插入图片描述
$H(\pi_{\theta})$ 是熵正则化项。

2.Stochastic System Dynamics

系统动力学G以系统约束G的形式影响agent的运动，包括时间和空间约束。作者主要考虑了时间约束的影响。

作者将g作为Beta分布的样本，

3.Policy Network

策略网络包含三个部分：1）Observation Embedding。2）Recurrent encoding。3）Action prediction。

（1）Observation Embedding
在这里插入图片描述
其中，o是某个位置的其他特征。
（2）Recurrent encoding
RNN，输入是过去某个时间步内的观察值序列。
（3）Action prediction
动作预测模块以编码器RNN的输出和系统动态约束gt作为输入。最后的动作从pA中取样获得，
在这里插入图片描述

4.Discriminator and Dynamics Judger

鉴别器网络采用与策略网络相似的网络结构，π中的动作预测模块被一个带有MLP的二元分类器所取代。

更新鉴别器参数的损失函数：
在这里插入图片描述
但是，状态的生成过程导致反向传播不能更新 $\pi_{\theta}$ 的值，因此，通过信赖域策略优化（TRPO）学习πθ，其替代奖励函数由等式（1）表示为：

（不懂这段是什么意思。。。）

5.Dynamics judger

纳入系统约束后，作者提出了一个新的内在奖励条件：
在这里插入图片描述
最终训练 $\pi_{\theta}$ 的奖励函数为：

其中η是一个超参数，它平衡了满足物理约束和模拟真实轨迹的目标。

6.训练

先是初始化 $\mathcal{G},\pi_{\theta},\mathcal{D}_{\psi}$ 的参数，然后预训练 $\mathcal{G}$ 。然后对于生成的轨迹 $\mathcal{T}^G$ ,先是根据TRPO策略更新G的参数，然后再更新D的参数 $\psi$ ，最后，训练 $\mathcal{G}$ ，使用agent在每个地方停留的时间作为标签，并从location中提取特征构造数据集，这些特征包括ID,time，该地点的agent数量。