【论文阅读】GIScience21-LSTM-TrajGAN·A Deep Learning Approach to Trajectory Privacy Protection

论文基本信息⁍

作者：Jinmeng Rao等（威斯康星）
年份：2021
会议/期刊：GIScience
相关下载：
- LSTM-TrajGAN: A Deep Learning Approach to Trajectory Privacy Protection (dagstuhl.de)
阅读参考：无
- 本人之前课程报告的slides 👉 提取码：zrs9
开源信息： github (实验评估只有TUL)
简介：一种端到端的深度学习方法来生成保护隐私的轨迹数据，同时可以保留语义信息（POI）。主要采用LSTM+GAN网络并设计了一个新的TrajLoss度量函数
- 模型名称：LSTM-TrajGAN
- 数据集： NYC Foursquare weekly trajectory dataset（originally come from the Foursquare NYC check-in dataset）

是之前做课程报告的时候看的论文，做的笔记可能比较啰嗦。。

Abstract⁍

问题背景：
- 基于位置的服务的普及促进了个人水平轨迹数据的爆炸性增长，并引起了公众对隐私问题的关注。
方法：
- 在这项研究中，我们提出了一种新颖的LSTM-TrajGAN方法，这是一种端到端的深度学习模型，用于生成保存隐私的合成轨迹数据以进行数据共享和发布。
- 我们设计了一种损失度量函数TrajLoss来测量轨迹相似性损失，以进行模型训练和优化。
实验与评估：
- 在真实世界语义轨迹数据集上的轨迹用户链接任务上对模型进行评估。
- 与其他常见的地理掩蔽方法相比，我们的模型可以更好地防止用户被重新识别，并且还保留了真实轨迹数据的基本空间，时间和主题特征。
- 该模型更好地平衡了轨迹隐私保护的有效性和用于时空分析的实用程序，从而为基于GeoAI的隐私保护提供了新的见解。

1. Introduction⁍

问题背景⁍

基于位置服务（LBS, Location-Based Services）带来的隐私问题⁍

越来越多的基于位置的服务（LBS）已通过移动电话，可穿戴式传感器，GPS设备和带有地理标签的社交媒体生成了大规模的个人级轨迹数据（即具有属性的位置序列）[19]。
**作用：**这样的轨迹大数据为研究人类流动模式和人与环境之间的相互作用[11]，灾害应对[12、27]和公共卫生问题[17、25]提供了新的机会。它还提出了有关保护地缘和更大范围的行为，社会，道德，法律和政策影响的挑战[14]。
轨迹隐私： 一般来说，轨迹隐私是指个人的权利，以防止泄露个人轨迹身份和相关的个人敏感位置[15、2、5]。

问题挑战？⁍

由于数据泄露问题和公众对位置隐私保护意识的增强，已经提出了许多方法来防止识别用户的轨迹。

从轨迹数据中删除标识符（例如，用户名或ID号）。

【问题】这种“去识别的de-identified”轨迹仍然可能造成严重的隐私威胁，因为轨迹的空间，时间和主题特征仍然可以用作将轨迹链接到其创建者的强有力的准标识符
将轨迹点聚合到地理或行政单位中，这样就不会显示其原始位置。

【问题】最近的研究表明聚合可能无法保留用户隐私并降低空间分辨率和空间分析的有效性[3，28，5]

De Montjoye等[3]通过空间和时间聚合降低人类移动性轨迹数据集的分辨率，以防止个人被识别，但是经过粗化的数据集仅提供很少的匿名性。

==>为了更有效地实现轨迹隐私保护,需要更全面地处理轨迹数据的时空特征。

现有研究⁍

当前的轨迹隐私保护研究主要集中在两个研究领域。

差分隐私(?)

对来自不同用户的轨迹进行分组和混合，以便将单个轨迹数据的标识转换为k-匿名问题
- 空间伪装spatial cloaking方法将 k 用户之间的轨迹点，用 k 匿名隐藏的空间区域混合在一起，使这些轨迹 k 匿名化
混合区mix-zone方法使用化名使混合区中的轨迹点匿名化，并打破了通过混合区的同一轨迹的前段和后段之间的联系
基于泛化的方法generalization-based approach首先将k个轨迹的点划分为不同的k个匿名区域，然后通过从每个k个匿名区域中均匀选择点并将它们链接在一起来重建k个新轨迹
地理掩蔽geomasking

利用空间维度上的扰动来模糊原始轨迹数据的位置，以便可以隐藏或修改原始位置，而不会严重影响空间模式
- Armstrong等[1]探索了几种类型的地罩的隐私保护能力和空间分析有效性。关等。
- [15]评估了三种不同的随机扰动地罩对肺癌死亡的空间分析效果。
- Seidl等[26]在GPS轨迹数据上应用了网格掩蔽和随机扰动，并评估了隐私保护性能。
- 高等[5]研究了随机扰动，高斯扰动和Twitter数据聚合的有效性，并探讨了每种方法的隐私，分析和不确定性级别。

限制

**轨迹隐私保护的有效性与时空分析的实用性之间的权衡：**尽管存在多样性，但这些方法的目标主要是混淆轨迹位置并增加更多不确定性（噪声）以保护隐私。但是，轨迹隐私保护的有效性与时空分析的实用性之间的权衡仍然难以控制
当前的研究主要集中在轨迹数据的空间维度上，而很少考虑其他语义（例如，时间和主题属性）。实际上，这些特性已被证明对于轨迹用户识别至关重要[21]
自动化：当前的方法严重依赖于手动设计的程序。一旦公开了该程序，就可能有机会恢复原始轨迹数据[28]（例如，使用逆向工程）。 “黑匣子”机器学习模型可能有助于解决此问题。

‘黑匣子机器学习模型’？

方法提出⁍

本研究旨在探索先进的深度学习方法对轨迹隐私保护的有效性。

我们提出了一种新颖的LSTM-TrajGAN模型，该模型将长短期记忆（LSTM）递归神经网络和生成对抗网络（GAN）结构结合在一起，以生成保留隐私的合成轨迹，作为真实轨迹的替代方案，用于轨迹数据共享和发布。

两个研究问题（RQ）⁍

RQ1: 提议的LSTM-TrajGAN模型在保护轨迹创建者免于重新识别方面有多有效？（即，隐私保护有效性）

**RQ2：**与真实轨迹相比，合成轨迹能否保留语义特征（时空主题特征）？（即实用性）

主要贡献⁍

（1）我们提出了一种端到端的深度学习方法来生成保护隐私的轨迹数据。该过程既简单又高度安全（GeoAI“黑匣子”）；

（2）介绍了一种用于语义轨迹编码的轨迹编码模型。

（3）我们设计了一个新的TrajLoss度量函数，以测量训练深度学习模型的轨迹相似性损失；

（4）我们使用真实的LBS数据评估了该模型的隐私保护有效性和实用性，并探讨了两者之间的取舍。

2. Method⁍

受TrajGAN [18]的版本的启发，我们提出了一种新的方法，该方法包括三个主要部分：

（1）轨迹编码模型，该模型编码GPS位置坐标，时间属性以及其他属性，例如兴趣点（POI）类别;

POI兴趣点（Point Of Interest）是地理信息系统范畴中的一个概念，指可以抽象为点的地理对象，尤其是一些与人们生活密切相关的地理实体，如学校、银行、餐馆、加油站、医院、超市、公交站等。兴趣点的主要用途是对事物或事件的地址进行描述，能在很大程度上增强对事物或事件位置的描述能力和查询能力。

POI通常包含地理对象的名称，位置，类别等信息，随着大数据时代的来临，POI兴趣点被广泛应用于各行各业，包括科研、教育、交通、能源、互联网、旅游、城市、经济、公共应急管理、园区管理、房产、通讯、土建、规划及其相关行业等等。

POI的采集是一个非常耗时费力的工作，因此，POI的数量在一定程度代表着其本身的价值。

http://gaohr.win/site/blogs/2019/2019-12-10-baidu-map-poi-cn.html

（2）轨迹生成器，其以随机噪声和原始轨迹为输入，以生成合成轨迹为输出；

（3）轨迹鉴别器，将轨迹作为输入并将其确定为“真实”或“合成”。

总体工作流程如图1所示。目标是训练一个“智能”轨迹生成器，该生成器生成“现实”合成轨迹来替换原始轨迹，从而在轨迹分析任务（例如轨迹用户链接（TUL））和轨迹数据挖掘（例如，工作/家庭位置聚类）中保留差异隐私。同时，它确保了多个时空摘要分析任务的质量。这样的框架可以充当轨迹数据获取，处理和发布管道中的轨迹隐私保护层，这些渠道发布合成的替代方案，而不是可能公开个人隐私的真实轨迹数据。

2.1 Trajectory Encoding⁍

引入一个轨迹编码模型，该模型将原始轨迹数据转换为一种特定的格式，作为LSTM-TrajGAN模型的输入

进行编码的主要原因是轨迹数据通常包含各种类型的属性，例如间隔数据（例如GPS坐标，日期和时间），标称数据（例如POI类别），序数数据（例如POI等级），并且需要将这些数据转换为有效的数字表示形式，以训练深度学习模型。

包括两个部分：轨迹点编码和轨迹填充

轨迹点编码Trajectory Point Encoding⁍

语义轨迹点包含以下属性：位置，时间，用户ID，轨迹ID和其他可选属性（例如POI类别）。
对于location属性，我们使用数据集中所有轨迹的质心标准化所有纬度和经度，以获得纬度和经度与质心的偏差。这样，模型可以更好地了解不同轨迹点之间的空间偏差模式。（？）这些偏差值将被用作构建空间嵌入的轨迹点的数字表示
对于时间属性和分类属性，我们使用One-Hot编码(单热点编码器)（即在机器学习中使用虚拟变量的表示过程）根据属性的词汇量将属性编码为高维二进制向量。
- “ Day”属性被编码为7维二进制矢量，而“ Monday”则表示为[1、0、0、0、0、0、0]。同样，“小时”属性被编码为24维二进制矢量，而“类别”属性被编码为10维二进制矢量。
- 不对用户ID和轨迹ID进行编码，因为它们仅用于指示该点所属的用户和轨迹。

轨迹填充Trajectory Padding⁍

在轨迹点编码过程之后，轨迹的所有空间，时间和主题属性都存储在多维矩阵中，多维矩阵的第一维表示每个轨迹的索引。

由于每个轨迹数据的长度（即轨迹点的数量）是变量，因此我们应用轨迹填充技术来确保所有轨迹的长度与最长轨迹的长度相同。

使用零预填充将空轨迹点（即属性均设置为零的点）填充到每个轨迹，直到所有轨迹达到与数据集中最长轨迹相同的长度为止。

主要原因是可以将具有相同大小的数据用于批处理和训练深度学习模型，这将加快训练过程。在模型训练和推理过程中，这些填充的轨迹点将被屏蔽（即剪切），它们实际上不会影响神经网络权重更新和派生的结果。

2.2 LSTM-TrajGAN Model⁍

Trajectory Generator 轨迹生成器捕获实际轨迹数据的数据分布和模式，并基于其相应的原始轨迹数据和随机噪声生成合成轨迹数据。
Trajectory Discriminator 轨迹鉴别器区分轨迹样本是来自训练集(即真实轨迹数据)还是来自轨迹生成器(即合成轨迹数据)。
Trajectory Generator 轨迹发生器的目标是生成“高质量”的合成轨迹，以“愚弄”轨迹鉴别器，从而导致两个人之间的极小极大博弈。
所生成的综合轨迹旨在能够进行时空概要分析，同时具有一定程度的不确定性和随机性，以保护轨迹分析任务中涉及隐私问题的用户隐私。这一思想反映在 LSTM-TrajGAN 模型的设计和优化。

轨迹生成器Trajectory Generator⁍

五层：

input

编码后的真实轨迹+随机噪声
Embedding

多层感知机MLP
- 空间维度（即成对的经纬度偏差），我们使用 MLP 将它们嵌入到64维向量中
- 时间维度（如，天和小时）和分类属性（如，POI 类别）：使用MLP分别嵌入它们，并根据其词汇量获得定长向量
- 几个公式
Feature Fusion
- 嵌入过程之后，我们将所有矢量和随机噪声进一步连接起来，然后使用dense layer密集层将它们融合为100维矢量。
- 通过利用特征融合，我们利用了每个轨迹点的所有空间，时间和类别特征，并将它们融合在一起以支持时空轨迹建模和生成
LSTM Modeling
- 多对多LSTM结构（many-to-many LSTM structure）
  - 该结构将具有特定时间步长的序列作为输入，并生成具有与时间步长相同的序列。事实证明，诸如LSTM的递归模型在时空序列建模和预测中是有效的
- 已知融合特征的维数，我们在LSTM模型中分配100个单元，将融合特征输入到模型中
  - F: 代表轨迹中所有轨迹点的融合特征
  - H：LSTM模型的输出，具有与输入相同的时间步长
  - W_lstm ： LSTM模型的权重矩阵
Regression/Classification
- 最后，我们从LSTM建模层的输出H解码合成轨迹数据。 H中的每个特征向量hi是一个100维向量，其中包含合成轨迹点的空间，时间和分类特征。
  - （空间维度）为了解码纬度和经度偏差，我们使用具有两个单元的dense layer密集层并使用tanh双曲正切函数。此外，我们进一步扩展了输出范围，以确保其范围涵盖所有可能的偏差值
  - （时间维度/分类属性）为了解码日期，小时和类别属性，我们使用了与词汇量大小一样多的单元的dense layer密集层，并使用softmax归一化指数函数来恢复这些属性的one-Hot表示：
  - 几个公式

轨迹鉴别器⁍

轨迹鉴别器的结构与轨迹生成器非常相似。它们之间的主要区别是：

（1）鉴别器仅将轨迹数据作为输入（不需要随机噪声）；

（2）我们使用多对一LSTM模型，该模型以具有时间步长的特征作为输入，并以一个标量作为输出：

F: 代表轨迹中所有轨迹点的融合特征
h：LSTM模型的输出标量
W_lstmd ： LSTM模型的权重矩阵

（3）我们使用具有Sigmoid激活函数的一个单元dense layer密集层在标量输出上进行二分类（真实或合成轨迹）：

D^bc: 用于进行二分类的具有Sigmoid函数的1单元dense layer
W^bc: 权重矩阵；
O_d: 鉴别器的最终输出。

2.3 轨迹相似度损失的测量 TrajLoss for Measuring Trajectory Similarity Losses⁍

最初的GAN旨在优化以下目标函数：

p_data(x): 真实数据样本的分布
p_z(z)：噪声变量的先验
D(x)：x服从（来自？）p_data(x)的概率
G(z)：p_z(z)到p_data(x)的映射
生成器的目标是最小化后面一项；鉴别器的目标是最大化这两项的和；总体来说就是双方minmax的博弈（？）

根据目标函数O（D，G），鉴别器的损失函数可以视为二进制交叉熵（BCE）损失函数（LBCE），也将用于训练生成器。与原始GAN不同，我们需要真实的轨迹数据作为输入。

我们设计了一个新的损耗度量函数TrajLoss，以进一步测量真实轨迹数据与合成轨迹数据在空间，时间和分类维度上的相似性损耗，并使用该损耗函数来训练生成器。

yr：真实标签
yp：鉴别器的预测结果
tr：真实轨迹
ts：合成轨迹
L_BCE：鉴别器的原始二进制交叉熵损失
Ls，Lt和Lc分别是真实轨迹和合成轨迹之间的空间相似度损失，时间相似度损失和类别相似度损失；
α，β，γ和c是这些损失的权重，可以针对不同的情况进行不同的分配。

在本文中，我们使用L2损失(即最小二乘误差)作为Ls，最近的研究[8]表明L2损耗在测量轨迹空间相似性方面是有效的。

我们选择Softmax交叉熵(SCE)作为Lt和Lc的损失函数，因为在本框架中它们都被视为多分类问题，因此可以使用SCE进行优化。

在模型训练过程中，轨迹损失会更新生成器的权值，以提高合成轨迹数据的质量。

3 Experiment⁍

3.1 轨迹用户链接（Trajectory-User Linking，TUL）⁍

针对RQ1，评估隐私保护有效性

它从轨迹中识别用户并将轨迹链接到他们[4]。在具有地理标签的社交媒体应用中，TUL是一项必不可少的任务，并且受到越来越多的隐私关注[4，30，21]。

可以将评估视为对抗性实验：我们训练LSTM-TrajGAN模型，并使用生成的合成轨迹来抑制最新的TUL算法的准确性。
与其他两种常用的位置隐私保护方法进行比较：随机扰动和高斯地理掩蔽。

Dataset⁍

NYC Foursquare weekly trajectory dataset

193 users, 3,079 trajectories and 66,962 trajectory points
2/3训练，1/3测试

Training and Evaluation⁍

轨迹合成⁍

我们使用几个默认的训练超参数在训练集上训练了2,000个周期的LSTM-TrajGAN模型（例如，我们使用学习率为0.001的adam优化器并将批次大小设置为256）。在训练过程之后，来自测试集的轨迹数据以及随机噪声随后被用作发生器的输入以获得合成轨迹数据。

图4显示了来自测试数据的真实轨迹及其模型生成的相应合成轨迹的可视化示例。

使用最先进的TUL算法MARC（多方面tRajectory分类器[21]）对测试数据和合成数据执行TUL任务⁍

使用五个常用指标评估TUL的准确性：

ACC @ 1（Top-1准确性，表明模型具有将正确标签作为最可能的标签候选者的能力）
ACC @ 5（Top- 5精度，显示模型在前5个最可能的标签候选者中具有正确标签的能力，
（多分类模型的评价指标）
- Macro-P（所有类别之间的平均精度）
- Macro-R（所有类别之间的平均召回率）
- Macro-F1（Macro-P和Macro-R的谐波均值）。
RP：随机扰动
Gaussuain：高斯地理掩蔽Geomasking

结果（TUL精度越高，轨迹隐私保护的能力越差）

由LSTM-TrajGAN生成的综合数据成功地将四个指标（ACC @ 1，Macro-P，Macro-R和Macro-F）中的得分从0.900抑制到0.400左右。
结果表明，我们的模型可以通过分析轨迹有效地防止用户被识别。此外，随机扰动在保护有关TUL任务的轨迹隐私方面的效果有限，并且高斯地理遮罩的效果更好，但得分仍高于我们的模型。
结果还表明，与仅使用空间维相比，同时利用轨迹的空间和时间维可同时带来更好的隐私保护性能。

3.2 合成轨迹特征分析Synthetic Trajectory Characteristics Analysis⁍

针对RQ2，评估合成的轨迹的可用性

空间特征Spatial Characteristics⁍

基于两个度量标准探索空间特征：Hausdorff距离和Jaccard指数。

Hausdorff距离是用于度量公制空间中两个点集之间距离的度量，已被广泛用于度量两个轨迹之间的空间差异。
杰卡德系数（Jaccard Index），也称为联合相交，是一种有效的度量，用于测量两个样本集或区域重叠的程度，我们用它来指示两个轨迹之间活动空间的相似性[18]。

我们计算每对原始轨迹和合成轨迹之间的Hausdorff距离。同样，由于凸包通常可以代表LBS用户的活动空间，因此我们还计算了它们的凸包之间的Jaccard索引[16]。表3汇总了这些指标。

【结论】

它表明随机扰动具有最小的平均Hausdorff距离（0.004）和最大的平均Jaccard指数（0.763），这是有道理的，因为它仅对轨迹的空间维度产生有限的影响。尽管这种方法可以很好地保留空间相似性，但是却牺牲了位置保密性。

我们的模型在这两个指标上的表现优于高斯地理掩蔽，并且还更好地抑制了上述TUL指标，从而在空间相似性和位置隐私之间取得了更好的平衡。

时序特征Temporal Characteristics⁍

我们还探讨了时间特征的基础上可视化的两个概要指标: 时间访问概率分布为每个 POI 类别，和总体时间访问频率分布。

我们计算原始轨迹中每小时每个 POI 类别的访问次数，并使用3种不同的方法计算合成轨迹，然后将它们转换成概率分布矩阵(图5) ，在其中可以分析和比较时间模式和时间相似性。

【结论】

结果表明，LSTM-TrajGAN的时间访问概率分布与原始数据具有很大的共性，体现出明显的时间相似性。

LSTM-TrajGAN的结果的某些部分（即类别C和E）具有接近零的访问概率，因为这些类别很少出现在训练数据中，因此模型无法学习到足够的信息来对其进行智能预测。

此外，我们调查了总体时间和分类访问频率分布（图6a和图6b）。与随机扰动（0.536）和高斯地质掩蔽（0.535）相比，我们模型的总体时间访问频率分布可以更好地拟合原始数据（皮尔逊系数：0.761）。总体分类访问频率分布也很合适（0.889）。

【结论】

因此，我们得出结论，我们的模型通常很好地保留了时间和类别特征。

Discussion⁍

本节讨论可能影响LSTM-TrajGAN模型的隐私保护有效性的因素，以及隐私保护有效性与实用程序之间的权衡。最后，我们讨论了该方法的局限性。

4.1 Factors Aﬀecting Privacy Protection Eﬀectiveness⁍

训练和最优化的设置（参数）
空间嵌入方法
- MLP：嵌入每个人的位置以获得固定长度的向量，并将该向量用作LSTM模型的输入以生成人类轨迹。
- Geohash：首先使用Geohash算法将区域划分为网格单元，然后将纬度和经度编码为字符串，最后将字符串转换为二进制固定长度向量作为字符串。每个轨迹点的空间尺寸的表示形式。
- 本文中的MLP：从所有轨迹位置的质心得出纬度和经度的偏差，而不是直接嵌入坐标，然后使用MLP将这些偏差嵌入到64维向量中。
  - 目标是生成合成轨迹，这意味着我们需要从模型中的隐藏特征中解码出坐标，因此使用二进制Geohash可能导致学习坐标的有效表示，设计适当的空间损失以及错误的反向传播方面的困难
  - 与[8]中的笛卡尔坐标系所描述的受限预测区域不同，我们任务中的预测区域位于城市规模上，并且两个GPS坐标之间的差异仅在小数点后出现。对于模型来说，仅需细微的变化就可以学习和预测坐标，这将是一个巨大的挑战。因此，我们对坐标进行了标准化，以使两个位置之间的差异对于模型的学习更为重要。
- 空间嵌入维度对TULtask中的指标的影响（较高维的较好：表4）
  - 高维空间中的向量通常能够提取和嵌入更多信息。但是，由于物理设备的限制，这还涉及在位置精度和计算工作量之间进行权衡。

4.2 隐私保护有效性与实用性之间的权衡⁍

值得注意的是，每种方法的位置都是根据我们的实验估算得出的。我们认为，考虑这种关系将有助于针对特定情况选择和设计适当的轨迹隐私保护方法。

4.3 局限性⁍

计算量更大：首先，与使现有轨迹模糊的传统地理掩蔽技术相比，我们生成新轨迹的深度学习模型导致计算量大得多，并且在部署到应用程序中之前还需要额外的训练过程。
其次，我们专注于TUL任务并分析了合成轨迹的时空特征，这反映了它们在保护隐私轨迹分析方面的潜力，但尚未研究更具体的评估。
第三，我们的模型仅生成具有与原始轨迹相同长度的合成轨迹。最后，我们的模型目前关注的是城市规模的轨迹，基于偏差的位置表示可能不适用于全球规模的轨迹。

这些限制将在我们的未来工作中进一步探讨。