MobText-SISA: Efficient Machine Unlearning for Mobility Logs with Spatio-Temporal and Natural-Language Data
In Proceedings of the 33rd ACM International Conference on Advances in Geographic Information Systems (SIGSPATIAL '25). pp. 1186–1189.
DOI: 10.1145/3748636.3763226
Abstract
Modern mobility platforms have stored vast streams of GPS trajectories, temporal metadata, free-form textual notes, and other unstructured data. Privacy statutes such as the GDPR require that any individual's contribution be unlearned on demand, yet retraining deep models from scratch for every request is untenable. We introduce MobText-SISA, a scalable machine-unlearning framework that extends Sharded, Isolated, Sliced, and Aggregated (SISA) training to heterogeneous spatio-temporal data. MobText-SISA first embeds each trip's numerical and linguistic features into a shared latent space, then employs similarity-aware clustering to distribute samples across shards so that future deletions touch only a single constituent model while preserving inter-shard diversity. Each shard is trained incrementally; at inference time, constituent predictions are aggregated to yield the output. Deletion requests trigger retraining solely of the affected shard from its last valid checkpoint, guaranteeing exact unlearning. Experiments on a ten-month real-world mobility log demonstrate that MobText-SISA (i) sustains baseline predictive accuracy, and (ii) consistently outperforms random sharding in both error and convergence speed. These results establish MobText-SISA as a practical foundation for privacy-compliant analytics on multimodal mobility data at urban scale.
現代のモビリティプラットフォームは,GPS軌跡,時間メタデータ,自由形式のテキストノートなど,膨大なデータを蓄積しています.GDPRなどのプライバシー法規では,個人のデータをオンデマンドで消去(アンラーニング)することが求められますが,削除リクエストのたびにモデルを一から再学習することは現実的ではありません.
本研究では,SISA(Sharded, Isolated, Sliced, and Aggregated)学習を異種時空間データに拡張したスケーラブルな機械学習消去フレームワーク「MobText-SISA」を提案します.各トリップの数値特徴と言語特徴を共有潜在空間に埋め込み,類似度に基づくクラスタリングでサンプルをシャードに分配することで,将来の削除時に単一のモデルのみを再学習すればよい構成を実現しつつ,シャード間の多様性を維持します.
10ヶ月間の実世界モビリティログを用いた実験では,ベースラインの予測精度を維持しつつ,ランダムシャーディングと比較して誤差と収束速度の両面で一貫して優れた性能を示しました.