Logo réduit OCTOPIZE - pictogramme

Taxi New-Yorkais

Le cas d’usage « Taxi New-Yorkais » présente un contexte d’anonymisation de données spatio-temporelles. La difficulté réside dans la nature particulière de ces données dont la combinaison des dimensions spatiales et temporelles accentue le risque de ré-identification.

Type de données

Dans ce cas d’usage, les données personnelles utilisées représentent un échantillon de 1 451 721 courses de taxi réalisées à New-York en 2016.
Le jeu de données, initialement pseudonyme, présente un risque de ré-identification élevé représenté par la combinaison d’informations spatiales (coordonnées GPS de départ et d’arrivée) et temporelles (heures de départ et d’arrivée). Dans ce contexte la possibilité pour un attaquant d’inférer le lieu de résidence d’un individu à partir des informations à sa disposition représente un risque.

  • 1 451 721 individus
  • 9 variables

Objectifs de l'anonymisation

Dans ce cas d’usage, on identifie plusieurs objectifs.

  1. Dans un premier temps, le but est de rendre impossible la ré-identification des individus ayant eu recours au service de taxi.
  2. Dans un second temps, il est important de conserver l’utilité des données pour la ville de New-York, notamment pour des projets de mobilité et d’aménagement  :
  • Identification des zones d’encombrement,
  • Densité du trafic en fonction du temps,
  • Identification des trajets préférentiels des utilisateurs.

Ces informations doivent pouvoir être conservées dans le respect de la vraisemblance topographique des données d’origine. En effet les avatars ne doivent pas pouvoir prendre de coordonnées GPS impossibles telles que le bras de l’East River ou Central Park.

À l’issue de l’étape d’avatarisation, on compare l’ensemble des coordonnées GPS originales à celles générées par la méthode Avatar. La représentation de ces données sur un fond de carte permet de s’assurer de la plausibilité topographique des avatars. Le quadrillage urbain est conservé au même titre que la densité géographique. En effet, la majorité des courses concerne le secteur de Manhattan.
D’un point de vue statistique, l’étude de l’évolution de la vitesse moyenne sur différentes échelles temporelles (heure, jour, mois) permet d’obtenir une vision globale de l’ensemble des paramètres. La comparaison des résultats issus des données originales et des avatars permet de démontrer l’excellente rétention d’information.
La visualisation de l’affluence des utilisateurs au cours de l’année 2016 permet de vérifier l’interopérabilité des données d’avatars avec des sources externes. En effet, la forte baisse d’activité enregistrée autour du 26 janvier et conservée par les données avatarisées, est liée à une tempête de neige ayant touché New-York. Les avatars peuvent donc être utilisés pour enrichir des sources de données externes (ici météorologiques) sans biais d’interaction.

Autre cas d'usage

Transfert de données hors UE

Ce cas d’usage illustre la problématique de transfert de données personnelles vers un partenaire hors Union Européenne.

Revalorisation d’une cohorte pour un nouvel usage

Ce cas d’usage illustre la problématique de revalorisation de données personnelles pour un nouvel usage non prévu par la finalité de traitement du premier consentement.

Limitation des risques dans l’usage interne

Ce cas d’usage aborde des notions de précautions dans l'utilisation et la gouvernance de données personnelles. Comment limiter les risques liés à un usage interne de ces données ?
© Octopize 2021
crossmenuchevron-down