Logo réduit OCTOPIZE - pictogramme

Taxi New-Yorkais

Le cas d’usage « Taxi New-Yorkais » présente un contexte d’anonymisation de données spatio-temporelles. La difficulté réside dans la nature particulière de ces données dont la combinaison des dimensions spatiales et temporelles accentue le risque de ré-identification.

Type de données

Dans ce cas d’usage, les données personnelles utilisées représentent un échantillon de 1 451 721 courses de taxi réalisées à New-York en 2016.
Le jeu de données, initialement pseudonyme, présente un risque de ré-identification élevé représenté par la combinaison d’informations spatiales (coordonnées GPS de départ et d’arrivée) et temporelles (heures de départ et d’arrivée). Dans ce contexte la possibilité pour un attaquant d’inférer le lieu de résidence d’un individu à partir des informations à sa disposition représente un risque.

  • 1 451 721 individus
  • 9 variables

Objectifs de l'anonymisation

Dans ce cas d’usage, on identifie plusieurs objectifs.

  1. Dans un premier temps, le but est de rendre impossible la ré-identification des individus ayant eu recours au service de taxi.
  2. Dans un second temps, il est important de conserver l’utilité des données pour la ville de New-York, notamment pour des projets de mobilité et d’aménagement  :
  • Identification des zones d’encombrement,
  • Densité du trafic en fonction du temps,
  • Identification des trajets préférentiels des utilisateurs.

Ces informations doivent pouvoir être conservées dans le respect de la vraisemblance topographique des données d’origine. En effet les avatars ne doivent pas pouvoir prendre de coordonnées GPS impossibles telles que le bras de l’East River ou Central Park.

À l’issue de l’étape d’avatarisation, on compare l’ensemble des coordonnées GPS originales à celles générées par la méthode Avatar. La représentation de ces données sur un fond de carte permet de s’assurer de la plausibilité topographique des avatars. Le quadrillage urbain est conservé au même titre que la densité géographique. En effet, la majorité des courses concerne le secteur de Manhattan.
D’un point de vue statistique, l’étude de l’évolution de la vitesse moyenne sur différentes échelles temporelles (heure, jour, mois) permet d’obtenir une vision globale de l’ensemble des paramètres. La comparaison des résultats issus des données originales et des avatars permet de démontrer l’excellente rétention d’information.
La visualisation de l’affluence des utilisateurs au cours de l’année 2016 permet de vérifier l’interopérabilité des données d’avatars avec des sources externes. En effet, la forte baisse d’activité enregistrée autour du 26 janvier et conservée par les données avatarisées, est liée à une tempête de neige ayant touché New-York. Les avatars peuvent donc être utilisés pour enrichir des sources de données externes (ici météorologiques) sans biais d’interaction.

Autre cas d'usage

Pression Systolique

Les données appréhendées dans ce cas d’usage couvrent le contexte très particulier de l’anonymisation de séries temporelles.

Pathologie Cardiaque

Ce cas d’usage correspond à un exercice de classification. Le but étant de prédire une valeur bimodale, ici la présence de maladie cardiaque chez le patient, en fonction des autres paramètres renseignés dans le jeu de données.

Masse Graisseuse

Ce cas d’usage illustre une problématique d’apprentissage supervisé : la prédiction d’une valeur continue, ici le pourcentage de masse graisseuse, en fonction des autres paramètres du jeu de données.
© Octopize 2021
crossmenuchevron-down