Logo réduit OCTOPIZE - pictogramme

Revalorisation d’une cohorte pour un nouvel usage

Ce cas d’usage illustre la problématique de revalorisation de données personnelles pour un nouvel usage non prévu par la finalité de traitement du premier consentement.

Contexte

Pour justifier un traitement, les données personnelles sont collectées dans le respect d’une des bases légales définie par l’Article 6 du RGPD (le plus souvent un consentement). De ce fait, tout traitement ultérieur non prévu dans la finalité initiale doit nécessiter un nouveau consentement pour être licite ; ce qui, en pratique, est difficilement réalisable (individus décédés, changement de coordonnées...). De nombreux jeux de données au potentiel informatif significatif sont ainsi bloqués car les nouvelles finalités de traitement n’ont pas pu être anticipées au moment de la collecte.

Solution

OCTOPIZE, grâce à sa méthode d’anonymisation Avatar permet de créer un jeu de données synthétiques qui protège les individus à l’origine des données, tout en conservant le potentiel statistique et la granularité originale. La méthode Avatar étant certifiée conforme comme une véritable solution d’anonymisation au sens du RGPD, le jeu de données synthétiques qui en résulte n’est plus considéré comme un jeu de données personnelles et peut être réutilisé pour tout autre usage sans contrainte.

Exemple

Prenons l’exemple d’un industriel pharmaceutique ayant constitué une cohorte pour évaluer l’influence d’un complément alimentaire sur le pourcentage de masse adipeuse. Une start-up, souhaite utiliser ces données pour développer une application diagnostique de prédiction de la masse graisseuse des individus plus précise que les outils de mesure actuels. Cependant, le transfert des données personnelles vers la start-up n’est pas compatible avec la finalité initiale de la collecte. De plus, depuis la création de la cohorte, de nombreux individus ont changé de coordonnées, rendant difficile l’obtention d’un nouveau consentement.

Type de données

Les données personnelles de santé associées à cette cohorte sont uniquement quantitatives et mesure le pourcentage de masse graisseuse des patients en fonction d’autres mesures physiologiques.
  • 252 individus
  • 15 variables

Ce jeu de données fait l’objet d’une anonymisation par la méthode Avatar qui redonne un nouveau jeu de données de même structure que le jeu initial (même nombre d’individus, même nombre de variables, même format).

Objectifs de l’anonymisation

Dans ce cas d’usage, on identifie deux objectifs.
  1. Rendre impossible la ré-identification des individus du jeu de données.

  2. Conserver la capacité prédictive des données.

 

Comment OCTOPIZE s’assure de l’anonymat des individus ?

La transformation des données par la méthode Avatar s’accompagne systématiquement d’une évaluation de la sécurité des données de synthèse générées par le biais de métriques uniques. Ces métriques ont été développées pour vérifier le respect des 3 critères identifiés par le Comité Européen de la Protection des Données (CEPD) (ex G29) permettant de qualifier une donnée d’anonyme au sens du RGPD ; à savoir :

  • Individualisation,
  • Corrélation,
  • Inférence.

De notre exemple on obtient les résultats suivants :

  • Hidden rate : 89.71%
  • Local cloaking : 6
  • Correlation protection rate : 98.81% (variables de référence : age, weight, height)
  • Inference rate : 26.78% (variables de référence : age, weight, height, cible : siri)

Les résultats obtenus indiquent qu’il est impossible en pratique pour un attaquant de ré-identifier les individus de la cohorte.

Les données synthétiques générées permettent-elles d’obtenir les mêmes résultats que les données originales ?

On cherche à vérifier si le jeu de données anonymisé par la méthode Avatar, et transmis par l’industriel à la start-up, possède un potentiel prédictif du pourcentage de masse graisseuse équivalent au jeu de données original.

Le protocole d’entrainement consiste à entrainer deux modèles de machine learning identiques (ici RandomForest) sur les données originales d’une part et leurs équivalents avatarisés de l’autre. Les deux modèles ont ensuite été testés sur un reste de données originales.
Le graphique ci-dessus représente la qualité de prédiction en fonction du modèle d’entrainement. Les avatars permettent donc de prédire la valeur de données de vie réelles avec la même performance que les données originales.
Ce graphique permet de visualiser l’importance que prennent les variables dans les modèles de régression générés. En comparant les résultats des deux modèles respectivement entrainés sur des données de vie réelles et des avatars, on remarque une similitude d’interprétabilité. En effet les variables prépondérantes dans la prédiction de la valeur cible sont globalement les mêmes.

Conclusion

La transformation des données en avatars permet de revaloriser le potentiel dormant de certaines données en permettant ou facilitant leur transfert tout en respectant la vie privée des individus et assurant une forte conservation des qualités statistiques des données d’origine.

Autre cas d'usage

Transfert de données hors UE

Ce cas d’usage illustre la problématique de transfert de données personnelles vers un partenaire hors Union Européenne.

Limitation des risques dans l’usage interne

Ce cas d’usage aborde des notions de précautions dans l'utilisation et la gouvernance de données personnelles. Comment limiter les risques liés à un usage interne de ces données ?

Taxi New-Yorkais

Le cas d’usage « Taxi New-Yorkais » présente un contexte d’anonymisation de données spatio-temporelles. La difficulté réside dans la nature particulière de ces données dont la combinaison des dimensions spatiales et temporelles accentue le risque de ré-identification.
© Octopize 2021
crossmenuchevron-down