Logo réduit OCTOPIZE - pictogramme

Transfert de données hors UE

Ce cas d’usage illustre la problématique de transfert de données personnelles vers un partenaire hors Union Européenne.

Contexte

Depuis la mise en place du RGPD, la question du transfert de données personnelles vers des pays tiers constitue un point bloquant à la réalisation de nombreux projetsBien que nécessaire au respect de la vie privé de chacun, cette mesure impacte le marché du traitement de la donnée et prive l’utilisation de données potentiellement utiles au bien commun. L’année 2020 a marqué l’actualité en durcissant les échanges vers les États Unis suite à l’invalidation du Privacy shield le 16 juillet par l’affaire Schremps II.

Solution

OCTOPIZE, grâce à sa méthode d’anonymisation Avatar, permet de créer un jeu de données synthétiques qui protège les individus à l’origine des données, tout en conservant le potentiel statistique et la granularité originale. Les données anonymes produites, ne sont plus considérées comme des données personnelles et peuvent être transférées librement vers des prestataires ou partenaires situées en dehors de l’UE.

Exemple

Prenons l’exemple d’un établissement de soin européen possédant une cohorte d’étude sur une pathologie cardiaque. Cet établissement souhaite envoyer les données de la cohorte vers une entreprise spécialisée dans l’intelligence artificielle aux États-Unis afin qu’elle bâtisse un modèle de prédiction de la présence d’une pathologie cardiaque chez un patient. Ce modèle permettra d’apporter support diagnostique aux médecins de l’établissement.

Type de données

Les données personnelles de santé associées à cette cohorte sont à la fois qualitatives et quantitatives et spécifient la présence ou non d’une pathologie cardiaque chez un patient en fonction de différentes variables. Il s’agit de données sensibles puisqu’une ré-identification peut conduire à la fuite de l’état de santé d’un patient.
  • 303 individus
  • 14 variables
Ce jeu de données fait l’objet d’une anonymisation par la méthode Avatar qui redonne un nouveau jeu de données de même structure que le jeu initial (même nombre d’individus, même nombre de variables, même format).

Objectifs de l'anonymisation

Dans ce cas d’usage, on identifie deux objectifs.

  1. Rendre impossible la ré-identification des individus du jeu de données.

  2. Conserver la capacité prédictive des données. 

 

Comment OCTOPIZE s’assure de l’anonymat des individus ?

La transformation des données par la méthode Avatar s’accompagne systématiquement d’une évaluation de la sécurité des données de synthèses générées par le biais de métriques uniques. Ces métriques ont été développées pour vérifier le respect des 3 critères identifiés par le Comité Européen de la Protection des Données (CEPD) (ex G29) permettant de qualifier une donnée d’anonyme au sens du RGPD ; à savoir : 

  • Individualisation, 
  • Corrélation, 
  • Inférence. 

  De notre exemple on obtient les résultats suivants : 

  • Hidden rate : 93.63% 
  • Local cloaking : 12 
  • Correlation protection rate : 100% (variables de référence : age, sex) 
  • Inference rate : 56.43% (variables de référence : age, sex, cible : disease) 

Pour aider l’interprétation de ces métriques, vous pouvez vous référer à la page (Voir page explication métrique citée plus haut). 

Les résultats obtenus indiquent qu’il est impossible en pratique pour un attaquant de ré-identifier les individus de la cohorte. 

Les données synthétiques générées permettent-elles d’obtenir les mêmes résultats que les données originales ?

On cherche à vérifier si le jeu de données anonymisé par la méthode Avatar et transmis au partenaire hors UE va permettre à celui-ci de bâtir un modèle de prédiction aussi performant que celui qui aurait été construit à partir des données originales. 

Pour vérifier le maintien de la structure des données après traitement, on réalise une étape de réduction de dimension. Les données originales (gauche) et avatarisées (droite) sont projetées dans l'espace déterminé par les données originales en utilisant disease comme variable illustrative. La similarité de la répartition des individus dans l'espace entre les données originales et avatarisées présage de la conservation du signal à l'issue du traitement.

Le protocole d’évaluation consiste à entrainer plusieurs modèles de machine learning, identiques 2 à 2, sur les données originales d’une part et leur équivalent avatarisé de l’autre. Les deux modèles ont ensuite été testés sur un reste de données originales.
L’ensemble des scores d’accuracy (le pourcentage de bonnes prédictions) des différents modèles est ensuite comparé. Il en résulte que les modèles entrainés sur des avatars permettent de prédire avec une performance similaire aux modèles entrainés sur des données originales peu importe le modèle utilisé.

Conclusion

La transformation des données en avatars permet d’accélérer et faciliter les transferts de données hors UE en respectant la vie privée des individus tout en assurant une forte conservation des qualités statistiques des données d’origine. 

Autre cas d'usage

Pression Systolique

Les données appréhendées dans ce cas d’usage couvrent le contexte très particulier de l’anonymisation de séries temporelles.

Masse Graisseuse

Ce cas d’usage illustre une problématique d’apprentissage supervisé : la prédiction d’une valeur continue, ici le pourcentage de masse graisseuse, en fonction des autres paramètres du jeu de données.

Taxi New-Yorkais

Le cas d’usage « Taxi New-Yorkais » présente un contexte d’anonymisation de données spatio-temporelles. La difficulté réside dans la nature particulière de ces données dont la combinaison des dimensions spatiales et temporelles accentue le risque de ré-identification.
© Octopize 2021
crossmenuchevron-down