Pour justifier un traitement, les données personnelles sont collectées dans le respect d’une des bases légales définie par l’Article 6 du RGPD (le plus souvent un consentement). De ce fait, tout traitement ultérieur non prévu dans la finalité initiale doit nécessiter un nouveau consentement pour être licite ; ce qui, en pratique, est difficilement réalisable (individus décédés, changement de coordonnées...). De nombreux jeux de données au potentiel informatif significatif sont ainsi bloqués car les nouvelles finalités de traitement n’ont pas pu être anticipées au moment de la collecte.
Octopize, grâce à sa méthode d’anonymisation Avatar, permet de créer un jeu de données synthétiques qui protège les individus à l’origine des données, tout en conservant le potentiel statistique et la granularité originale. La méthode Avatar étant certifiée conforme comme une véritable solution d’anonymisation au sens du RGPD, le jeu de données synthétiques qui en résulte n’est plus considéré comme un jeu de données personnelles et peut être réutilisé pour tout autre usage sans contrainte.
Prenons l’exemple d’un industriel pharmaceutique ayant constitué une cohorte pour évaluer l’influence d’un complément alimentaire sur le pourcentage de masse adipeuse. Une start-up, souhaite utiliser ces données pour développer une application diagnostique de prédiction de la masse graisseuse des individus plus précise que les outils de mesure actuels. Cependant, le transfert des données personnelles vers la start-up n’est pas compatible avec la finalité initiale de la collecte. De plus, depuis la création de la cohorte, de nombreux individus ont changé de coordonnées, rendant difficile l’obtention d’un nouveau consentement.
Ce jeu de données fait l’objet d’une anonymisation par la méthode Avatar qui redonne un nouveau jeu de données de même structure que le jeu initial (même nombre d’individus, même nombre de variables, même format).
La transformation des données par la méthode Avatar s’accompagne systématiquement d’une évaluation de la sécurité des données de synthèse générées par le biais de métriques uniques. Ces métriques ont été développées pour vérifier le respect des 3 critères identifiés par le Comité Européen de la Protection des Données (CEPD) (ex G29) permettant de qualifier une donnée d’anonyme au sens du RGPD ; à savoir :
De notre exemple on obtient les résultats suivants :
Les résultats obtenus indiquent qu’il est impossible en pratique pour un attaquant de ré-identifier les individus de la cohorte.
On cherche à vérifier si le jeu de données anonymisé par la méthode Avatar, et transmis par l’industriel à la start-up, possède un potentiel prédictif du pourcentage de masse graisseuse équivalent au jeu de données original.
La transformation des données en avatars permet de revaloriser le potentiel dormant de certaines données en permettant ou facilitant leur transfert tout en respectant la vie privée des individus et assurant une forte conservation des qualités statistiques des données d’origine.