Logo réduit OCTOPIZE - pictogramme

Limitation des risques dans l’usage interne

Ce cas d’usage aborde des notions de précautions dans l'utilisation et la gouvernance de données personnelles. Comment limiter les risques liés à un usage interne de ces données ?

Contexte

 Entre la collecte de données personnelles et leur utilisation pour un usage définit, de nombreux risques liés aux infrastructures ou aux pratiques des utilisateurs peuvent conduire à la fuite d’informations personnelles. Les établissements de soin, de par le volume de données généré, sont des cibles privilégiées pour les attaquants que ce soit par le biais de vols de disques durs, de récupération de contenus d’email ou de données sur des postes non sécurisés. Outre l’atteinte portée à la vie privée des individus, ce genre d’incidents détériore grandement l’image et la confiance portée en ces établissements. Toutefois l’utilisation de données de santé est indispensable dans le quotidien de nombreuses unités (recherche, formation...).

Solution

OCTOPIZE, grâce à sa méthode d’anonymisation Avatar permet de créer des jeux de données synthétiques qui protègent les individus à l’origine des données, tout en conservant le potentiel statistique et la granularité originale. Les données sous forme d’avatars ne sont plus considérées comme des données personnelles et peuvent être partagées sans risque au sein d’une unité de recherche par exemple. En cas de fuite malveillante ou accidentelle de ces données anonymisées, la réidentification des patients est impossible en pratique.

Exemple

Une unité de recherche en oncologie d’un centre hospitalier universitaire souhaite améliorer ses pratiques d’utilisation des données personnelles tout en permettant à ses doctorants d’appréhender des données de santé cliniques pour mettre en place des analyses. 

Il s’agit d’une cohorte de femme atteintes d’un cancer du sein dont on cherche à déterminer la sévérité de la tumeur par le biais de mesures effectuées sur des biopsies. L’objectif est de partager ces données de santé aux doctorants pour qu’ils puissent appréhender la pathologie sans détenir de données personnelles sur leur poste. 

Type de données

Dans cet exemple, les données personnelles utilisées représentent un échantillon de 683 patientes ayant fin l’objet d’une biopsie. Suite à cette intervention, 9 mesures ont été réalisées accompagné d’un diagnostic sur le caractère bénin ou malin de la tumeur.
  • 683 patients
  • 9 mesures / patient

Objectifs de l'anonymisation

  1. Rendre impossible la ré-identification des individus du jeu de données.
     
  2. Conserver la capacité prédictive des données pour les doctorants 

Comment OCTOPIZE s’assure de l’anonymat des individus ?

La transformation des données par la solution Avatar s’accompagne systématiquement d’une évaluation de la sécurité des données de synthèses générées par le biais de métriques uniques. Ces métriques ont été développées pour vérifier le respect des 3 critères identifiés par le Comité Européen de la Protection des Données (CEPD) (ex G29) permettant de qualifier une donnée d’anonyme au sens du RGPD ; à savoir : 

  • Individualisation
  • Corrélation
  • Inférence

De notre exemple on obtient les résultats suivants :

  • Hidden rate : 86.38% 
  • Local cloaking : 6 
  • Correlation protection rate : Non applicable, les informations présentes dans le jeu de données sont peu susceptibles d’être disponible dans une base de données extérieur (mesures issues de la biopsie) 
  • Inference rate : Non applicable, les informations présentes dans le jeu de données sont peu susceptibles d’être disponible dans une base de données extérieur (mesures issues de la biopsie) 

Les résultats obtenus indiquent qu’il est impossible en pratique pour un attaquant de ré-identifier les individus de la cohorte. 

Les données synthétiques générées permettent-elles d’obtenir les mêmes résultats que les données originales ?

On cherche à vérifier si le jeu de données anonymisé par la méthode Avatar a conservé son caractère pédagogique et est exploitable par des doctorants pour réaliser des analyses dans le respect de la vie privée des patients.

La comparaison de la projection des deux jeux de données suite à une étape de réduction de dimension indépendante illustre la conservation de la structure des données. En effet on peut distinguer les individus par leur class de tumeur de la même manière dans les deux jeux de données. Ce résultat est un indicateur de vraisemblance des données générées. Les données de synthèse offrent donc une utilité similaire aux données originales pour les doctorants. 

Pour s’assurer du maintien du potentiel prédictif des données on compare les performances de plusieurs modèles de classifications. On utilise le protocole suivant : un modèle est entrainé sur un jeu de données original, un modèle identique est entrainé lui sur les données d’avatars. La performance des deux modèles est testée sur des données originales n’ayant pas servies à l’entrainement. Ce protocole est répété plusieurs fois pour chaque modèle et pour plusieurs modèles différents. Il en résulte que les performances des modèles de prédictions entrainés sur des données de synthèse sont comparables à celles obtenues sur les données originales.
Ce résultat témoigne du maintien du potentiel prédictif des données suite au traitement d’anonymisation.

Conclusion

La transformation des données en avatars permet de sécuriser et faciliter les usages internes des données. Les données en circulation ne sont pas des données personnelles évitant tout risque de fuite malveillante ou accidentelle. Après transformation les données conservent cependant leur utilité pour les usages initialement prévus. 

Autre cas d'usage

Transfert de données hors UE

Ce cas d’usage illustre la problématique de transfert de données personnelles vers un partenaire hors Union Européenne.

Revalorisation d’une cohorte pour un nouvel usage

Ce cas d’usage illustre la problématique de revalorisation de données personnelles pour un nouvel usage non prévu par la finalité de traitement du premier consentement.

Taxi New-Yorkais

Le cas d’usage « Taxi New-Yorkais » présente un contexte d’anonymisation de données spatio-temporelles. La difficulté réside dans la nature particulière de ces données dont la combinaison des dimensions spatiales et temporelles accentue le risque de ré-identification.
© Octopize 2021
crossmenuchevron-down