Entre la collecte de données personnelles et leur utilisation pour un usage définit, de nombreux risques liés aux infrastructures ou aux pratiques des utilisateurs peuvent conduire à la fuite d’informations personnelles. Les établissements de soin, de par le volume de données généré, sont des cibles privilégiées pour les attaquants que ce soit par le biais de vols de disques durs, de récupération de contenus d’email ou de données sur des postes non sécurisés. Outre l’atteinte portée à la vie privée des individus, ce genre d’incidents détériore grandement l’image et la confiance portée en ces établissements. Toutefois l’utilisation de données de santé est indispensable dans le quotidien de nombreuses unités (recherche, formation...).
Octopize, grâce à sa méthode d’anonymisation Avatar permet de créer des jeux de données synthétiques qui protègent les individus à l’origine des données, tout en conservant le potentiel statistique et la granularité originale. Les données sous forme d’avatars ne sont plus considérées comme des données personnelles et peuvent être partagées sans risque au sein d’une unité de recherche par exemple. En cas de fuite malveillante ou accidentelle de ces données anonymisées, la réidentification des patients est impossible en pratique.
Une unité de recherche en oncologie d’un centre hospitalier universitaire souhaite améliorer ses pratiques d’utilisation des données personnelles tout en permettant à ses doctorants d’appréhender des données de santé cliniques pour mettre en place des analyses.
Il s’agit d’une cohorte de femme atteintes d’un cancer du sein dont on cherche à déterminer la sévérité de la tumeur par le biais de mesures effectuées sur des biopsies. L’objectif est de partager ces données de santé aux doctorants pour qu’ils puissent appréhender la pathologie sans détenir de données personnelles sur leur poste.
La transformation des données par la solution Avatar s’accompagne systématiquement d’une évaluation de la sécurité des données de synthèses générées par le biais de métriques uniques. Ces métriques ont été développées pour vérifier le respect des 3 critères identifiés par le Comité Européen de la Protection des Données (CEPD) (ex G29) permettant de qualifier une donnée d’anonyme au sens du RGPD ; à savoir :
De notre exemple on obtient les résultats suivants :
Les résultats obtenus indiquent qu’il est impossible en pratique pour un attaquant de ré-identifier les individus de la cohorte.
La comparaison de la projection des deux jeux de données suite à une étape de réduction de dimension indépendante illustre la conservation de la structure des données. En effet on peut distinguer les individus par leur class de tumeur de la même manière dans les deux jeux de données. Ce résultat est un indicateur de vraisemblance des données générées. Les données de synthèse offrent donc une utilité similaire aux données originales pour les doctorants.
La transformation des données en avatars permet de sécuriser et faciliter les usages internes des données. Les données en circulation ne sont pas des données personnelles évitant tout risque de fuite malveillante ou accidentelle. Après transformation les données conservent cependant leur utilité pour les usages initialement prévus.