Quels critères permettent de considérer une donnée comme véritablement anonyme  ?

Comment mesurer l’anonymat d’une base de données  ?

À l’ère du Big Data, les données personnelles constituent une matière première incontournable pour le développement de la recherche et le fonctionnement de quantité d’entreprises. Cependant, malgré leur grande valeur, l’utilisation de ce type de données implique nécessairement un risque de ré-identification et de fuite d’informations sensibles même en ayant suivi un traitement de pseudonymisation préalable (voir article 1). Dans le cas de données personnelles, a fortiori sensibles, le risque de ré-identification peut être considéré comme une trahison de la confiance des individus à l’origine des données, d’autant plus quand elles sont utilisées sans consentement clair et éclairé.  

 

La mise en vigueur du Règlement général sur la protection des données (RGPD) en 2018 et de la Loi informatique et libertés avant lui a offert une tentative de réponse à cette problématique en initiant un changement dans les pratiques de collecte, traitement et stockage des données personnelles. Un groupe de réflexion indépendant et spécialisé dans les questions de protection de la vie privée a également été mis en place. Appelé Comité européen de la protection des données (CEPD) ou anciennement G29, cet organe consultatif a publié des travaux (ref Article G29) qui servent aujourd’hui de références aux autorités nationales européennes (CNIL en France) dans l’application du RGPD. 

 

Le CEPD convient ainsi du potentiel de l’anonymisation pour valoriser les données personnelles tout en limitant les risques pour les individus qui en sont l’origine. Pour rappel, des données sont considérées comme anonymes si la ré-identification des individus d’origine est impossible. Il s’agit donc d’un processus irréversible. Les méthodes d’anonymisation développées pour répondre à ce besoin ne sont toutefois pas infaillibles et leur efficacité dépend souvent de nombreux paramètres (voir article 2). Pour utiliser ces méthodes de façon optimale, il est nécessaire d’apporter une précision supplémentaire sur la nature des données anonymes. Le CEPD, dans son Avis du 05/2014 sur les techniques d’anonymisation, identifie trois critères pour déterminer l’impossibilité de ré-identification ; à savoir :  

 

  1. Individualisation : est-il toujours possible d’isoler un individu ? 

 Le critère d’individualisation correspond au scenario le plus favorable pour un attaquant, c’est-à-dire une personne, malveillante ou non, cherchant à ré-identifier un individu dans un jeu de données. Pour être considéré anonyme, un jeu de données ne doit pas permettre à un attaquant d’isoler un individu cible. En pratique, plus un attaquant possède d’informations sur l’individu qu’il souhaite isoler dans une base, plus les probabilités de ré-identification sont élevées. En effet, dans un jeu de données pseudonymisé, c’est-à-dire débarrassé de ses identifiants directs, les informations quasi-identifiantes restantes agissent comme un code barre de l’identité d’un individu quand elles sont considérées ensemble. Ainsi plus l’attaquant a d’informations préalables sur l’individu qu’il cherche à identifier, plus il peut réaliser une requête précise pour tenter d’isoler cet individu. Un exemple d’attaque par individualisation est représenté Figure 1. 

Ré-identification d’un patient par individualisation dans un jeu de données sur la base de deux attributs (Age, Gender) 

Figure 1 : Ré-identification d’un patient par individualisation dans un jeu de données sur la base de deux attributs (Age, Gender) 

 

L’un des attributs de ce type d’attaque réside également dans la sensibilité accrue des individus présentant des caractéristiques peu communes. Il sera en effet plus aisé pour un attaquant, ne disposant que des informations sur le sexe et la taille, d’isoler une femme mesurant 2 mètres qu’un homme mesurant 1 mètre 75.  

 

2. Corrélation : est-il toujours possible de relier entre eux les enregistrements relatifs à un individu ? 

 Les attaques par corrélation correspondent au scénario le plus fréquent. Aussi, pour considérer des données comme anonymes, il est primordial que celles-ci satisfassent le critère de corrélation. Entre la démocratisation de l’Open Data et les nombreux incidents liés à des fuites de données personnelles, la quantité de données disponibles n’a jamais été aussi conséquente. Ces bases regroupant des informations personnelles parfois directement identifiantes, sont autant d’opportunités pour les attaquants de réaliser des tentatives de ré-identification par croisement. En pratique, les attaques par corrélation utilisent des bases directement-identifiantes possédant des informations similaires à la base à attaquer comme illustré Figure 2.  

 

Illustration d’une attaque par corrélation

Figure 2 : Illustration d’une attaque par corrélation. La base extérieure directement identifiante (en haut) est utilisée pour ré-identifier des individus dans la base attaquée (en bas). La corrélation se fait sur la base des variables communes. 

Dans le cas de tableaux illustrées dans la Figure 2, l’attaquant aurait réussi à ré-identifier les 5 individus de la base pseudonymisée grâce aux deux attributs communs aux deux bases. De plus, la ré-identification lui aurait permis d’inférer une nouvelle information sensible à propos des patients, à savoir la pathologie qui les affecte. Dans ce contexte, plus les bases possèdent d’informations communes, plus la probabilité de ré-identifier un individu par corrélation augmente. 

 

3. Inférence : peut-on déduire des informations concernant un individu ? 

 Enfin, troisième et dernier critère identifié par le CEPD est probablement le plus complexe à évaluer. Il s’agit du critère d’inférence. Pour considérer des données comme anonymes, il doit être impossible d’identifier par déduction, de façon quasi certaine, de nouvelles informations sur un individu. À titre d’exemple, si un jeu de données contient des informations sur l’état de santé d’individus ayant participé à une étude clinique et que tous les hommes de plus de 65 ans de cette cohorte sont atteints d’un cancer du poumon ; alors il sera possible de déduire l’état de santé de certains participants. En effet il suffit de connaitre un homme de plus de 65 ans ayant participé à cette étude pour affirmer que celui-ci est atteint d’un cancer du poumon. 

L’attaque par inférence est particulièrement efficace sur les groupes d’individus partageant une modalité unique. En cas de réussite de l’inférence, la divulgation de l’attribut sensible concerne alors l’ensemble du groupe d’individus identifiés. 

 

Ces trois critères identifiés par le CEPD réunissent la majorité des menaces d’attaques pesant sur les données après avoir subis un traitement visant à préserver leur sécurité. En cas de satisfaction de ces trois critères, le traitement peut alors être considéré comme une anonymisation au sens propre du terme. 

 

Les techniques actuelles permettent-elles de satisfaire les trois critères  ? 

 Les techniques de randomisation et de généralisation présentent chacune des avantages et des inconvénients vis-à-vis de chaque critère (voir article 2). L’évaluation de la performance du respect des critères pour plusieurs techniques d’anonymisation est représentée Figure 3. Elle est issue de l’Avis publié par l’ex G29 sur les techniques d’anonymisation.

 

Forces et faiblesses des techniques considérées - OCTOPIZE

Figure 3 : Forces et faiblesses des techniques considérées 

 

Il apparait clairement qu’il n’existe parmi ces techniques, aucune permettant de respecter les 3 critères simultanément. Elles doivent donc être utilisées avec prudence dans leur contexte d’usage le plus propice. Au-delà des méthodes évaluées, les données synthétiques semblent être une alternative prometteuse permettant de satisfaire l’intégralité des 3 critères. Cependant, les méthodologies permettant de produire des données synthétiques doivent se confronter à la difficulté d’apporter la preuve de cette protection. À l’heure actuelle, toutes les solutions de génération de données de synthèse se reposent sur le principe de plausible deniability pour prouver la protection associée à une donnée. En d’autres termes si une donnée synthétique venait par hasard à ressembler à une donnée originale, la défense consiste à annoncer qu’en de telles circonstances, il est impossible d’apporter la preuve que cette donnée synthétique est liée à une donnée originale. Chez Octopize, nous avons développé une méthodologie unique permettant de produire des données synthétiques tout en quantifiant et apportant la preuve de la protection apportée. Cette évaluation est réalisée par le biais de métriques développées spécialement pour mesurer la satisfaction des critères, à savoir vous l’aurez compris, l’individualisation, la corrélation et l’inférence. Nous développerons le sujet des métriques d’évaluation de la qualité et de la sécurité des données synthétiques plus en détail dans un autre article. 

Octopize, expert de l’anonymisation de données, lève 1,5 M€ pour accélérer son développement.

Octopize, expert de l’anonymisation de données, annonce avoir bouclé une levée de fonds de 1,5 million d’euros menée par Pays de la Loire Développement (géré par Sodero Gestion), Pays de la Loire Participations, Atlantique Vendée Innovation (Crédit Agricole Atlantique Vendée), avec la participation de Bpifrance et de business angels.

Déjà commercialisée dans la verticale de la santé, Octopize confirme son ambition avec sa solution d’avatarisation basée sur l’intelligence artificielle : devenir le leader européen des données synthétiques. Les avatars sont des données de synthèse issues des individus et qui permettent de « partager sans dévoiler et donc d’exploiter de façon éthique ». Ils représentent une innovation de rupture assurant confidentialité et exploitation des données sensibles.

Un marché en expansion

À l’heure du Big Data, le volume des données personnelles ne cesse de croître et offre un gisement de valeur pour les acteurs économiques qui souhaitent les valoriser. L’avatarisation est une solution éthique qui permet l’exploitation de nouveaux usages de la donnée personnelle pour lesquels on doit assurer la confidentialité des individus. Ces usages sont nombreux : exploitation de données (analyse, recherche en vue d’innovation, environnement de test), partage (avec des tiers, envoi hors UE, open data) et conservation des données illimitée dans le temps contrairement aux données personnelles. Les avatars deviennent des données multi-usages, multi-usagers, et sans date de péremption.

Octopize bénéficie déjà d’une reconnaissance dans la verticale de la santé. La solution est commercialisée chez plusieurs industriels de la pharma, et également au CHU de Nantes ou encore à l’APHP. Octopize travaille aussi avec SOS Médecins et est partenaire du projet européen HAP2 (www.hap2-project.com) programme Horizon 2020.

Cap vers des données éthiques au service de tous et respectueuses de chacun

Aujourd’hui, le traitement des données personnelles implique un partage de données au détriment de leur confidentialité ou de leur qualité. Octopize résout ce paradoxe en affirmant qu’il faut réserver les données personnelles aux usages personnels et utiliser des données synthétiques dites « avatars » pour tous les autres usages. Les avatars permettent de ne pas faire de compromis entre la confidentialité due aux individus et la qualité statistique nécessaire à l’exploitation. L’impossibilité de ré-identification des individus est assurée avec les avatars, des données anonymes qui miment les données personnelles de façon éthique, des données “mimethik”. L’algorithme a été audité en juin 2020 avec succès par la CNIL (l'autorité française de protection des données).

Les avatars sont une nouvelle forme de données qui, n’étant plus des données personnelles en tant que telles, sortent du champ d’application du RGPD et ouvrent de nombreuses perspectives d’exploitation. Les avatars conservent tout le potentiel de la valeur de la donnée et assurent la reproductibilité dans le cadre d’analyses. Grâce à l’innovation d'Octopize, il n’y a plus aucune justification de faire prendre un risque de ré-identification aux individus, patients, clients, fournisseurs.

Les investisseurs

Octopize a retenu : Pays de la Loire Développement (géré par Sodero Gestion), Pays de la Loire Participations, Atlantique Vendée Innovation (Crédit Agricole Atlantique Vendée), Bpifrance et des business angels dans le cadre d’un financement global de 1,5M€. Grâce à cet apport, Octopize confirme son ambition de devenir le leader européen des données synthétiques.

Avec Octopize, exploitons vos données au service de tous, dans le respect de chacun.

À propos d'Octopize

Octopize – Mimethik Data, startup nantaise, labélisée Deeptech par BPI, accompagnée par Atlanpole, membre d’Atlanpole Biothérapies et lauréat de réseau Entreprendre Atlantique. La startup compte une dizaine de personnes et est composée d’un conseil scientifique présidé par le Pr. Gourraud (Université de Nantes et CHU de Nantes). La méthode est commercialisée sous forme de logiciel (on premise) ou de revente d’avatars à la ligne (mimethik data) permettant de nouveaux usages de façon éthique.

Pour plus d’informations : https://octopize-md.com/
Fondateur : Olivier BREILLACQ – 07 69 14 11 35 – contact@octopize-md.com

Quelles techniques d'anonymisation pour protéger vos données personnelles ?

Quelles sont les différentes techniques d’anonymisation ?

Après avoir différencié les concepts d’anonymisation et de pseudonymisation dans un précédent article, il est important pour l’équipe d'Octopize de faire un état des lieux des différentes techniques existantes d’anonymisation des données personnelles.

Les techniques d’anonymisation

Avant de parler anonymisation des données, notons qu’il est nécessaire en premier lieu de procéder à une pseudonymisation afin de retirer tout caractère directement identifiant du jeu de données : c’est une première étape de sécurité indispensable. Les techniques d’anonymisation permettent de prendre en charges les attributs quasi identifiants. En les combinant à une étape de pseudonymisation préalable, on s’assure de prendre en charge les identifiants directs et ainsi protéger l’intégralité des informations personnelles liées à un individu.

Ensuite, pour rappel, l’anonymisation consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Cette technique a un caractère irréversible qui implique que les données anonymisées ne soient plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD.

Pour caractériser l’anonymisation, le CEPD (Comité Européen de la Protection des Données), anciennement le groupe de travail G29, a énoncé 3 critères à respecter, à savoir :

Le CEPD défini ensuite deux grandes familles de techniques d’anonymisation à savoir la randomisation et la généralisation.

RANDOMISATION GENERALISATION
La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale.

 

Cette technique permet de protéger le jeu de données du risque dinférence. Dans les techniques de randomisation, on peut par exemple citer l’ajout de bruit, la permutation et la confidentialité différentielle.

Situation de randomisation : permuter des données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.

La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes.

 

Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres. Dans les techniques de généralisation, on peut par exemple citer l’agrégation, le k-anonymat, le l-diversité ou encore le t-proximité.

Situation de généralisation : dans un fichier contenant la date de naissance des personnes, le fait de remplacer cette information par la seule année de naissance.

Ces différentes techniques permettent de répondre à certains enjeux avec leur lot d’avantages et d’inconvénients. Nous détaillerons ainsi le principe de fonctionnement de ces différentes méthodes et exposeront par le biais d’exemples factuels, les limites auxquelles elles sont soumises.

Quelle technique utiliser et pourquoi ?

Chacune des techniques d’anonymisation peut être appropriée, selon les circonstances et le contexte, pour atteindre la finalité souhaitée sans compromettre le droit des personnes concernées au respect de leur vie privée.

La famille randomisation :

1- L’ajout de bruit :

Principe : Modification des attributs de l’ensemble des données pour les rendre moins précis. Exemple : à la suite d’une anonymisation par ajout de bruit, l’âge des patients est modifié de plus ou moins 5 ans.

Points forts :

Points faibles :

Erreurs courantes :

Échec d’utilisation :

Cas Netflix :

Dans le cas Netflix, la base de données initiale avait été rendue publique « anonymisée » conformément à la politique interne de l’entreprise en matière de confidentialité (en supprimant toutes les informations d’identification des utilisateurs hormis les évaluations et les dates).

Dans ce cas, il a été possible de réidentifier 68% des utilisateurs Netflix grâce à une base de données externe à celle-ci, par croisement. Les utilisateurs ont été identifiés de manière unique dans l’ensemble de données en prenant comme critères de sélection 8 évaluations et des dates comportant une marge d’erreur de 14 jours.

2- La permutation:

Principe : Consiste à mélanger les valeurs des attributs dans un tableau de telle sorte que certaines d’entre elles sont artificiellement liées à des personnes concernées différentes. La permutation altère donc les valeurs au sein de l’ensemble de données en les échangeant simplement d’un enregistrement à un autre. Exemple : à la suite d’une anonymisation par permutation, l’âge du patient A a été remplacé par celui du patient J.

Points forts :

Point faible :

Erreurs courantes :

Échec d’utilisation : la permutation d’attributs corrélés

Dans l’exemple suivant, nous pouvons voir qu’intuitivement, nous allons chercher à relier les salaires avec les métiers selon les corrélations qui nous semblent logiques (voir flèche).

Ainsi, la permutation aléatoire des attributs n’offre pas de garanties de confidentialité quand il existe des liens logiques entre différents attributs.

tableau1_article2

Tableau 1. Exemple d’anonymisation inefficace par permutation d’attributs corrélés

3- La confidentialité différentielle :

Principe : La confidentialité différentielle, ou Differential Privacy, consiste en la production d’aperçus anonymisés d’un ensemble de données tout en conservant une copie des données originales.

L’aperçu anonymisé est généré à la suite de la requête effectuée par un tiers sur la base de données et dont le résultat sera associé à un ajout de bruit. Pour être considéré « differencially private », la présence ou l’absence d’un individu particulier dans la requête ne doit pas pouvoir changer son résultat.

Point fort :

Points faibles :

Erreurs courantes :

Échecs d’utilisation :

La famille généralisation :

1- Agrégation et k-anonymat:

Principe : Généralisation des valeurs des attributs dans une mesure telle que tous les individus partagent la même valeur. Ces deux techniques visent à empêcher qu’une personne concernée puisse être isolée en la regroupant avec, au moins, k autres individus. Exemple : pour qu’il y ait au moins 20 individus partageant la même valeur, l’âge de tous patients entre 20 et 25 ans est ramené à 23 ans.

Point fort :

Points faibles :

Erreurs courantes :

 

Échec d’utilisation :

Le principal problème lié au k-anonymat est qu’il n’empêche pas les attaques par inférence. Dans l’exemple qui suit, si l’attaquant sait qu’un individu figure dans l’ensemble de données et est né en 1964, il sait aussi que cet individu a fait une crise cardiaque. De plus, si l’on sait que cet ensemble de données a été obtenu auprès d’une organisation française, on peut en déduire que chacun des individus réside à Paris puisque les trois premiers chiffres des codes postaux sont 750*).

table2_article2

Tableau 2. Un exemple de k-anonymisation mal conçue

Pour combler les défauts du k-anonymat, d’autres techniques d’agrégation ont été développées, notamment la L-diversité et la T-proximité. Ces deux techniques affinent le k-anonymat en veillant à ce que chacune des classes ait L valeurs différentes (l-diversité) et que les classes créées ressemblent à la distribution initiale des données.

A noter que malgré ces améliorations, cela ne permet pas de s’advenir quant aux faiblesses principales du k-anonymat présentées ci-dessus.

Ainsi, ces différentes techniques de généralisation et de randomisation ont chacune des avantages de sécurité mais ne répondent pas toujours totalement aux 3 critères énoncés par le CEPD, ancien G29 comme le montre le tableau 3 « Forces et faiblesses des techniques considérées réalisé par la CNIL.

Tableau comparatif des méthodes d'anonymisation _ CNIL

Tableau 3. Forces et faiblesses des techniques considérées

Issues de techniques d’anonymisation plus récentes, les données synthétiques apparaissent aujourd’hui comme de meilleures solutions d’anonymisation.

Cas des données synthétiques

Les dernières années de recherche ont vu l’émergence de solutions permettant la génération d’enregistrements synthétiques assurant une forte rétention de la pertinence statistique et facilitant la reproductibilité des résultats scientifiques. Elles reposent sur la création des modèles permettant de comprendre et reproduire la structure globale des données d’origines. On distingue notamment les réseaux neuronaux adversaires (GAN) et des méthodes reposant sur des distributions conditionnelles.

Point fort :

Point faible :

La solution d’anonymisation Avatar, développée par OCTOPIZE, utilise une approche conceptuelle unique, centrée sur le patient, permettant la création de données synthétiques protégées et pertinentes tout en apportant la preuve de leur protection. Sa conformité a été démontrée par la CNIL sur les 3 critères du CEPD. Cliquez ici pour en savoir plus sur les avatars.

Évolution rapide des techniques

Enfin, la CNIL (Commission Nationale de l'Informatique et des Libertés) rappelle qu’étant donné que les techniques d’anonymisation et de réidentification sont amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles et les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

La CNIL souligne que les recherches en matière de techniques d’anonymisation se poursuivent et font apparaître définitivement qu’aucune technique n’est, en soi, infaillible.

Sources :

https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf

https://edpb.europa.eu/edpb_fr

Lien Membership Inference Attacks : https://arxiv.org/pdf/1807.09173.pdf

Lien Netflix : https://arxiv.org/PS_cache/cs/pdf/0610/0610105v2.pdf

Vos données sont-elles pseudonymisées ou anonymisées ?

Quelle différence entre anonymisation et pseudonymisation ?

La notion de données anonymes cristallise un grand nombre d’incompréhension et de fausses idées au point que le terme « anonyme » n’ait pas la même signification selon la personne qui l’emploie.
Pour rétablir le consensus, l’équipe d'Octopize a souhaité évoquer les différences entre pseudonymisation et anonymisation, deux notions souvent confondues.
Au premier abord, le terme « anonymisation » évoque la notion de masque, de dissimulation. On s’imagine alors que le principe d’anonymisation revient à masquer les attributs directement identifiants d’un individu (nom, prénom, numéro de sécu). Ce raccourci constitue justement le piège à éviter. En effet, le masquage de ces paramètres constitue plutôt une pseudonymisation.
A première vue semblables, ces deux notions impliquent pourtant de grandes différences, tant du point de vue juridique que de la sécurité.

Qu’est-ce que la pseudonymisation ?

Selon la CNIL, la pseudonymisation est un « traitement de données personnelles réalisé de manière qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire ». Elle constitue une des mesures recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles.

Mais la pseudonymisation n’est pas une méthode d’anonymisation. La pseudonymisation réduit simplement la corrélation d’un ensemble de données avec l’identité originale d’une personne concernée et constitue par conséquent une mesure de sécurité utile mais non absolue. En effet, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom...) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.) empêchant ainsi la réidentification directe des individus.

La pseudonymisation ne constitue toutefois pas une protection infaillible car l’identité d’un individu peut également être déduite à partir d’une combinaison de plusieurs informations appelée quasi identifiants. Ainsi, en pratique, des données pseudonymisées restent potentiellement réidentifiantes indirectement par croisement d’informations. L’identité de l’individu peut être trahie par une de ses caractéristiques indirectement identifiantes. Cette transformation est donc réversible, justifiant le fait que des données pseudonymisées soient toujours considérées comme des données personnelles. À ce jour, les techniques de pseudonymisation les plus utilisées reposent sur des systèmes cryptographiques à clé secrète, des fonctions de hachage, du chiffrement déterministe ou encore de la Tokenization.

L’« affaire AOL (America  On  Line)» illustre de manière typique le malentendu qui existe entre la pseudonymisation et l’anonymisation. En 2006, une base de données contenant vingt millions de mots-clés figurant dans les recherches effectuées par plus de 650000 utilisateurs au cours d’une période de 3 mois a été diffusée publiquement, sans autre mesure destinée à préserver la vie privée que le remplacement de l’identifiant d’utilisateur AOL par un attribut numérique (pseudonymisation).
Malgré ce traitement, l’identité et la localisation de certains utilisateurs ont été rendues publiques. En effet, les requêtes transmises à un moteur de recherches, surtout si elles peuvent être couplées avec d’autres attributs, comme les adresses IP ou d’autres paramètres de configuration, ont un potentiel d’identification très élevé.

Cet incident ne constitue qu’un exemple parmi les nombreux écueils montrant qu’un ensemble de données pseudonymisées n’est pas anonyme ; le simple fait de modifier l’identité n’empêche pas un individu d’être ré-identifié à partir d’informations quasi identifiantes (âge, sexe, code postal). Dans bien des cas, il peut se révéler aussi facile d’identifier un individu dans un ensemble de données pseudonymisées qu’à partir des données originales (jeu du « Qui est ce ? »).

Quelle différence avec l’anonymisation ?

L’anonymisation, elle, consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Ce traitement a un caractère irréversible qui implique que les données anonymisées ne sont plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD. Pour caractériser l’anonymisation, le Comité Européen de la Protection des Données (ex G29) se base sur les 3 critères énoncés dans l’avis du 05/2014 (source en pied de page) :

- Individualisation :  les données anonymes ne doivent pas permettre de distinguer un individu. De ce fait, même en disposant de l’ensemble des informations quasi identifiantes relatives à un individu, il doit être impossible de distinguer celui-ci dans une base une fois anonymisé.

- Corrélation :  les données anonymes ne doivent pouvoir être ré-identifiées en les croisant avec d’autres jeux de données. Ainsi il doit être impossible de relier deux ensembles de données provenant de sources différentes concernant le même individu. Une fois anonymisées, les données de santé d’un individu ne doivent pas pouvoir être reliées à ses données bancaires sur la base d’informations communes.

- Inférence : les données ne doivent pas permettre de déduire de l’information additionnelle sur un individu de façon raisonnable. Il doit être par exemple impossible de déterminer avec certitude l’état de santé d’un individu à partir de données anonymes.

C’est lorsque ces trois critères sont respectés que des données sont considérées comme anonymes à proprement parlé. Elles changent alors de statut juridique : elles ne sont plus considérées comme des données personnelles et sortent du cadre du RGPD.

Notre solution : Avatar

Il existe à ce jour plusieurs familles de méthodes d’anonymisation que nous détaillerons dans notre prochain article. Pour la plupart, ces méthodes apportent la protection en dégradant la qualité, la structure ou la finesse des données d’origine, limitant ainsi la valeur informative de ces données après traitement. Le véritable défi consiste à résoudre le paradoxe entre la protection légitime des données de chacun, et leur exploitation dans l’intérêt de tous.

La méthode d’anonymisation Avatar, développée par Octopize, est une méthode d’anonymisation unique. Elle résout le paradoxe entre la protection des données personnelles des patients et le partage de ces données pour leur valeur informative. En effet, la solution Avatar, qui a été évaluée avec succès par la CNIL, permet grâce à des données de synthèse d’assurer d’une part la confidentialité des données d’origine (et donc leur partage sans risque) et d’autre part, de conserver la valeur informative des données d’origine.

Cliquez ici pour en savoir plus.

Sources :