Après avoir différencié les concepts d’anonymisation et de pseudonymisation dans un précédent article, il est important pour l’équipe d'Octopize de faire un état des lieux des différentes techniques existantes d’anonymisation des données personnelles.
Avant de parler anonymisation des données, notons qu’il est nécessaire en premier lieu de procéder à une pseudonymisation afin de retirer tout caractère directement identifiant du jeu de données : c’est une première étape de sécurité indispensable. Les techniques d’anonymisation permettent de prendre en charges les attributs quasi identifiants. En les combinant à une étape de pseudonymisation préalable, on s’assure de prendre en charge les identifiants directs et ainsi protéger l’intégralité des informations personnelles liées à un individu.
Ensuite, pour rappel, l’anonymisation consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Cette technique a un caractère irréversible qui implique que les données anonymisées ne soient plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD.
Pour caractériser l’anonymisation, le CEPD (Comité Européen de la Protection des Données), anciennement le groupe de travail G29, a énoncé 3 critères à respecter, à savoir :
Le CEPD défini ensuite deux grandes familles de techniques d’anonymisation à savoir la randomisation et la généralisation.
RANDOMISATION | GENERALISATION |
La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale.
Cette technique permet de protéger le jeu de données du risque d’inférence. Dans les techniques de randomisation, on peut par exemple citer l’ajout de bruit, la permutation et la confidentialité différentielle. Situation de randomisation : permuter des données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données. |
La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes.
Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres. Dans les techniques de généralisation, on peut par exemple citer l’agrégation, le k-anonymat, le l-diversité ou encore le t-proximité. Situation de généralisation : dans un fichier contenant la date de naissance des personnes, le fait de remplacer cette information par la seule année de naissance. |
Ces différentes techniques permettent de répondre à certains enjeux avec leur lot d’avantages et d’inconvénients. Nous détaillerons ainsi le principe de fonctionnement de ces différentes méthodes et exposeront par le biais d’exemples factuels, les limites auxquelles elles sont soumises.
Chacune des techniques d’anonymisation peut être appropriée, selon les circonstances et le contexte, pour atteindre la finalité souhaitée sans compromettre le droit des personnes concernées au respect de leur vie privée.
1- L’ajout de bruit :
Principe : Modification des attributs de l’ensemble des données pour les rendre moins précis. Exemple : à la suite d’une anonymisation par ajout de bruit, l’âge des patients est modifié de plus ou moins 5 ans.
Points forts :
Points faibles :
Erreurs courantes :
Échec d’utilisation :
Cas Netflix :
Dans le cas Netflix, la base de données initiale avait été rendue publique « anonymisée » conformément à la politique interne de l’entreprise en matière de confidentialité (en supprimant toutes les informations d’identification des utilisateurs hormis les évaluations et les dates).
Dans ce cas, il a été possible de réidentifier 68% des utilisateurs Netflix grâce à une base de données externe à celle-ci, par croisement. Les utilisateurs ont été identifiés de manière unique dans l’ensemble de données en prenant comme critères de sélection 8 évaluations et des dates comportant une marge d’erreur de 14 jours.
2- La permutation:
Principe : Consiste à mélanger les valeurs des attributs dans un tableau de telle sorte que certaines d’entre elles sont artificiellement liées à des personnes concernées différentes. La permutation altère donc les valeurs au sein de l’ensemble de données en les échangeant simplement d’un enregistrement à un autre. Exemple : à la suite d’une anonymisation par permutation, l’âge du patient A a été remplacé par celui du patient J.
Points forts :
Point faible :
Erreurs courantes :
Échec d’utilisation : la permutation d’attributs corrélés
Dans l’exemple suivant, nous pouvons voir qu’intuitivement, nous allons chercher à relier les salaires avec les métiers selon les corrélations qui nous semblent logiques (voir flèche).
Ainsi, la permutation aléatoire des attributs n’offre pas de garanties de confidentialité quand il existe des liens logiques entre différents attributs.
Tableau 1. Exemple d’anonymisation inefficace par permutation d’attributs corrélés
3- La confidentialité différentielle :
Principe : La confidentialité différentielle, ou Differential Privacy, consiste en la production d’aperçus anonymisés d’un ensemble de données tout en conservant une copie des données originales.
L’aperçu anonymisé est généré à la suite de la requête effectuée par un tiers sur la base de données et dont le résultat sera associé à un ajout de bruit. Pour être considéré « differencially private », la présence ou l’absence d’un individu particulier dans la requête ne doit pas pouvoir changer son résultat.
Point fort :
Points faibles :
Erreurs courantes :
Échecs d’utilisation :
1- Agrégation et k-anonymat:
Principe : Généralisation des valeurs des attributs dans une mesure telle que tous les individus partagent la même valeur. Ces deux techniques visent à empêcher qu’une personne concernée puisse être isolée en la regroupant avec, au moins, k autres individus. Exemple : pour qu’il y ait au moins 20 individus partageant la même valeur, l’âge de tous patients entre 20 et 25 ans est ramené à 23 ans.
Point fort :
Points faibles :
Erreurs courantes :
Échec d’utilisation :
Le principal problème lié au k-anonymat est qu’il n’empêche pas les attaques par inférence. Dans l’exemple qui suit, si l’attaquant sait qu’un individu figure dans l’ensemble de données et est né en 1964, il sait aussi que cet individu a fait une crise cardiaque. De plus, si l’on sait que cet ensemble de données a été obtenu auprès d’une organisation française, on peut en déduire que chacun des individus réside à Paris puisque les trois premiers chiffres des codes postaux sont 750*).
Tableau 2. Un exemple de k-anonymisation mal conçue
Pour combler les défauts du k-anonymat, d’autres techniques d’agrégation ont été développées, notamment la L-diversité et la T-proximité. Ces deux techniques affinent le k-anonymat en veillant à ce que chacune des classes ait L valeurs différentes (l-diversité) et que les classes créées ressemblent à la distribution initiale des données.
A noter que malgré ces améliorations, cela ne permet pas de s’advenir quant aux faiblesses principales du k-anonymat présentées ci-dessus.
Ainsi, ces différentes techniques de généralisation et de randomisation ont chacune des avantages de sécurité mais ne répondent pas toujours totalement aux 3 critères énoncés par le CEPD, ancien G29 comme le montre le tableau 3 « Forces et faiblesses des techniques considérées réalisé par la CNIL.
Tableau 3. Forces et faiblesses des techniques considérées
Issues de techniques d’anonymisation plus récentes, les données synthétiques apparaissent aujourd’hui comme de meilleures solutions d’anonymisation.
Les dernières années de recherche ont vu l’émergence de solutions permettant la génération d’enregistrements synthétiques assurant une forte rétention de la pertinence statistique et facilitant la reproductibilité des résultats scientifiques. Elles reposent sur la création des modèles permettant de comprendre et reproduire la structure globale des données d’origines. On distingue notamment les réseaux neuronaux adversaires (GAN) et des méthodes reposant sur des distributions conditionnelles.
Point fort :
Point faible :
La solution d’anonymisation Avatar, développée par OCTOPIZE, utilise une approche conceptuelle unique, centrée sur le patient, permettant la création de données synthétiques protégées et pertinentes tout en apportant la preuve de leur protection. Sa conformité a été démontrée par la CNIL sur les 3 critères du CEPD. Cliquez ici pour en savoir plus sur les avatars.
Enfin, la CNIL (Commission Nationale de l'Informatique et des Libertés) rappelle qu’étant donné que les techniques d’anonymisation et de réidentification sont amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles et les autres sources de données qui peuvent permettre de lever l’anonymat des informations.
La CNIL souligne que les recherches en matière de techniques d’anonymisation se poursuivent et font apparaître définitivement qu’aucune technique n’est, en soi, infaillible.
https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf
https://edpb.europa.eu/edpb_fr
Lien Membership Inference Attacks : https://arxiv.org/pdf/1807.09173.pdf
Lien Netflix : https://arxiv.org/PS_cache/cs/pdf/0610/0610105v2.pdf