Avatar : un article scientifique paru dans Nature Digital Medicine valide la méthode révolutionnaire d’anonymisation des données d’Octopize

COMMUNIQUÉ DE PRESSE

Avatar : un article scientifique paru dans Nature Digital Medicine valide la méthode révolutionnaire d’anonymisation des données d’Octopize. Un pas de géant pour la protection de la vie privée. Une mine d’or pour la recherche et l’innovation. 

 

Après la CNIL, l’État et les investisseurs, la communauté scientifique valide à son tour Avatar, la méthode d’anonymisation des données personnelles, commercialisée par la startup deeptech Octopize. Fait suffisamment rare dans l'engouement actuel autour de l'IA, Octopize fait le pari de la publication scientifique revue par les pairs, de l'open access et de l'open source dans les codes et jeux de données analysés. L’article dévoile les étapes de la transformation, centrée sur le patient, des données personnelles en données synthétiques et anonymes. En collaboration avec le CHU de Nantes, Nantes Université (au travers de sa filiale  privée de valorisation de la recherche, CAPACITÉS SAS), Inserm et Centrale Nantes, l’article démontre l’impossibilité de ré-identifier les patients et le maintien de la qualité des données. Un pas de géant pour la protection de la vie privée. Une mine d’or pour la recherche et l’innovation médicales. Lors du concours Tech for Future, le 6 avril dernier, nous avons été sélectionné pour questionner M. Jean-Noël Barrot, Ministre délégué chargé de la Transition numérique et des Télécommunications à propos de la confidentialité des données, notre domaine d'expertise, et celui-ci partage notre vision !

 

Big (Data) Brother is watching you

Gisement de valeur inépuisable pour les acteurs économiques, matériau rare et précieux pour la recherche et l’innovation médicales, le volume des données personnelles en circulation croit de manière exponentielle. Corollaire : le respect de notre vie privée est de plus en plus en danger. La raison d’être d’Octopize ? Résoudre ce paradoxe. La startup deeptech l’affirme haut et fort : aujourd’hui, il n’y a plus aucune raison de risquer la ré-identification des personnes à l’origine des données. Avatar, sa méthode d’anonymisation des données personnelles, en apporte la preuve scientifique.

 

Avatar, le choix de la transparence

L’article détaillant la méthode Avatar, « Patient-centric synthetic data generation, no reason to risk re-identification in biomedical data analysis », est publié par npj Digital Medicine, la revue scientifique dédiée à l’innovation numérique médicale. Édité par le groupe Nature et soumis à validation des pairs, l’article est librement accessible en ligne. Une volonté de transparence chère à Octopize. En effet, depuis ses débuts, la startup a fait le choix d’une méthode explicable pas-à-pas, à contre-courant des modèles black box faisant régner l’opacité sur les risques encourus. 

 

La différence face à la concurrence ? Avatar fournit la preuve de l’anonymat

Paramétrable, la méthode Avatar fournit des métriques uniques pour évaluer – et prouver – l’impossibilité de ré-identification et la qualité statistique des données transformées, aussi bien à l’échelle du jeu de données qu’à l’échelle des patients.

Comment ? La méthode Avatar repose sur une innovation de rupture : l’algorithme est centré sur le patient. Il modélise les données de chaque individu et crée une donnée Avatar suffisamment éloignée pour empêcher toute ré-identification selon les critères fixés par le Comité Européen de la Protection des Données (CEPD), mais suffisamment fidèle pour conserver toute la valeur statistique. Les données synthétiques obtenues sont donc parfaitement anonymes et conservent les propriétés statistiques. 

Plus aucun risque ne pèse sur les patients. Plus aucune limite, géographique ou temporelle, ne pèse sur le partage et la réutilisation des données Avatar.

 

Avatar, une révolution dans la gouvernance des données

Les données Avatar débrident ainsi l’exploitation des données, au service de tous et dans le respect de chacun. Elles valorisent les données (partage, revente, open data), leur conservation (illimitée) et leur seconde vie (pas besoin de consentement car ce ne sont plus des données personnelles). En libérant des flots de données de qualité pour nourrir les modèles de machine learning, les données Avatar deviennent une mine d’or pour la recherche et l’innovation médicale, entre autres.

Avec cette méthode révolutionnaire, Octopize milite pour un changement de paradigme : les données personnelles – facteur de risques – doivent être réservées à un usage strictement personnel. Pour tous les autres usages, utilisons les données Avatar – gage de sécurité et opportunité de valorisation.

Protéger la vie privée des individus avant de réutiliser leurs données, c’est nécessaire. Le prouver, c’est indispensable. Avatar, LA solution d’anonymisation des données personnelles.

 

Mise à jour du communiqué de presse

Le Ministre Jean-Noël Barrot partage notre vision !  
Octopize

Le 6 avril 2023, Octopize, lauréat du concours Tech For Future, a été sélectionné pour poser une question à M. Jean-Noël Barrot, Ministre délégué chargé de la Transition numérique et des Télécommunications.

Question d’Octopize : “Le partage de la donnée personnelle est un enjeu majeur de société, qui nécessite d’aller plus loin pour encadrer les pratiques. Sans confiance, pas de données. Sans données, pas d’innovation, ni d’économie digitale. Qu’en pensez-vous ?”

Réponse de M. Barrot : 

“C’est exactement la vision qui est la nôtre.”

“Quand on est à cheval sur le respect de la donnée privée, on donne l’impression d’être contre l’innovation : pas du tout ! Au contraire et l’entreprise que vous représentez en est un des meilleurs exemples.”

“On veut inciter des entrepreneurs comme vous à se lever et à concevoir des solutions qui vont nous permettre de concilier notre objectif d’innovation et de privacy.”

“J’encourage celles et ceux qui se lancent dans le secteur de la privacy, comme Octopize, et qui permettent de concilier nos objectifs d’innovation et de respect de la vie privée.”

“On ne va pas s’arrêter de défendre la vie privée car il faut faire de l’IA. On va faire les deux en même temps et on a besoin de la tech pour y parvenir.”

 

À propos d’Octopize

Octopize

Proven privacy, Unlocked data.

L’ambition d’Octopize, startup deeptech, est de devenir le leader européen de l’anonymisation des données personnelles grâce à sa méthode brevetée : Avatar. Commercialisée depuis 2019 sous forme de logiciel et de service, la méthode Avatar a été expertisée avec succès par la CNIL en 2020, encouragée par une levée de fonds de 1,5 million € en 2021 et récompensée par le Premier ministre lors du concours i-Nov 2022 avec un nouveau financement de 0,5 million €. Après le droit, les investisseurs et l’État, la communauté scientifique valide à son tour notre méthode Avatar en 2023, dans la revue Nature Digital Medicine. Reconnue depuis plusieurs années dans le secteur sensible de la santé (CHU, instituts de recherche, Big Pharma, Medtech), Octopize accélère aujourd’hui sa croissance dans les télécoms, les assurances, l’automobile et la banque.

 

Lien de l’article : https://www.nature.com/articles/s41746-023-00771-5 

Pour en savoir plus : octopize.io

Contact : Olivier BREILLACQ, fondateur & directeur – linkedin.com/in/olivier-breillacq 

Contact presse : contact@octopize.io 

Comment évaluer l'utilité des données synthétiques ?

L’utilisation de données synthétiques est de plus en plus populaire pour l'analyse des données et l'apprentissage automatique. En générant de nouvelles données qui imitent les propriétés statistiques des données originales sans les copier, les données synthétiques peuvent être utilisées pour exploiter le potentiel des données sans compromettre la vie privée des individus. 

Cependant, pour s'assurer que les données synthétiques sont utiles et efficaces, il est important d'évaluer leur utilité. Dans cet article, nous verrons comment évaluer l'utilité des données synthétiques et nous assurer qu'elles peuvent être utilisées efficacement pour l'analyse et la modélisation.

Pour évaluer le niveau d'information conservé dans les données synthétiques, nous utilisons des mesures d'utilité qui évaluent deux aspects : la cohérence au niveau individuel et la cohérence au niveau de la population.

On entend par cohérence individuelle, toutes les règles logiques qui doivent être respectées. Ce critère dépend du jeu de données et ne sera pas développé dans cet article.

La cohérence au niveau de la population signifie qu'il existe une similarité statistique entre les données originales et les données synthétiques. Nous évaluons cette similarité à trois niveaux :

Dans cet article, nous décrirons comment évaluer la rétention de l’information statistique à l’échelle de la population. Cette analyse est globale et non spécifique au cas d’usage. Pour des cas d’usage spécifiques, il est recommandé de comparer les données originales et synthétiques basées sur l'analyse d’intéret.

Il y a autant de possibilités d'évaluation de l'utilité qu'il y a d'analyses possibles. Ici, nous nous concentrerons sur un échantillon de méthode d’évaluation.

 

Comparaison des distributions des variables

distributions

Pour chaque variable d’un jeu de données, nous comparons la distribution de cette variable dans le jeu de données original (en gris) et dans le jeu de données synthétique (en vert). La distance de Hellinger peut être calculée entre les deux distributions. Elle se traduit par un score compris entre 0 et 1. 0 signifie que les deux distributions sont identiques, tandis que 1 signifie que les distributions n'ont pas de valeurs communes. 

Dans la figure ci-dessous, nous pouvons voir de petites distances de Hellinger, qui révèlent que les distributions des données Avatars sont similaires aux distributions originales.

Hellinger

Dans d'autres cas, nous pouvons également utiliser des tests statistiques tels que le test de Kolmogorov-Smirnov ou le test du Khi-deux pour évaluer si les échantillons originaux et Avatar sont tirés de la même distribution.

 

Comparaison des dépendances entre les variables

L'évaluation des distributions des variables ne suffit pas. Si nous générons des données synthétiques en tirant chaque variable indépendamment, les distributions seront préservées mais la corrélation entre les variables sera détruite. Alors, les données synthétiques risquent de ne pas être utiles pour les analyses ou les tâches de modélisation qui dépendent de cette corrélation. Par conséquent, outre les comparaisons de distribution, il est également important de comparer les dépendances ou les corrélations entre les variables. On utilise généralement le coefficient de corrélation de Pearson pour évaluer la relation linéaire entre les variables numériques.

Ici, nous observons que les données Avatar préservent la matrice de corrélation des données originales.

Correlation

Avec cette analyse, nous comprenons que la méthode Avatar préserve les dépendances entre les variables (analyse bivariée). Les corrélations faibles restent faibles suite à l'anonymisation, tandis que les plus fortes restent fortes. D'autres mesures, telles que la “mutual information”, pourraient être calculées pour évaluer la conservation de l’utilité bivariée des données catégorielles.

 

Comparaison des informations générales des données

Préserver les informations générales contenues dans un jeu de données est l'un des principaux objectif de l'anonymisation. Afin d'évaluer l'utilité multidimensionnelle, nous pouvons utiliser les méthodes l'analyse factorielle (FAMD, PCA, MCA). Celles-ci permettent d'étudier le lien entre de nombreuses variables et individus d’un jeu de données.

La visualisation illustre la similarité entre les données originales (en gris) et les données Avatar (en vert). En effet, on voit que les liens entre les variables et les groupes du jeu de données sont conservés dans le jeu de données Avatar. 

Dans la figure ci-dessous, nous voyons que les informations sur la variable “preanti” sont conservées pendant l'anonymisation.

projection variety

 

En résumé, il est important de s'assurer que les données synthétiques préservent les informations utiles des données. Cette évaluation se fait par l’utilisation de métriques. En veillant à ce que les données synthétiques soient cohérentes au niveau de l'individu et de la population, nous pouvons nous assurer que les données synthétiques peuvent remplacer efficacement les données originales à des fins d'analyse et de modélisation.

Consultez notre documentation technique pour voir un exemple de rapport d'anonymisation qui évalue la privacy et l'utilité des données Avatar. 

• Pour en savoir plus, lisez notre article scientifique publié dans Nature npj digital medicine qui démontre la conservation de l'utilité et de la privacy de la méthode Avatar dans deux cas d’usage médicaux.



Rédaction : Julien Petot & Alban-Félix Barreteau

Données synthétiques VS anonymes

Lorsqu'il s'agit d'utiliser des données personnelles pour des usages éthiques secondaires par rapport à l'objectif initial de la collecte, les données anonymes et les données synthétiques sont souvent utilisées sans différenciation. Cependant, il s'agit de deux types de données ayant leurs propres caractéristiques et qu'il ne faut pas confondre.

Définitions

Le règlement général sur la protection des données (RGPD) définit les données anonymes comme suit :

"des informations qui ne se rapportent pas à une personne physique identifiée ou
 identifiable ou qui a été rendue anonyme de manière irréversible."

En d'autres termes, les données anonymes sont des données qui ne peuvent pas être utilisées pour identifier une personne, même lorsqu'elles sont combinées avec d'autres sources de données externes (un registre des électeurs par exemple). Ce type de données n'est pas soumis aux règles de protection des données du RGPD, car elles ne sont pas considérées comme des données personnelles. Lorsqu'elles sont anonymes, les personnes auprès desquelles les données sont collectées sont protégées contre toute réidentification. Cette propriété permet d'utiliser les données anonymes pour une variété d'usages secondaires, tels que la recherche, l'analyse statistique et le marketing, car l'utilisation de données anonymes ne nécessite pas le consentement de l'individu concerné. Cependant, il est important de noter que le processus d'anonymisation doit être effectué conformément aux directives strictes du RGPD afin de garantir la protection des données personnelles. Ces lignes directrices sont illustrées par les trois critères identifiés par le Conseil Européen de la Protection des Données (CEPD, ex G29) :

Voir plus de détails dans cet article.

Données synthétiques: Données générées artificiellement qui imitent les caractéristiques des données réelles. Elles sont créées à l'aide d'algorithmes et de modèles statistiques pour simuler des données qui ressemblent à des données réelles sans contenir d'informations personnelles réelles. Les données synthétiques sont utilisées pour divers usages, notamment pour former des modèles de Machine Learning, tester des applications logicielles ou un environnement de production. L'un des principaux avantages des données synthétiques est qu'elles peuvent être générées à grande échelle, ce qui les rend idéales dans les scénarios où les données réelles sont soit coûteuses, soit difficiles à obtenir.

Données synthétiques VS anonymes

Le fait que les données synthétiques soient des données générées artificiellement pourrait indiquer que ces données sont anonymes par défaut. La possibilité de partager la méthode de génération plutôt que les données elles-mêmes semble être une garantie supplémentaire de respect de la vie privée et un changement de paradigme dans l'utilisation des données.

Cependant, les modèles génératifs peuvent également ne pas garantir la confidentialité des données d'apprentissage. En effet, les modèles génératifs peuvent mémoriser des détails spécifiques des données d'apprentissage, y compris la présence d'individus spécifiques ou d'informations personnelles, et incorporer ces informations dans les données synthétiques générées. Ce type d'atteinte à la vie privée est appelé Membership inference attack, lorsqu'un pirate tente de déterminer si les données d'une personne spécifique ont été utilisées pour former un modèle de Machine Learning. Cela peut entraîner de graves violations de la vie privée, en particulier avec des données sensibles.

En outre, les données anonymes ne sont pas toujours synthétiques. Par exemple, certaines méthodes d'anonymisation sont basées sur l'agrégation de données réelles. K-anonyma est probablement la plus connue de ces méthodes d'agrégation, ses raffinements étant l-diversité et t-closeness. Ces méthodes d'anonymisation reposent uniquement sur l'agrégation et ne peuvent être considérées comme synthétiques, car il s'agit uniquement d'une généralisation du contenu des données. Nous avons donc un exemple de données anonymes mais non synthétiques.

Néanmoins, il faut garder à l'esprit qu'une agrégation n'est pas toujours anonyme non plus. Imaginons un jeu de données contenant l'âge des individus. Une agrégation naïve dans des classes telles que 0-49, 50-99, 100-149 aboutirait probablement à très peu de personnes dans la troisième catégorie, ce qui permettrait une identification (trop) facile.

Essayons d'expliquer la confusion

La raison pour laquelle les données synthétiques sont souvent confondues avec les données anonymes pourrait être que la plupart des méthodes d'anonymisation - sinon toutes - qui ne reposent pas sur la création de données synthétiques présentent trop d'inconvénients pour être efficaces. Il peut s'agir d'un manque de confidentialité, d'utilité ou des deux.

Par exemple, une méthode d'agrégation perdra non seulement une partie de son utilité, mais modifiera également la structure des données. Cette méthode ne peut donc pas remplacer les données sensibles dans un pipeline. Nous vous recommandons cet article si vous souhaitez approfondir le sujet des méthodes d'anonymisation existantes.

Il explique pourquoi aujourd'hui, une personne souhaitant anonymiser des données utilisera probablement une méthode de génération de données synthétiques.

Chez Octopize, avec notre méthode Avatar, nous créons des données Avatar qui ressemblent aux données originales mais qui sont faux. Nous nous assurons, grâce à des métriques, que les directives du CEPD sont respectées tout en conservant la plus grande utilité des données.

En résumé, la confidentialité n'est pas considérée comme acquise lors du traitement des données synthétiques. La génération de données synthétiques privées est un sujet d'expertise de pointe, où certaines approches naïves tendent à exposer des informations sensibles. Cependant, lorsqu'elle est utilisée avec prudence, la synthèse de données anonymes est aujourd'hui le moyen le plus efficace de conserver un maximum d'utilité tout en préservant la vie privée.

Intéressé par des données synthétiques et anonymes ? Contactez-nous : contact@octopize.io !

 

Rédaction : Gaël Russeil & Morgan Guillaudeux

Évaluation de la confidentialité d'un jeu de données

L'un des points essentiels à aborder avant de se plonger dans la question de la confidentialité d'un jeu de données est la notion de pseudonymisation par rapport à celle d'anonymisation. Ces termes sont souvent utilisés de manière interchangeable, mais sont en fait très différents en termes de protection des individus.

Notons que la pseudonymisation est une étape nécessaire avant l'anonymisation, car les identifiants directs n'apportent aucune valeur à un ensemble de données.

Pour être considéré comme anonyme, un jeu de données doit satisfaire les trois critères identifiés par le Comité Européen de Protection des Données (CEPD, anciennement connu sous le nom de G29). Pour mesurer le respect de ces critères, il faut toujours comparer le jeu de données original à sa version traitée, le traitement étant toute technique visant à améliorer la confidentialité de l'ensemble de données (ajout de bruit, modèles génératifs, Avatar).

La confidentialité selon le CEPD

Avant de nous plonger dans les mesures spécifiques et la façon dont elles sont mesurées, nous devons clarifier ce que nous essayons réellement d'empêcher.

Nous allons prendre les critères officiels du CEPD et ajouter quelques exemples pour mettre en évidence les principales différences entre les trois.

Ces critères sont les suivants :

Exemple : vous travaillez dans une compagnie d'assurance et vous disposez d'un ensemble de données sur vos clients et leurs véhicules. Vous supprimez simplement les identifiants personnels, c'est-à-dire leur nom. Mais, étant donné que la combinaison des autres valeurs est unique (type de véhicule, marque, âge du véhicule, couleur), vous êtes en mesure d'identifier directement chacun de vos clients, même sans leur nom.

Exemple : dans le jeu de données d'une agence de recrutement, les clients et leur salaire, ainsi que d'autres informations, sont répertoriées. Dans une base de données distincte, accessible au public (par exemple LinkedIn), vous recueillez des informations telles que l'intitulé du poste, la ville et l'entreprise. Grâce à ces informations, vous êtes en mesure de relier chaque individu d'un ensemble de données à l'autre, ce qui vous permet d'obtenir de nouvelles informations, comme le salaire.

Exemple : une industrie pharmaceutique possède un jeu de données sur les personnes ayant participé à un essai clinique. Si vous savez qu'un individu particulier est un homme, et que tous les hommes de l'ensemble de données sont en surpoids, vous pouvez en déduire que cet individu spécifique est en surpoids, sans pour autant le distinguer.

Évaluation des risques d'invidualisation

La première famille de métriques que nous allons maintenant présenter vise à évaluer la protection d'un jeu de données contre les attaques d'individualisation. Ces attaques peuvent prendre différentes formes, ce qui nécessite différentes mesures complémentaires. Certaines mesures d'individualisation sont indépendantes du modèle et peuvent donc être utilisées sur n'importe quelle paire de jeux de données originaux et traités. D'autres métriques nécessitent de conserver temporairement un lien entre les individus originaux et traités.

Métriques agnostiques par rapport au modèle

Nous présentons maintenant deux métriques simples qui peuvent être utilisées sur des jeux de données traités par n'importe quelle technique. Ces métriques sont particulièrement utiles lorsqu'il s'agit de comparer les résultats de différentes approches.

Pour aller plus loin : nos métriques

Un jeu de données présentant un DTC et un CDR élevés garantira que le traitement qui a été appliqué aux données a modifié les caractéristiques des individus. Cependant, même si les avatars sont éloignés des originaux, il reste un risque que les individus originaux puissent être associés à leur homologue synthétique le plus similaire.

Chez Octopize, notre traitement génère des données synthétiques anonymisées. Nous avons développé des mesures supplémentaires, nous plaçant dans le pire des scénarios où un attaquant dispose à la fois des données originales et des données anonymes. Bien que peu probable en pratique, cette approche est recommandée par le CEPD. Le hidden rate et le local cloaking sont des métriques qui permettent ici de mesurer la protection des données contre les attaques d'individualisation basées sur la distance. Ces deux métriques nécessitent que le lien entre chaque individu et sa version synthétique soit disponible.

Pour illustrer ces métriques, regardons un exemple simplifié où une cohorte d'animaux (pourquoi pas ! ?) serait anonymisée (avec notre solution Avatar par exemple).

Avec les solutions d'anonymisation centrées sur l'individu, un individu synthétique est généré à partir d'un original. Le lien entre les originaux et les individus synthétiques peut être utilisé pour mesurer le niveau de protection contre les attaques basées sur la distance. Dans notre exemple, nous voyons que le chat roux a été anonymisé en tant que guépard alors que l'individu synthétique créé à partir du tigre est un chat noir.

Une attaque basée sur la distance suppose que la mise à l'écart peut être effectuée en associant un original à son individu synthétique le plus similaire. Dans notre exemple, un lien basé sur la distance associerait le chat roux au chat noir, le tigre au guépard et ainsi de suite.

Le Hidden Rate actuel mesure la probabilité qu'un attaquant commette une erreur lorsqu'il associe un individu à son individu synthétique le plus similaire. Dans cette illustration, nous voyons que la plupart des correspondances basées sur la distance ne sont pas correctes et que Hidden Rate est donc élevé, ce qui illustre une bonne protection contre les attaques de singularisation basées sur la distance.

Dans cette figure, nous illustrons comment le local cloaking est calculé pour un seul individu original, ici le chat roux. Grâce au lien que nous gardons temporairement, nous savons que l'individu synthétique réel généré à partir du chat roux est le guépard. Son local cloaking est le nombre d'individus synthétiques entre lui et le guépard. Dans cet exemple, il n'y a qu'un seul individu synthétique : le chat noir, ce qui signifie que le local cloaking du chat roux est de 1. Le même calcul est effectué pour tous les originaux.

Les quatre métriques que nous venons de voir fournissent une bonne couverture de la protection contre les attaques d'individualisation mais comme nous l'avons vu au début de cet article, il existe d'autres types d'attaques contre lesquelles les données personnelles doivent être protégées.

Évaluation des risques de type corrélation

Les métriques qui répondent au critère de corrélation répondent à un scénario d'attaque plus courant et plus probable.

L'attaquant dispose d'un jeu de données traitées et d'une base de données d'identification externe (par exemple, un registre des électeurs) contenant des informations communes avec les données traitées (par exemple, l'âge, le sexe, le code postal). Plus il y a d'informations en commun entre les deux bases de données, plus l'attaque sera efficace.

Taux de protection contre les corrélations

Le taux de protection contre les corrélations (Correlation Protection Rate) évalue le pourcentage d'individus qui ne seraient pas reliés avec succès à leur homologue synthétique si l'attaquant utilisait une source de données externe. Les variables sélectionnées comme étant communes aux deux bases de données doivent être susceptibles d'être trouvées dans une source de données externe. (Par exemple, l'age devrait être pris en compte alors que la  concentration_insuline_D2  ne devrait pas l'être). Pour couvrir le pire des scénarios, nous supposons que les mêmes individus sont présents dans les deux bases de données. En pratique, certains individus de la base de données anonymisée ne sont pas présents dans la source de données externe et vice versa. Cette métrique repose également sur le fait que le lien entre l'original et le synthétique est conservé temporairement. Ce lien est utilisé pour mesurer combien d'appariements sont incorrects.

Évaluation des risques de type inférence

Les métriques qui répondent au critère d'inférence répondent à un autre type d'attaque où l'attaquant cherche à déduire des informations supplémentaires sur un individu à partir des données anonymisées disponibles.

Comment cela se passe-t-il en pratique ?

Notre solution, Avatar, calcule toutes les métriques ci-dessus et plus encore. Nous nous donnons pour mission de générer des jeux de données anonymes avec un modèle entièrement explicable et des mesures de confidentialité concrètes qui nous permettent de mesurer le degré de protection.

Pour ce faire, il y a beaucoup de choses à prendre en considération et rendre un jeu de données anonyme ne doit pas être pris à la légère, il y a de nombreux pièges que l'on peut rencontrer qui pourraient mener à des fuite accidentelles d’informations. C'est pourquoi, en plus des mesures et de la garantie de confidentialité associée, nous produisons un rapport d'anonymisation qui décrit clairement les différentes mesures, ainsi que les critères d'évaluation qu'elles visent à mesurer, à l'instar de ce que nous avons exposé ci-dessus. Le rapport explique, en termes simples, toutes les mesures et présente des statistiques sur les jeux de données, avant et après l'anonymisation.

En pratique, l'anonymisation d'un jeu de données est toujours un compromis entre la garantie de la confidentialité et la préservation de l'utilité. Un jeu de données totalement aléatoire est privé, mais ne sert à rien.

Nous examinerons comment mesurer l'utilité d'un jeu de données, avant et après une anonymisation, dans un prochain article.

Intéressés par notre solution ? Contactez-nous !

Rédaction : Tom Crasset & Olivier Regnier-Coudert

Octopize présent au Summit AI for Health 2022 !

Octopize - Mimethik Data sera présent au Summit AI for Health 2022 !

Depuis 2018, AI for Health promeut et encourage les meilleures innovations, cas d'utilisation et collaborations de l'écosystème de la santé et de l'IA. Leur événement "Summit" ressemble des startups, des institutions publiques, des associations de patients, des professionnels de la santé, des entreprises tech, medtech et pharmaceutiques…

 

Chez Octopize - Mimethik Data, nous avons développé et breveté une méthode unique d’anonymisation des données personnelles, Avatar, dont la conformité a été attestée par la CNIL en juin 2020. Notre méthode est commercialisée sous forme de logiciel ou de service permettant de nouveaux usages de façon éthique et est déjà reconnue dans le secteur de la santé et dans d’autres verticales. 

Nous serons ravis de vous rencontrer à cette 5e édition 2022 :

PS : nous envisageons de mettre à disposition notre plateforme pour tester en live l’anonymisation par Octopize, je vous en dis plus bientôt !

Prenez RDV avec nous !

Nouvelle vidéo motion design !

Comment optimiser les usages de vos données personnelles avec les avatars ?

Aujourd’hui, les données personnelles constituent un facteur de risques et une opportunité mal maîtrisée par les organismes.

Découvrez comment la solution d'anonymisation des données personnelles Avatar, développée par Octopize, protège la confidentialité tout en libérant les usages secondaires des données : partage hors UE, valorisation, conservation, recherches...

Avatars, la révolution cachée derrière les jumeaux numériques

Fer de lance de l’industrie 4.0, les jumeaux numériques essaiment aujourd’hui dans le secteur de la santé. Dopé par l’épidémie de Covid-19, leur marché explose, tout comme les risques pesant sur le respect de la vie privée des individus à l’origine des données. Comment débrider le potentiel des jumeaux numériques sans transiger sur l’éthique ? Nous avons la solution : les avatars, une méthode d’anonymisation des données unique et évaluée avec succès par la CNIL. Impossibles, en pratique, à ré-identifier, les données avatarisées sortent du RGPD. Elles deviennent exploitables, partageables – même en dehors de l’Union européenne – et conservables sans limites, tout en garantissant la qualité du jeu de données initial. Notre différence vis-à-vis de la concurrence ? Nous prouvons tous ces points grâce à nos métriques. Une véritable révolution dans le contexte actuel du Health Data Hub. Et si demain, les avatars devenaient la norme ? 

 

« Houston, we’ve had a problem. » lance l’équipage d’Apollo 13, le 17 avril 1970.

A quelques encablures de la lune, une explosion vient de se produire à bord du vaisseau spatial. A des centaines de milliers de kilomètres de là, sur terre, les équipes de la NASA diagnostiquent et résolvent à distance le problème grâce à plusieurs simulateurs, sorte de « doubles numériques », synchronisés grâce au flux de données provenant de la navette. L’équipage rentre sain et sauf. Les ancêtres des jumeaux numériques sont nés. La NASA sera la première à les développer, mais il faudra attendre 30 ans pour que le concept de « digital twin » émerge.

 

Qu’est-ce qu’un « jumeau numérique » ?

En 2002, Michael Grieves est chercheur en PLM (Product Lifecycle Management) à l’Université du Michigan. Lors de la présentation d’un centre dédié à la gestion du cycle de vie des produits, il explique pour la première fois aux industriels présents la notion de « jumeau numérique » : une réplique digitale d’un objet ou d’un système physique. Il ne s’agit pas d’un modèle figé, mais d’un modèle dynamique, reproduisant ses besoins, son comportement et son évolution dans le temps. Comme pour Apollo 13, un lien viscéral rattache l’entité physique à son jumeau numérique : le flux de données circulant de l’un à l’autre.

Depuis, le concept de jumeau numérique a peu évolué. Il s’agit de répliquer un objet (un piston ou le moteur d’une voiture), un système (une centrale nucléaire ou une ville) ou un processus abstrait (un planning de production). Le concept s’applique aussi au vivant : une molécule, une cellule, un organe ou un patient, comme un médicament, un virus, une maladie ou une épidémie peuvent avoir leur jumeau numérique.

 

Les jumeaux numériques sont une évolution, plus qu’une révolution, combinant modélisation mathématique et simulation numérique.

 

Fruits de la croissance des nouvelles technologies (IoT, big data, IA, cloud, etc.) et de la puissance de calcul, les jumeaux numériques sont une évolution, plus qu’une révolution, combinant modélisation mathématique et simulation numérique. Les données entrantes, d’où qu’elles proviennent – réelles, synthétiques, collectées en temps réel à l’aide de capteurs ou via des bases de données préexistantes –, alimentent un modèle mathématique pour le paramétrer finement. Le modèle peut alors se transformer en cobaye numérique, sur lequel tester différents scénarios via des simulations, afin de prédire l’évolution du système réel.

Conception et cycle de vie des produits, automobile et aéronautique, production et distribution d’énergie, transports, smart building et urbanisme, les jumeaux numériques sont aujourd’hui l’un des piliers de l’industrie 4.0. Ils essaiment depuis peu dans d’autres secteurs, comme la logistique, et surtout, la santé. Selon une étude de MarketsandMarkets, le marché des jumeaux numériques pourrait passer de 3,1 milliards de dollars en 2020 à 48,2 milliards de dollars en 2026, soit une croissance spectaculaire de 58 %, due en partie à l’épidémie de Covid-19.

 

Les promesses des jumeaux numériques dans la santé, mythe ou réalité ?

En janvier dernier, au CES (Consumer electronics show) de Las Vegas, Dassault Systèmes a présenté sa dernière prouesse, le jumeau numérique d’un cœur humain, résultat de 7 années de développement. Alimenté par des données collectées auprès de centaines de médecins, chercheurs et industriels à travers le monde, il réplique non seulement l’anatomie du cœur, mais aussi son fonctionnement : circulation du courant électrique le long des nerfs, comportement des fibres musculaires, réaction à différents médicaments, etc. Progrès de l’imagerie médicale aidant, ce jumeau numérique est aisément personnalisable. Il faut moins d’une journée pour répliquer la morphologie et les pathologies du cœur d’un patient. 

Dassault Systèmes et ses concurrents planchent déjà sur d’autres organes, dont les poumons, le foie et bien sûr le cerveau, mais dont la réplique exacte est à ce jour hors de portée. Et pour cause ! Les neurobiologistes n’ont pas encore percé tous ses mystères. Le clone parfait du corps humain – modélisant anatomie, génétique, métabolisme, fonctions corporelles et pathologies – n’est donc pas pour tout de suite. Nul besoin cependant d’attendre des jumeaux numériques exhaustifs pour avancer à pas de géant. Les jumeaux numériques, même partiels, de certains organes, maladies ou couples patient/médicament – comme ceux développés par la start-up ExactCure – suffisent déjà à répondre à des problèmes précis.

 

Si les jumeaux numériques tiennent toutes leurs promesses, ils signeront in fine l’avènement de la médecine personnalisée.

 

Simuler  l’anatomie et le fonctionnement de notre corps aux échelles moléculaire, cellulaire, tissulaire et organique ; modéliser des implants sur-mesure ; simuler le vieillissement ou une maladie ; tester un médicament, un vaccin sur un malade ou une cohorte virtuels ; répéter et assister des interventions chirurgicales complexes ; monitorer les flux de patients dans les hôpitaux pour rationaliser les moyens humains et techniques : si les jumeaux numériques tiennent toutes leurs promesses, ils signeront in fine l’avènement de la médecine personnalisée.

Une étude publiée en juillet 2021 dans la revue Life Sciences, Society and Policy passe en revue les bénéfices socio-éthiques des jumeaux numériques dans les services de santé. Sur le podium, on retrouve la prévention et le traitement des maladies, puis la réduction des coûts pour certains établissements de santé, et enfin, un gain d’autonomie pour les patients – mieux informés, ils sont plus à même de prendre des décisions éclairées sur leur parcours de soin.  

 

Des risques à la hauteur des espoirs suscités

Néanmoins, il reste de nombreux obstacles à franchir avant d’atteindre cet eldorado de la santé publique. Le problème fondamental tient au nerf de la guerre des jumeaux numériques : les données de santé. Ces données personnelles extrêmement sensibles contiennent en effet des informations génétiques, biologiques, physiques ou liées au mode de vie. La même étude alerte sur le risque socio-éthique numéro 1 des jumeaux numériques, évoqué par tous les participants : la violation de la vie privée. 

 

Le problème fondamental tient au nerf de la guerre des jumeaux numériques : les données de santé. Ces données personnelles extrêmement sensibles contiennent en effet des informations génétiques, biologiques, physiques ou liées au mode de vie.

 

Si les jumeaux numériques sont détenus ou hébergés par des organismes privés, ces informations peuvent être utilisées à l’insu des patients, voire se retourner contre eux. L’exemple le plus simple : une banque ou une compagnie d’assurance y ayant accès pourrait refuser un prêt ou augmenter ses primes à une personne malade.

Ajoutons à cela les failles de sécurité. Si les jumeaux numériques se multiplient, les risques de perdre ou de se faire voler les données augmentent avec eux. Or, une fois que les données ont fuité, il est trop tard. Elles peuvent être utilisées par n’importe qui, n’importe comment. Un scénario catastrophe de plus en plus fréquent en France, où les cyberattaques contre les organismes de santé ont doublé en 2021. Le vol des données de l’Assurance-maladie, début 2022, concernant un demi-million de Français en est un exemple frappant.

 

Tous les bénéfices des jumeaux numériques se retrouvent donc conditionnés par la disponibilité et la qualité des données de santé.

 

Vient ensuite un autre risque : la faible qualité des données. En effet, les algorithmes d’IA s'entraînent sur les données biomédicales disponibles. Or, elles sont souvent hétérogènes, incomplètes et pas toujours fiables. Ceci pour plusieurs raisons : manque de standardisation, pression pour publier, biais, tradition de ne pas publier les échecs, etc. Qui dit mauvaises données, dit mauvais modèle et mauvaises simulations. 

Tous les bénéfices des jumeaux numériques se retrouvent donc conditionnés par la disponibilité et la qualité des données de santé. Or, elles sont extrêmement difficiles à récupérer et exploiter par les chercheurs, notamment en France, où leur usage est strictement limité par le RGPD (Règlement Général sur la Protection des Données) et la Loi Informatique et Libertés. Leur transfert en dehors de l’Union européenne est notamment interdit, un sujet particulièrement sensible dans le débat public actuel. Les affaires se succèdent d’ailleurs à un rythme effréné, de Google Analytics à Meta. Le gouvernement a même préféré ajourner sa demande d’autorisation auprès de la CNIL pour le Health Data Hub, le temps d’opérer la mue de ce projet de centralisation des données de santé.

 

Les avatars pour débrider le potentiel de croissance des jumeaux numériques

Pour débrider le potentiel de croissance des jumeaux numériques, il existe pourtant déjà une solution proposée par Octopize - Mimethik Data, notre start-up deeptech. Nous avons en effet développé une méthode unique et brevetée d’anonymisation des données : les avatars. L’anonymisation des données n’est pas nouvelle et les méthodes ne cessent de se multiplier. Pourtant, la plupart ne fournissent pas la preuve de l’impossibilité de ré-identifier les patients, loin de là. Notre innovation de rupture, basée sur une nouvelle technique d’Intelligence Artificielle, permet, elle, d’exploiter et partager les données personnelles dans le respect absolu de la vie privée. A la différence de nos concurrents, nous pouvons prouver grâce à nos métriques l’efficacité de nos avatars aussi bien sur le respect de la vie privée que sur la qualité des données. Notre secret ? Un algorithme d’IA centré sur chaque patient, et non sur l’ensemble du jeu de données.

Pour chaque patient (soit chaque ligne de la base de données), nous utilisons un algorithme de KNN – méthode des plus proches voisins – pour identifier un certain nombre de données voisines. C’est à partir de ces données voisines que nous construisons notre modèle. A ce stade, le patient réel et ses données ont « disparu » – impossible de savoir s’ils sont dans le modèle ou non, seuls ses plus proches voisins le sont. Nous générons ensuite un avatar en utilisant un modèle pseudo-stochastique local, c’est-à-dire que nous introduisons un bruit aléatoire, donc non réversible, pour chaque attribut (soit chaque colonne de la base de données). Impossible de faire machine arrière, à chaque fois que nous relançons le modèle pour un même patient, nous créons un avatar différent. Voilà qui assure l’anonymisation, tout en conservant la granularité du jeu de données, les corrélations entre les individus et les distributions sur chaque variable. Mêmes courbes de Gauss, mêmes moyennes et mêmes écarts-types, à epsilon près.

 

Les données, une fois avatarisées, deviennent des données de synthèse, sans risque de ré-identification pour les patients. Elles sortent alors du RGPD et leur exploitation devient illimitée.

 

Les données, une fois avatarisées, deviennent des données de synthèse, sans risque de ré- identification pour les patients. Elles sortent alors du RGPD et leur exploitation devient illimitée. Elles sont conservables, exploitables, partageables et réutilisables sans contraintes géographiques, ni temporelles. D’ailleurs, la CNIL de ne s’y est pas trompée et a évalué avec succès notre méthode en 2020, attestant sa conformité vis-à-vis des trois critères sur l’anonymisation décrits dans l’avis du G29. Grâce aux avatars, exit le risque de violation de la vie privée inhérent aux jumeaux numériques.

Les avatars sont de plus facilement déployables et évolutifs. Paramétrables, ils s’adaptent à tous les besoins, de l’usage interne à l’open data. Autre avantage, les avatars résolvent aussi les problèmes de disponibilité et de biais des données de santé. A partir d’un jeu de données réelles, nous pouvons générer des jeux de données synthétiques plus larges que la base de données initiale, chaque individu pouvant donner lieu à plusieurs avatars. Nous pouvons ainsi amplifier une cohorte. In fine, nous proposons des jeux de données de santé étiquetés et « propres », prêts à l’usage, prêts à tous les usages.

 

Au-delà des jumeaux numériques, les avatars sont en eux-mêmes une révolution et pas seulement dans le domaine de la santé.

 

En réglant les problèmes de respect de la vie privée, de disponibilité et de qualité des données, l’avatarisation est donc une formidable opportunité de débrider le potentiel de croissance des jumeaux numériques. Mais au-delà, les avatars sont en eux-mêmes une révolution et pas seulement dans le domaine de la santé. Banque, assurance, télécom, industrie, énergie, tous les secteurs manipulant des données sensibles disposent désormais d’une solution clé en main. Octopize - Mimethik Data défend avec ses avatars un point de vue éthique au service de la création de valeur. Nous sommes intimement persuadés que l’avatarisation des données, innovation de rupture aujourd’hui, sera demain la nouvelle norme européenne.

 

15/05/2022© Octopize

Octopize, lauréat du concours i-Nov pour sa solution unique d’anonymisation des données personnelles : les avatars

Le Premier ministre a décidé d’attribuer une participation du Programme d’investissements d’avenir (P.I.A.), d’environ un demi-million d’euros, à la société Octopize dans le cadre de la 8ème vague du concours d’innovation i-Nov. Octopize concourrait dans la thématique Numérique Deep Tech. Son projet porte sur le déploiement de sa méthode disruptive d’anonymisation des données personnelles : les avatars.

Co-piloté par le Ministère de l’Economie, des Finances et de la Souveraineté industrielle et numérique et le Ministère de la Transition écologique et de la Cohésion des territoires, opéré par Bpifrance et l'ADEME, ce concours récompense les start-up et PME porteuses de projets d'innovation à fort potentiel pour l'économie française. Le Gouvernement souhaite ainsi accélérer le développement d'entreprises innovantes, à fort contenu technologique et à la pointe de la recherche. Le concours i-Nov favorise les entreprises leaders dans leur domaine et pouvant prétendre à une envergure mondiale. Octopize, start-up nantaise labellisée Deeptech, répond à ce double objectif d’innovation technologique et d’ambition européenne.

 

Les avatars, une révolution pour le marché des données personnelles

 

En effet, Octopize ambitionne de devenir le leader européen de l’anonymisation des données personnelles, grâce à une méthode unique et brevetée : les avatars. Cette innovation de rupture, basée sur une nouvelle technique d’Intelligence Artificielle, permet d’exploiter et partager les données personnelles dans le respect absolu de la vie privée. En 2020, la Commission nationale de l’informatique et des libertés (CNIL) a audité cette méthode avec succès et a attesté la conformité de la solution vis-à-vis des trois critères sur l’anonymisation décrits dans l’avis du G29

 

Les avatars transforment les données personnelles en données synthétiques anonymes et statistiquement pertinentes. En conservant la qualité et la structure des données originales, les résultats sont aisément reproductibles. D’autre part, les avatars sortent du Règlement Général sur la Protection des Données (RGPD). Ils deviennent ainsi exploitables, partageables (même en dehors de l’Union européenne) et conservables sans limite de durée. La différence vis-à-vis des solutions concurrentes ? Grâce à ses métriques, Octopize quantifie et prouve ainsi l’efficacité de ses avatars aussi bien sur le respect de la vie privée que sur la qualité des données. Les avatars deviennent des données multi-usages, multi-usagers et sans date de péremption, ne faisant plus courir de risque aux individus à l’origine des données.

 

À l’ère du big data, les avatars sont donc une révolution pour le marché des données personnelles. En effet, si la croissance exponentielle de la collecte des données personnelles offre un gisement de valeur incommensurable, tant pour les acteurs économiques que les services publics, elle s’accompagne de risques lourds, pesant sur la protection de vie privée des individus concernés. Preuve en est l’accumulation des affaires liées à l’hébergement ou le traitement des données personnelles européennes par des opérateurs américains : Google Analytics, Meta… Les avatars sont la solution pour exploiter et partager les données personnelles de manière éthique.

 

Les avatars, déjà utilisés dans le secteur de la santé

D’ailleurs, les clients d’Octopize ne s’y sont pas trompés. Les avatars sont déjà commercialisés dans un secteur collectant des données hautement sensibles : la santé. Des données tabulaires et des séries temporelles sont anonymisées via un logiciel ou du service. La Clinique des données, par exemple, rattachée au CHU de Nantes, exploite avec l’accord de la CNIL les données de ses patients grâce aux avatars. Il en va de même pour l’AP-HP, le CHU d'Angers, l’Inserm, SOS Médecins, le projet européen HAP2, le Health Data Hub ou encore avec des start-up comme Epidemium, EchOpen ou Samdoc, et avec des laboratoires pharmaceutiques comme illustré récemment avec Roche.

 

Les avatars ouvrent ainsi la voie à la revalorisation des données de santé. Ils débrident la recherche médicale et facilitent la science ouverte. La start-up Octopize est fière de contribuer à cet enjeu de santé publique vital, exacerbé par la crise sanitaire.

 

Et si demain, les avatars devenaient la norme dans l’Union européenne ?

 

Avec le financement i-Nov, Octopize accélérera la R&D pour étendre l’usage des avatars à des données complexes (textuelles, spatiales, etc.) et améliorer l’industrialisation de la méthode, afin de devenir le leader européen de l’anonymisation des données. La force de la méthode Octopize réside dans sa souplesse, qui permet de s’adapter à tous les besoins, de l’usage interne à l’open data, et dans sa robustesse, qui ouvre la voie à une large variété d’utilisations. La prochaine étape d’Octopize est déjà en marche et vise à conquérir de nouveaux marchés français et européens : banque, marketing, assurance, finance, mobilité, collectivités, etc.

 

Octopize prône un changement radical dans l’utilisation des données au service de tous et respectueux de chacun : réservons les données personnelles aux usages personnels et utilisons les avatars pour tous les autres usages. Et si demain, les avatars devenaient la norme au sein de l’Union européenne ?

 

Avec Octopize, exploitons la valeur des données au service de tous, dans le respect de chacun.

 

À propos d’Octopize

Octopize – Mimethik Data est une startup Deeptech nantaise qui ambitionne de devenir le leader européen de l’anonymisation. Elle a développé et breveté une méthode unique d’anonymisation des données personnelles, dont la conformité est attestée par la CNIL en juin 2020 : les avatars. La méthode est commercialisée sous forme de logiciel ou de service permettant de nouveaux usages de façon éthique. Elle est déjà reconnue dans le secteur de la santé et dans d’autres verticales. La startup compte une dizaine de personnes. En septembre 2021, Octopize a réalisé une levée de fonds de 1,5 million d’euros auprès de plusieurs investisseurs en capital-risque, Bpifrance et des Business Angels. Lauréate 2022 du concours i-Nov, sur décision du Premier ministre, elle s’ouvre à d’autres secteurs économiques et confirme son ambition.

Pour en savoir plus : https://octopize-md.com/ 

Fondateur : Olivier BREILLACQ – linkedin.com/in/olivier-breillacq 

Contact presse : contact@octopize.io 

 

À propos du Concours i-Nov

Lancé en 2017 et co-piloté par le ministère de la Transition écologique et le ministère de l'Économie, des Finances et de la Relance, le concours i-Nov compte déjà plus de 400 lauréats. Il s'inscrit dans le continuum du « Concours d'innovation », se déclinant autour de 3 volets complémentaires : i-PhD, i-Lab et i-Nov. Le concours d'innovation marque un engagement de l’État via des financements, une labellisation et une communication renforcée, permettant de soutenir le développement d'entreprises fortement innovantes et technologiques. En amont, les concours i-PhD et i-Lab visent à encourager l'émergence et la création de start-up Deeptech, nées des avancées de la recherche de pointe française. En aval, le concours i-Nov soutient les projets de développement innovants portés par des start-up et des P.M.E.. Ce concours est financé par l’État via le Programme d'investissements d'avenir (P.I.A.) dans le cadre de France 2030. Il mobilise jusqu'à 80 millions par an autour de thématiques comme la révolution numérique, la transition écologique et énergétique, la santé ou la sécurité. Il est opéré par Bpifrance et l'ADEME. Pour les lauréats, c'est une opportunité d'obtenir un cofinancement de leur projet de recherche, de développement et d'innovation, dont les coûts totaux se situent entre 600 000 et 5 millions d'euros. À la clé, une aide financière jusqu'à 45 % du coût du projet sous forme de subventions et avances récupérables.

Pour en savoir plus : https://www.gouvernement.fr/investissements-d-avenir-lancement-de-la-8eme-vague-du-volet-i-nov-du-concours-d-innovation 

 

À propos du Programme d'Investissements d'Avenir (P.I.A.)

Engagé depuis 10 ans et piloté par le Secrétariat général pour l'investissement auprès du Premier ministre, le P.I.A. finance des projets innovants, contribuant à la transformation du pays, à une croissance durable et à la création des emplois de demain. De l'émergence d'une idée jusqu'à la diffusion d'un produit ou service nouveau, le P.I.A. soutient tout le cycle de vie de l'innovation, entre secteurs publics et privés, aux côtés de partenaires économiques, académiques, territoriaux et européens. Ces investissements reposent sur une doctrine exigeante, des procédures sélectives ouvertes, et des principes de cofinancement ou de retour sur investissement pour l’État. Le quatrième P.I.A. (P.I.A.4) est doté de 20 milliards d'euros d'engagements sur la période 2021-2025, dont 11 milliards d'euros contribueront à soutenir des projets innovants dans le cadre du plan France Relance. 

Pour en savoir plus : https://www.gouvernement.fr/le-programme-d-investissements-d-avenir

 

À propos de Bpifrance

Bpifrance finance les entreprises à chaque étape de leur développement en crédit, en garantie et en fonds propres. Bpifrance les accompagne dans leurs projets d'innovation et à l'international. Bpifrance assure aussi désormais leur activité export à travers une large gamme de produits. Conseil, université, mise en réseau et programme d'accélération à destination des start-up, des PME et des ETI font également partie de l'offre proposée aux entrepreneurs. Grâce à Bpifrance et ses 50 implantations régionales, les entrepreneurs bénéficient d'un interlocuteur proche, unique et efficace pour les accompagner et faire face à leurs défis.

Pour en savoir plus : https://www.bpifrance.fr

Quels critères permettent de considérer une donnée comme véritablement anonyme  ?

Comment mesurer l’anonymat d’une base de données  ?

À l’ère du Big Data, les données personnelles constituent une matière première incontournable pour le développement de la recherche et le fonctionnement de quantité d’entreprises. Cependant, malgré leur grande valeur, l’utilisation de ce type de données implique nécessairement un risque de ré-identification et de fuite d’informations sensibles même en ayant suivi un traitement de pseudonymisation préalable (voir article 1). Dans le cas de données personnelles, a fortiori sensibles, le risque de ré-identification peut être considéré comme une trahison de la confiance des individus à l’origine des données, d’autant plus quand elles sont utilisées sans consentement clair et éclairé.  

 

La mise en vigueur du Règlement général sur la protection des données (RGPD) en 2018 et de la Loi informatique et libertés avant lui a offert une tentative de réponse à cette problématique en initiant un changement dans les pratiques de collecte, traitement et stockage des données personnelles. Un groupe de réflexion indépendant et spécialisé dans les questions de protection de la vie privée a également été mis en place. Appelé Comité européen de la protection des données (CEPD) ou anciennement G29, cet organe consultatif a publié des travaux (ref Article G29) qui servent aujourd’hui de références aux autorités nationales européennes (CNIL en France) dans l’application du RGPD. 

 

Le CEPD convient ainsi du potentiel de l’anonymisation pour valoriser les données personnelles tout en limitant les risques pour les individus qui en sont l’origine. Pour rappel, des données sont considérées comme anonymes si la ré-identification des individus d’origine est impossible. Il s’agit donc d’un processus irréversible. Les méthodes d’anonymisation développées pour répondre à ce besoin ne sont toutefois pas infaillibles et leur efficacité dépend souvent de nombreux paramètres (voir article 2). Pour utiliser ces méthodes de façon optimale, il est nécessaire d’apporter une précision supplémentaire sur la nature des données anonymes. Le CEPD, dans son Avis du 05/2014 sur les techniques d’anonymisation, identifie trois critères pour déterminer l’impossibilité de ré-identification ; à savoir :  

 

  1. Individualisation : est-il toujours possible d’isoler un individu ? 

 Le critère d’individualisation correspond au scenario le plus favorable pour un attaquant, c’est-à-dire une personne, malveillante ou non, cherchant à ré-identifier un individu dans un jeu de données. Pour être considéré anonyme, un jeu de données ne doit pas permettre à un attaquant d’isoler un individu cible. En pratique, plus un attaquant possède d’informations sur l’individu qu’il souhaite isoler dans une base, plus les probabilités de ré-identification sont élevées. En effet, dans un jeu de données pseudonymisé, c’est-à-dire débarrassé de ses identifiants directs, les informations quasi-identifiantes restantes agissent comme un code barre de l’identité d’un individu quand elles sont considérées ensemble. Ainsi plus l’attaquant a d’informations préalables sur l’individu qu’il cherche à identifier, plus il peut réaliser une requête précise pour tenter d’isoler cet individu. Un exemple d’attaque par individualisation est représenté Figure 1. 

Ré-identification d’un patient par individualisation dans un jeu de données sur la base de deux attributs (Age, Gender) 

Figure 1 : Ré-identification d’un patient par individualisation dans un jeu de données sur la base de deux attributs (Age, Gender) 

 

L’un des attributs de ce type d’attaque réside également dans la sensibilité accrue des individus présentant des caractéristiques peu communes. Il sera en effet plus aisé pour un attaquant, ne disposant que des informations sur le sexe et la taille, d’isoler une femme mesurant 2 mètres qu’un homme mesurant 1 mètre 75.  

 

2. Corrélation : est-il toujours possible de relier entre eux les enregistrements relatifs à un individu ? 

 Les attaques par corrélation correspondent au scénario le plus fréquent. Aussi, pour considérer des données comme anonymes, il est primordial que celles-ci satisfassent le critère de corrélation. Entre la démocratisation de l’Open Data et les nombreux incidents liés à des fuites de données personnelles, la quantité de données disponibles n’a jamais été aussi conséquente. Ces bases regroupant des informations personnelles parfois directement identifiantes, sont autant d’opportunités pour les attaquants de réaliser des tentatives de ré-identification par croisement. En pratique, les attaques par corrélation utilisent des bases directement-identifiantes possédant des informations similaires à la base à attaquer comme illustré Figure 2.  

 

Illustration d’une attaque par corrélation

Figure 2 : Illustration d’une attaque par corrélation. La base extérieure directement identifiante (en haut) est utilisée pour ré-identifier des individus dans la base attaquée (en bas). La corrélation se fait sur la base des variables communes. 

Dans le cas de tableaux illustrées dans la Figure 2, l’attaquant aurait réussi à ré-identifier les 5 individus de la base pseudonymisée grâce aux deux attributs communs aux deux bases. De plus, la ré-identification lui aurait permis d’inférer une nouvelle information sensible à propos des patients, à savoir la pathologie qui les affecte. Dans ce contexte, plus les bases possèdent d’informations communes, plus la probabilité de ré-identifier un individu par corrélation augmente. 

 

3. Inférence : peut-on déduire des informations concernant un individu ? 

 Enfin, troisième et dernier critère identifié par le CEPD est probablement le plus complexe à évaluer. Il s’agit du critère d’inférence. Pour considérer des données comme anonymes, il doit être impossible d’identifier par déduction, de façon quasi certaine, de nouvelles informations sur un individu. À titre d’exemple, si un jeu de données contient des informations sur l’état de santé d’individus ayant participé à une étude clinique et que tous les hommes de plus de 65 ans de cette cohorte sont atteints d’un cancer du poumon ; alors il sera possible de déduire l’état de santé de certains participants. En effet il suffit de connaitre un homme de plus de 65 ans ayant participé à cette étude pour affirmer que celui-ci est atteint d’un cancer du poumon. 

L’attaque par inférence est particulièrement efficace sur les groupes d’individus partageant une modalité unique. En cas de réussite de l’inférence, la divulgation de l’attribut sensible concerne alors l’ensemble du groupe d’individus identifiés. 

 

Ces trois critères identifiés par le CEPD réunissent la majorité des menaces d’attaques pesant sur les données après avoir subis un traitement visant à préserver leur sécurité. En cas de satisfaction de ces trois critères, le traitement peut alors être considéré comme une anonymisation au sens propre du terme. 

 

Les techniques actuelles permettent-elles de satisfaire les trois critères  ? 

 Les techniques de randomisation et de généralisation présentent chacune des avantages et des inconvénients vis-à-vis de chaque critère (voir article 2). L’évaluation de la performance du respect des critères pour plusieurs techniques d’anonymisation est représentée Figure 3. Elle est issue de l’Avis publié par l’ex G29 sur les techniques d’anonymisation.

 

Forces et faiblesses des techniques considérées - OCTOPIZE

Figure 3 : Forces et faiblesses des techniques considérées 

 

Il apparait clairement qu’il n’existe parmi ces techniques, aucune permettant de respecter les 3 critères simultanément. Elles doivent donc être utilisées avec prudence dans leur contexte d’usage le plus propice. Au-delà des méthodes évaluées, les données synthétiques semblent être une alternative prometteuse permettant de satisfaire l’intégralité des 3 critères. Cependant, les méthodologies permettant de produire des données synthétiques doivent se confronter à la difficulté d’apporter la preuve de cette protection. À l’heure actuelle, toutes les solutions de génération de données de synthèse se reposent sur le principe de plausible deniability pour prouver la protection associée à une donnée. En d’autres termes si une donnée synthétique venait par hasard à ressembler à une donnée originale, la défense consiste à annoncer qu’en de telles circonstances, il est impossible d’apporter la preuve que cette donnée synthétique est liée à une donnée originale. Chez Octopize, nous avons développé une méthodologie unique permettant de produire des données synthétiques tout en quantifiant et apportant la preuve de la protection apportée. Cette évaluation est réalisée par le biais de métriques développées spécialement pour mesurer la satisfaction des critères, à savoir vous l’aurez compris, l’individualisation, la corrélation et l’inférence. Nous développerons le sujet des métriques d’évaluation de la qualité et de la sécurité des données synthétiques plus en détail dans un autre article. 

Octopize, expert de l’anonymisation de données, lève 1,5 M€ pour accélérer son développement.

Octopize, expert de l’anonymisation de données, annonce avoir bouclé une levée de fonds de 1,5 million d’euros menée par Pays de la Loire Développement (géré par Sodero Gestion), Pays de la Loire Participations, Atlantique Vendée Innovation (Crédit Agricole Atlantique Vendée), avec la participation de Bpifrance et de business angels.

Déjà commercialisée dans la verticale de la santé, Octopize confirme son ambition avec sa solution d’avatarisation basée sur l’intelligence artificielle : devenir le leader européen des données synthétiques. Les avatars sont des données de synthèse issues des individus et qui permettent de « partager sans dévoiler et donc d’exploiter de façon éthique ». Ils représentent une innovation de rupture assurant confidentialité et exploitation des données sensibles.

Un marché en expansion

À l’heure du Big Data, le volume des données personnelles ne cesse de croître et offre un gisement de valeur pour les acteurs économiques qui souhaitent les valoriser. L’avatarisation est une solution éthique qui permet l’exploitation de nouveaux usages de la donnée personnelle pour lesquels on doit assurer la confidentialité des individus. Ces usages sont nombreux : exploitation de données (analyse, recherche en vue d’innovation, environnement de test), partage (avec des tiers, envoi hors UE, open data) et conservation des données illimitée dans le temps contrairement aux données personnelles. Les avatars deviennent des données multi-usages, multi-usagers, et sans date de péremption.

Octopize bénéficie déjà d’une reconnaissance dans la verticale de la santé. La solution est commercialisée chez plusieurs industriels de la pharma, et également au CHU de Nantes ou encore à l’APHP. Octopize travaille aussi avec SOS Médecins et est partenaire du projet européen HAP2 (www.hap2-project.com) programme Horizon 2020.

Cap vers des données éthiques au service de tous et respectueuses de chacun

Aujourd’hui, le traitement des données personnelles implique un partage de données au détriment de leur confidentialité ou de leur qualité. Octopize résout ce paradoxe en affirmant qu’il faut réserver les données personnelles aux usages personnels et utiliser des données synthétiques dites « avatars » pour tous les autres usages. Les avatars permettent de ne pas faire de compromis entre la confidentialité due aux individus et la qualité statistique nécessaire à l’exploitation. L’impossibilité de ré-identification des individus est assurée avec les avatars, des données anonymes qui miment les données personnelles de façon éthique, des données “mimethik”. L’algorithme a été audité en juin 2020 avec succès par la CNIL (l'autorité française de protection des données).

Les avatars sont une nouvelle forme de données qui, n’étant plus des données personnelles en tant que telles, sortent du champ d’application du RGPD et ouvrent de nombreuses perspectives d’exploitation. Les avatars conservent tout le potentiel de la valeur de la donnée et assurent la reproductibilité dans le cadre d’analyses. Grâce à l’innovation d'Octopize, il n’y a plus aucune justification de faire prendre un risque de ré-identification aux individus, patients, clients, fournisseurs.

Les investisseurs

Octopize a retenu : Pays de la Loire Développement (géré par Sodero Gestion), Pays de la Loire Participations, Atlantique Vendée Innovation (Crédit Agricole Atlantique Vendée), Bpifrance et des business angels dans le cadre d’un financement global de 1,5M€. Grâce à cet apport, Octopize confirme son ambition de devenir le leader européen des données synthétiques.

Avec Octopize, exploitons vos données au service de tous, dans le respect de chacun.

À propos d'Octopize

Octopize – Mimethik Data, startup nantaise, labélisée Deeptech par BPI, accompagnée par Atlanpole, membre d’Atlanpole Biothérapies et lauréat de réseau Entreprendre Atlantique. La startup compte une dizaine de personnes et est composée d’un conseil scientifique présidé par le Pr. Gourraud (Université de Nantes et CHU de Nantes). La méthode est commercialisée sous forme de logiciel (on premise) ou de revente d’avatars à la ligne (mimethik data) permettant de nouveaux usages de façon éthique.

Pour plus d’informations : https://octopize-md.com/
Fondateur : Olivier BREILLACQ – 07 69 14 11 35 – contact@octopize-md.com

Quelles techniques d'anonymisation pour protéger vos données personnelles ?

Quelles sont les différentes techniques d’anonymisation ?

Après avoir différencié les concepts d’anonymisation et de pseudonymisation dans un précédent article, il est important pour l’équipe d'Octopize de faire un état des lieux des différentes techniques existantes d’anonymisation des données personnelles.

Les techniques d’anonymisation

Avant de parler anonymisation des données, notons qu’il est nécessaire en premier lieu de procéder à une pseudonymisation afin de retirer tout caractère directement identifiant du jeu de données : c’est une première étape de sécurité indispensable. Les techniques d’anonymisation permettent de prendre en charges les attributs quasi identifiants. En les combinant à une étape de pseudonymisation préalable, on s’assure de prendre en charge les identifiants directs et ainsi protéger l’intégralité des informations personnelles liées à un individu.

Ensuite, pour rappel, l’anonymisation consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Cette technique a un caractère irréversible qui implique que les données anonymisées ne soient plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD.

Pour caractériser l’anonymisation, le CEPD (Comité Européen de la Protection des Données), anciennement le groupe de travail G29, a énoncé 3 critères à respecter, à savoir :

Le CEPD défini ensuite deux grandes familles de techniques d’anonymisation à savoir la randomisation et la généralisation.

RANDOMISATION GENERALISATION
La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale.

 

Cette technique permet de protéger le jeu de données du risque dinférence. Dans les techniques de randomisation, on peut par exemple citer l’ajout de bruit, la permutation et la confidentialité différentielle.

Situation de randomisation : permuter des données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.

La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes.

 

Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres. Dans les techniques de généralisation, on peut par exemple citer l’agrégation, le k-anonymat, le l-diversité ou encore le t-proximité.

Situation de généralisation : dans un fichier contenant la date de naissance des personnes, le fait de remplacer cette information par la seule année de naissance.

Ces différentes techniques permettent de répondre à certains enjeux avec leur lot d’avantages et d’inconvénients. Nous détaillerons ainsi le principe de fonctionnement de ces différentes méthodes et exposeront par le biais d’exemples factuels, les limites auxquelles elles sont soumises.

Quelle technique utiliser et pourquoi ?

Chacune des techniques d’anonymisation peut être appropriée, selon les circonstances et le contexte, pour atteindre la finalité souhaitée sans compromettre le droit des personnes concernées au respect de leur vie privée.

La famille randomisation :

1- L’ajout de bruit :

Principe : Modification des attributs de l’ensemble des données pour les rendre moins précis. Exemple : à la suite d’une anonymisation par ajout de bruit, l’âge des patients est modifié de plus ou moins 5 ans.

Points forts :

Points faibles :

Erreurs courantes :

Échec d’utilisation :

Cas Netflix :

Dans le cas Netflix, la base de données initiale avait été rendue publique « anonymisée » conformément à la politique interne de l’entreprise en matière de confidentialité (en supprimant toutes les informations d’identification des utilisateurs hormis les évaluations et les dates).

Dans ce cas, il a été possible de réidentifier 68% des utilisateurs Netflix grâce à une base de données externe à celle-ci, par croisement. Les utilisateurs ont été identifiés de manière unique dans l’ensemble de données en prenant comme critères de sélection 8 évaluations et des dates comportant une marge d’erreur de 14 jours.

2- La permutation:

Principe : Consiste à mélanger les valeurs des attributs dans un tableau de telle sorte que certaines d’entre elles sont artificiellement liées à des personnes concernées différentes. La permutation altère donc les valeurs au sein de l’ensemble de données en les échangeant simplement d’un enregistrement à un autre. Exemple : à la suite d’une anonymisation par permutation, l’âge du patient A a été remplacé par celui du patient J.

Points forts :

Point faible :

Erreurs courantes :

Échec d’utilisation : la permutation d’attributs corrélés

Dans l’exemple suivant, nous pouvons voir qu’intuitivement, nous allons chercher à relier les salaires avec les métiers selon les corrélations qui nous semblent logiques (voir flèche).

Ainsi, la permutation aléatoire des attributs n’offre pas de garanties de confidentialité quand il existe des liens logiques entre différents attributs.

tableau1_article2

Tableau 1. Exemple d’anonymisation inefficace par permutation d’attributs corrélés

3- La confidentialité différentielle :

Principe : La confidentialité différentielle, ou Differential Privacy, consiste en la production d’aperçus anonymisés d’un ensemble de données tout en conservant une copie des données originales.

L’aperçu anonymisé est généré à la suite de la requête effectuée par un tiers sur la base de données et dont le résultat sera associé à un ajout de bruit. Pour être considéré « differencially private », la présence ou l’absence d’un individu particulier dans la requête ne doit pas pouvoir changer son résultat.

Point fort :

Points faibles :

Erreurs courantes :

Échecs d’utilisation :

La famille généralisation :

1- Agrégation et k-anonymat:

Principe : Généralisation des valeurs des attributs dans une mesure telle que tous les individus partagent la même valeur. Ces deux techniques visent à empêcher qu’une personne concernée puisse être isolée en la regroupant avec, au moins, k autres individus. Exemple : pour qu’il y ait au moins 20 individus partageant la même valeur, l’âge de tous patients entre 20 et 25 ans est ramené à 23 ans.

Point fort :

Points faibles :

Erreurs courantes :

 

Échec d’utilisation :

Le principal problème lié au k-anonymat est qu’il n’empêche pas les attaques par inférence. Dans l’exemple qui suit, si l’attaquant sait qu’un individu figure dans l’ensemble de données et est né en 1964, il sait aussi que cet individu a fait une crise cardiaque. De plus, si l’on sait que cet ensemble de données a été obtenu auprès d’une organisation française, on peut en déduire que chacun des individus réside à Paris puisque les trois premiers chiffres des codes postaux sont 750*).

table2_article2

Tableau 2. Un exemple de k-anonymisation mal conçue

Pour combler les défauts du k-anonymat, d’autres techniques d’agrégation ont été développées, notamment la L-diversité et la T-proximité. Ces deux techniques affinent le k-anonymat en veillant à ce que chacune des classes ait L valeurs différentes (l-diversité) et que les classes créées ressemblent à la distribution initiale des données.

A noter que malgré ces améliorations, cela ne permet pas de s’advenir quant aux faiblesses principales du k-anonymat présentées ci-dessus.

Ainsi, ces différentes techniques de généralisation et de randomisation ont chacune des avantages de sécurité mais ne répondent pas toujours totalement aux 3 critères énoncés par le CEPD, ancien G29 comme le montre le tableau 3 « Forces et faiblesses des techniques considérées réalisé par la CNIL.

Tableau comparatif des méthodes d'anonymisation _ CNIL

Tableau 3. Forces et faiblesses des techniques considérées

Issues de techniques d’anonymisation plus récentes, les données synthétiques apparaissent aujourd’hui comme de meilleures solutions d’anonymisation.

Cas des données synthétiques

Les dernières années de recherche ont vu l’émergence de solutions permettant la génération d’enregistrements synthétiques assurant une forte rétention de la pertinence statistique et facilitant la reproductibilité des résultats scientifiques. Elles reposent sur la création des modèles permettant de comprendre et reproduire la structure globale des données d’origines. On distingue notamment les réseaux neuronaux adversaires (GAN) et des méthodes reposant sur des distributions conditionnelles.

Point fort :

Point faible :

La solution d’anonymisation Avatar, développée par OCTOPIZE, utilise une approche conceptuelle unique, centrée sur le patient, permettant la création de données synthétiques protégées et pertinentes tout en apportant la preuve de leur protection. Sa conformité a été démontrée par la CNIL sur les 3 critères du CEPD. Cliquez ici pour en savoir plus sur les avatars.

Évolution rapide des techniques

Enfin, la CNIL (Commission Nationale de l'Informatique et des Libertés) rappelle qu’étant donné que les techniques d’anonymisation et de réidentification sont amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles et les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

La CNIL souligne que les recherches en matière de techniques d’anonymisation se poursuivent et font apparaître définitivement qu’aucune technique n’est, en soi, infaillible.

Sources :

https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf

https://edpb.europa.eu/edpb_fr

Lien Membership Inference Attacks : https://arxiv.org/pdf/1807.09173.pdf

Lien Netflix : https://arxiv.org/PS_cache/cs/pdf/0610/0610105v2.pdf

Vos données sont-elles pseudonymisées ou anonymisées ?

Quelle différence entre anonymisation et pseudonymisation ?

La notion de données anonymes cristallise un grand nombre d’incompréhension et de fausses idées au point que le terme « anonyme » n’ait pas la même signification selon la personne qui l’emploie.
Pour rétablir le consensus, l’équipe d'Octopize a souhaité évoquer les différences entre pseudonymisation et anonymisation, deux notions souvent confondues.
Au premier abord, le terme « anonymisation » évoque la notion de masque, de dissimulation. On s’imagine alors que le principe d’anonymisation revient à masquer les attributs directement identifiants d’un individu (nom, prénom, numéro de sécu). Ce raccourci constitue justement le piège à éviter. En effet, le masquage de ces paramètres constitue plutôt une pseudonymisation.
A première vue semblables, ces deux notions impliquent pourtant de grandes différences, tant du point de vue juridique que de la sécurité.

Qu’est-ce que la pseudonymisation ?

Selon la CNIL, la pseudonymisation est un « traitement de données personnelles réalisé de manière qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire ». Elle constitue une des mesures recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles.

Mais la pseudonymisation n’est pas une méthode d’anonymisation. La pseudonymisation réduit simplement la corrélation d’un ensemble de données avec l’identité originale d’une personne concernée et constitue par conséquent une mesure de sécurité utile mais non absolue. En effet, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom...) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.) empêchant ainsi la réidentification directe des individus.

La pseudonymisation ne constitue toutefois pas une protection infaillible car l’identité d’un individu peut également être déduite à partir d’une combinaison de plusieurs informations appelée quasi identifiants. Ainsi, en pratique, des données pseudonymisées restent potentiellement réidentifiantes indirectement par croisement d’informations. L’identité de l’individu peut être trahie par une de ses caractéristiques indirectement identifiantes. Cette transformation est donc réversible, justifiant le fait que des données pseudonymisées soient toujours considérées comme des données personnelles. À ce jour, les techniques de pseudonymisation les plus utilisées reposent sur des systèmes cryptographiques à clé secrète, des fonctions de hachage, du chiffrement déterministe ou encore de la Tokenization.

L’« affaire AOL (America  On  Line)» illustre de manière typique le malentendu qui existe entre la pseudonymisation et l’anonymisation. En 2006, une base de données contenant vingt millions de mots-clés figurant dans les recherches effectuées par plus de 650000 utilisateurs au cours d’une période de 3 mois a été diffusée publiquement, sans autre mesure destinée à préserver la vie privée que le remplacement de l’identifiant d’utilisateur AOL par un attribut numérique (pseudonymisation).
Malgré ce traitement, l’identité et la localisation de certains utilisateurs ont été rendues publiques. En effet, les requêtes transmises à un moteur de recherches, surtout si elles peuvent être couplées avec d’autres attributs, comme les adresses IP ou d’autres paramètres de configuration, ont un potentiel d’identification très élevé.

Cet incident ne constitue qu’un exemple parmi les nombreux écueils montrant qu’un ensemble de données pseudonymisées n’est pas anonyme ; le simple fait de modifier l’identité n’empêche pas un individu d’être ré-identifié à partir d’informations quasi identifiantes (âge, sexe, code postal). Dans bien des cas, il peut se révéler aussi facile d’identifier un individu dans un ensemble de données pseudonymisées qu’à partir des données originales (jeu du « Qui est ce ? »).

Quelle différence avec l’anonymisation ?

L’anonymisation, elle, consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Ce traitement a un caractère irréversible qui implique que les données anonymisées ne sont plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD. Pour caractériser l’anonymisation, le Comité Européen de la Protection des Données (ex G29) se base sur les 3 critères énoncés dans l’avis du 05/2014 (source en pied de page) :

- Individualisation :  les données anonymes ne doivent pas permettre de distinguer un individu. De ce fait, même en disposant de l’ensemble des informations quasi identifiantes relatives à un individu, il doit être impossible de distinguer celui-ci dans une base une fois anonymisé.

- Corrélation :  les données anonymes ne doivent pouvoir être ré-identifiées en les croisant avec d’autres jeux de données. Ainsi il doit être impossible de relier deux ensembles de données provenant de sources différentes concernant le même individu. Une fois anonymisées, les données de santé d’un individu ne doivent pas pouvoir être reliées à ses données bancaires sur la base d’informations communes.

- Inférence : les données ne doivent pas permettre de déduire de l’information additionnelle sur un individu de façon raisonnable. Il doit être par exemple impossible de déterminer avec certitude l’état de santé d’un individu à partir de données anonymes.

C’est lorsque ces trois critères sont respectés que des données sont considérées comme anonymes à proprement parlé. Elles changent alors de statut juridique : elles ne sont plus considérées comme des données personnelles et sortent du cadre du RGPD.

Notre solution : Avatar

Il existe à ce jour plusieurs familles de méthodes d’anonymisation que nous détaillerons dans notre prochain article. Pour la plupart, ces méthodes apportent la protection en dégradant la qualité, la structure ou la finesse des données d’origine, limitant ainsi la valeur informative de ces données après traitement. Le véritable défi consiste à résoudre le paradoxe entre la protection légitime des données de chacun, et leur exploitation dans l’intérêt de tous.

La méthode d’anonymisation Avatar, développée par Octopize, est une méthode d’anonymisation unique. Elle résout le paradoxe entre la protection des données personnelles des patients et le partage de ces données pour leur valeur informative. En effet, la solution Avatar, qui a été évaluée avec succès par la CNIL, permet grâce à des données de synthèse d’assurer d’une part la confidentialité des données d’origine (et donc leur partage sans risque) et d’autre part, de conserver la valeur informative des données d’origine.

Cliquez ici pour en savoir plus.

Sources :