Avatars, la révolution cachée derrière les jumeaux numériques

Fer de lance de l’industrie 4.0, les jumeaux numériques essaiment aujourd’hui dans le secteur de la santé. Dopé par l’épidémie de Covid-19, leur marché explose, tout comme les risques pesant sur le respect de la vie privée des individus à l’origine des données. Comment débrider le potentiel des jumeaux numériques sans transiger sur l’éthique ? Nous avons la solution : les avatars, une méthode d’anonymisation des données unique et évaluée avec succès par la CNIL. Impossibles, en pratique, à ré-identifier, les données avatarisées sortent du RGPD. Elles deviennent exploitables, partageables – même en dehors de l’Union européenne – et conservables sans limites, tout en garantissant la qualité du jeu de données initial. Notre différence vis-à-vis de la concurrence ? Nous prouvons tous ces points grâce à nos métriques. Une véritable révolution dans le contexte actuel du Health Data Hub. Et si demain, les avatars devenaient la norme ? 

 

« Houston, we’ve had a problem. » lance l’équipage d’Apollo 13, le 17 avril 1970.

A quelques encablures de la lune, une explosion vient de se produire à bord du vaisseau spatial. A des centaines de milliers de kilomètres de là, sur terre, les équipes de la NASA diagnostiquent et résolvent à distance le problème grâce à plusieurs simulateurs, sorte de « doubles numériques », synchronisés grâce au flux de données provenant de la navette. L’équipage rentre sain et sauf. Les ancêtres des jumeaux numériques sont nés. La NASA sera la première à les développer, mais il faudra attendre 30 ans pour que le concept de « digital twin » émerge.

 

Qu’est-ce qu’un « jumeau numérique » ?

En 2002, Michael Grieves est chercheur en PLM (Product Lifecycle Management) à l’Université du Michigan. Lors de la présentation d’un centre dédié à la gestion du cycle de vie des produits, il explique pour la première fois aux industriels présents la notion de « jumeau numérique » : une réplique digitale d’un objet ou d’un système physique. Il ne s’agit pas d’un modèle figé, mais d’un modèle dynamique, reproduisant ses besoins, son comportement et son évolution dans le temps. Comme pour Apollo 13, un lien viscéral rattache l’entité physique à son jumeau numérique : le flux de données circulant de l’un à l’autre.

Depuis, le concept de jumeau numérique a peu évolué. Il s’agit de répliquer un objet (un piston ou le moteur d’une voiture), un système (une centrale nucléaire ou une ville) ou un processus abstrait (un planning de production). Le concept s’applique aussi au vivant : une molécule, une cellule, un organe ou un patient, comme un médicament, un virus, une maladie ou une épidémie peuvent avoir leur jumeau numérique.

 

Les jumeaux numériques sont une évolution, plus qu’une révolution, combinant modélisation mathématique et simulation numérique.

 

Fruits de la croissance des nouvelles technologies (IoT, big data, IA, cloud, etc.) et de la puissance de calcul, les jumeaux numériques sont une évolution, plus qu’une révolution, combinant modélisation mathématique et simulation numérique. Les données entrantes, d’où qu’elles proviennent – réelles, synthétiques, collectées en temps réel à l’aide de capteurs ou via des bases de données préexistantes –, alimentent un modèle mathématique pour le paramétrer finement. Le modèle peut alors se transformer en cobaye numérique, sur lequel tester différents scénarios via des simulations, afin de prédire l’évolution du système réel.

Conception et cycle de vie des produits, automobile et aéronautique, production et distribution d’énergie, transports, smart building et urbanisme, les jumeaux numériques sont aujourd’hui l’un des piliers de l’industrie 4.0. Ils essaiment depuis peu dans d’autres secteurs, comme la logistique, et surtout, la santé. Selon une étude de MarketsandMarkets, le marché des jumeaux numériques pourrait passer de 3,1 milliards de dollars en 2020 à 48,2 milliards de dollars en 2026, soit une croissance spectaculaire de 58 %, due en partie à l’épidémie de Covid-19.

 

Les promesses des jumeaux numériques dans la santé, mythe ou réalité ?

En janvier dernier, au CES (Consumer electronics show) de Las Vegas, Dassault Systèmes a présenté sa dernière prouesse, le jumeau numérique d’un cœur humain, résultat de 7 années de développement. Alimenté par des données collectées auprès de centaines de médecins, chercheurs et industriels à travers le monde, il réplique non seulement l’anatomie du cœur, mais aussi son fonctionnement : circulation du courant électrique le long des nerfs, comportement des fibres musculaires, réaction à différents médicaments, etc. Progrès de l’imagerie médicale aidant, ce jumeau numérique est aisément personnalisable. Il faut moins d’une journée pour répliquer la morphologie et les pathologies du cœur d’un patient. 

Dassault Systèmes et ses concurrents planchent déjà sur d’autres organes, dont les poumons, le foie et bien sûr le cerveau, mais dont la réplique exacte est à ce jour hors de portée. Et pour cause ! Les neurobiologistes n’ont pas encore percé tous ses mystères. Le clone parfait du corps humain – modélisant anatomie, génétique, métabolisme, fonctions corporelles et pathologies – n’est donc pas pour tout de suite. Nul besoin cependant d’attendre des jumeaux numériques exhaustifs pour avancer à pas de géant. Les jumeaux numériques, même partiels, de certains organes, maladies ou couples patient/médicament – comme ceux développés par la start-up ExactCure – suffisent déjà à répondre à des problèmes précis.

 

Si les jumeaux numériques tiennent toutes leurs promesses, ils signeront in fine l’avènement de la médecine personnalisée.

 

Simuler  l’anatomie et le fonctionnement de notre corps aux échelles moléculaire, cellulaire, tissulaire et organique ; modéliser des implants sur-mesure ; simuler le vieillissement ou une maladie ; tester un médicament, un vaccin sur un malade ou une cohorte virtuels ; répéter et assister des interventions chirurgicales complexes ; monitorer les flux de patients dans les hôpitaux pour rationaliser les moyens humains et techniques : si les jumeaux numériques tiennent toutes leurs promesses, ils signeront in fine l’avènement de la médecine personnalisée.

Une étude publiée en juillet 2021 dans la revue Life Sciences, Society and Policy passe en revue les bénéfices socio-éthiques des jumeaux numériques dans les services de santé. Sur le podium, on retrouve la prévention et le traitement des maladies, puis la réduction des coûts pour certains établissements de santé, et enfin, un gain d’autonomie pour les patients – mieux informés, ils sont plus à même de prendre des décisions éclairées sur leur parcours de soin.  

 

Des risques à la hauteur des espoirs suscités

Néanmoins, il reste de nombreux obstacles à franchir avant d’atteindre cet eldorado de la santé publique. Le problème fondamental tient au nerf de la guerre des jumeaux numériques : les données de santé. Ces données personnelles extrêmement sensibles contiennent en effet des informations génétiques, biologiques, physiques ou liées au mode de vie. La même étude alerte sur le risque socio-éthique numéro 1 des jumeaux numériques, évoqué par tous les participants : la violation de la vie privée. 

 

Le problème fondamental tient au nerf de la guerre des jumeaux numériques : les données de santé. Ces données personnelles extrêmement sensibles contiennent en effet des informations génétiques, biologiques, physiques ou liées au mode de vie.

 

Si les jumeaux numériques sont détenus ou hébergés par des organismes privés, ces informations peuvent être utilisées à l’insu des patients, voire se retourner contre eux. L’exemple le plus simple : une banque ou une compagnie d’assurance y ayant accès pourrait refuser un prêt ou augmenter ses primes à une personne malade.

Ajoutons à cela les failles de sécurité. Si les jumeaux numériques se multiplient, les risques de perdre ou de se faire voler les données augmentent avec eux. Or, une fois que les données ont fuité, il est trop tard. Elles peuvent être utilisées par n’importe qui, n’importe comment. Un scénario catastrophe de plus en plus fréquent en France, où les cyberattaques contre les organismes de santé ont doublé en 2021. Le vol des données de l’Assurance-maladie, début 2022, concernant un demi-million de Français en est un exemple frappant.

 

Tous les bénéfices des jumeaux numériques se retrouvent donc conditionnés par la disponibilité et la qualité des données de santé.

 

Vient ensuite un autre risque : la faible qualité des données. En effet, les algorithmes d’IA s'entraînent sur les données biomédicales disponibles. Or, elles sont souvent hétérogènes, incomplètes et pas toujours fiables. Ceci pour plusieurs raisons : manque de standardisation, pression pour publier, biais, tradition de ne pas publier les échecs, etc. Qui dit mauvaises données, dit mauvais modèle et mauvaises simulations. 

Tous les bénéfices des jumeaux numériques se retrouvent donc conditionnés par la disponibilité et la qualité des données de santé. Or, elles sont extrêmement difficiles à récupérer et exploiter par les chercheurs, notamment en France, où leur usage est strictement limité par le RGPD (Règlement Général sur la Protection des Données) et la Loi Informatique et Libertés. Leur transfert en dehors de l’Union européenne est notamment interdit, un sujet particulièrement sensible dans le débat public actuel. Les affaires se succèdent d’ailleurs à un rythme effréné, de Google Analytics à Meta. Le gouvernement a même préféré ajourner sa demande d’autorisation auprès de la CNIL pour le Health Data Hub, le temps d’opérer la mue de ce projet de centralisation des données de santé.

 

Les avatars pour débrider le potentiel de croissance des jumeaux numériques

Pour débrider le potentiel de croissance des jumeaux numériques, il existe pourtant déjà une solution proposée par Octopize - Mimethik Data, notre start-up deeptech. Nous avons en effet développé une méthode unique et brevetée d’anonymisation des données : les avatars. L’anonymisation des données n’est pas nouvelle et les méthodes ne cessent de se multiplier. Pourtant, la plupart ne fournissent pas la preuve de l’impossibilité de ré-identifier les patients, loin de là. Notre innovation de rupture, basée sur une nouvelle technique d’Intelligence Artificielle, permet, elle, d’exploiter et partager les données personnelles dans le respect absolu de la vie privée. A la différence de nos concurrents, nous pouvons prouver grâce à nos métriques l’efficacité de nos avatars aussi bien sur le respect de la vie privée que sur la qualité des données. Notre secret ? Un algorithme d’IA centré sur chaque patient, et non sur l’ensemble du jeu de données.

Pour chaque patient (soit chaque ligne de la base de données), nous utilisons un algorithme de KNN – méthode des plus proches voisins – pour identifier un certain nombre de données voisines. C’est à partir de ces données voisines que nous construisons notre modèle. A ce stade, le patient réel et ses données ont « disparu » – impossible de savoir s’ils sont dans le modèle ou non, seuls ses plus proches voisins le sont. Nous générons ensuite un avatar en utilisant un modèle pseudo-stochastique local, c’est-à-dire que nous introduisons un bruit aléatoire, donc non réversible, pour chaque attribut (soit chaque colonne de la base de données). Impossible de faire machine arrière, à chaque fois que nous relançons le modèle pour un même patient, nous créons un avatar différent. Voilà qui assure l’anonymisation, tout en conservant la granularité du jeu de données, les corrélations entre les individus et les distributions sur chaque variable. Mêmes courbes de Gauss, mêmes moyennes et mêmes écarts-types, à epsilon près.

 

Les données, une fois avatarisées, deviennent des données de synthèse, sans risque de ré-identification pour les patients. Elles sortent alors du RGPD et leur exploitation devient illimitée.

 

Les données, une fois avatarisées, deviennent des données de synthèse, sans risque de ré- identification pour les patients. Elles sortent alors du RGPD et leur exploitation devient illimitée. Elles sont conservables, exploitables, partageables et réutilisables sans contraintes géographiques, ni temporelles. D’ailleurs, la CNIL de ne s’y est pas trompée et a évalué avec succès notre méthode en 2020, attestant sa conformité vis-à-vis des trois critères sur l’anonymisation décrits dans l’avis du G29. Grâce aux avatars, exit le risque de violation de la vie privée inhérent aux jumeaux numériques.

Les avatars sont de plus facilement déployables et évolutifs. Paramétrables, ils s’adaptent à tous les besoins, de l’usage interne à l’open data. Autre avantage, les avatars résolvent aussi les problèmes de disponibilité et de biais des données de santé. A partir d’un jeu de données réelles, nous pouvons générer des jeux de données synthétiques plus larges que la base de données initiale, chaque individu pouvant donner lieu à plusieurs avatars. Nous pouvons ainsi amplifier une cohorte. In fine, nous proposons des jeux de données de santé étiquetés et « propres », prêts à l’usage, prêts à tous les usages.

 

Au-delà des jumeaux numériques, les avatars sont en eux-mêmes une révolution et pas seulement dans le domaine de la santé.

 

En réglant les problèmes de respect de la vie privée, de disponibilité et de qualité des données, l’avatarisation est donc une formidable opportunité de débrider le potentiel de croissance des jumeaux numériques. Mais au-delà, les avatars sont en eux-mêmes une révolution et pas seulement dans le domaine de la santé. Banque, assurance, télécom, industrie, énergie, tous les secteurs manipulant des données sensibles disposent désormais d’une solution clé en main. Octopize - Mimethik Data défend avec ses avatars un point de vue éthique au service de la création de valeur. Nous sommes intimement persuadés que l’avatarisation des données, innovation de rupture aujourd’hui, sera demain la nouvelle norme européenne.

 

15/05/2022© Octopize - Cynthia Laboureau

Octopize, lauréat du concours i-Nov pour sa solution unique d’anonymisation des données personnelles : les avatars

Le Premier ministre a décidé d’attribuer une participation du Programme d’investissements d’avenir (P.I.A.), d’environ un demi-million d’euros, à la société Octopize dans le cadre de la 8ème vague du concours d’innovation i-Nov. Octopize concourrait dans la thématique Numérique Deep Tech. Son projet porte sur le déploiement de sa méthode disruptive d’anonymisation des données personnelles : les avatars.

Co-piloté par le Ministère de l’Economie, des Finances et de la Souveraineté industrielle et numérique et le Ministère de la Transition écologique et de la Cohésion des territoires, opéré par Bpifrance et l'ADEME, ce concours récompense les start-up et PME porteuses de projets d'innovation à fort potentiel pour l'économie française. Le Gouvernement souhaite ainsi accélérer le développement d'entreprises innovantes, à fort contenu technologique et à la pointe de la recherche. Le concours i-Nov favorise les entreprises leaders dans leur domaine et pouvant prétendre à une envergure mondiale. Octopize, start-up nantaise labellisée Deeptech, répond à ce double objectif d’innovation technologique et d’ambition européenne.

 

Les avatars, une révolution pour le marché des données personnelles

 

En effet, Octopize ambitionne de devenir le leader européen de l’anonymisation des données personnelles, grâce à une méthode unique et brevetée : les avatars. Cette innovation de rupture, basée sur une nouvelle technique d’Intelligence Artificielle, permet d’exploiter et partager les données personnelles dans le respect absolu de la vie privée. En 2020, la Commission nationale de l’informatique et des libertés (CNIL) a audité cette méthode avec succès et a attesté la conformité de la solution vis-à-vis des trois critères sur l’anonymisation décrits dans l’avis du G29

 

Les avatars transforment les données personnelles en données synthétiques anonymes et statistiquement pertinentes. En conservant la qualité et la structure des données originales, les résultats sont aisément reproductibles. D’autre part, les avatars sortent du Règlement Général sur la Protection des Données (RGPD). Ils deviennent ainsi exploitables, partageables (même en dehors de l’Union européenne) et conservables sans limite de durée. La différence vis-à-vis des solutions concurrentes ? Grâce à ses métriques, Octopize quantifie et prouve ainsi l’efficacité de ses avatars aussi bien sur le respect de la vie privée que sur la qualité des données. Les avatars deviennent des données multi-usages, multi-usagers et sans date de péremption, ne faisant plus courir de risque aux individus à l’origine des données.

 

À l’ère du big data, les avatars sont donc une révolution pour le marché des données personnelles. En effet, si la croissance exponentielle de la collecte des données personnelles offre un gisement de valeur incommensurable, tant pour les acteurs économiques que les services publics, elle s’accompagne de risques lourds, pesant sur la protection de vie privée des individus concernés. Preuve en est l’accumulation des affaires liées à l’hébergement ou le traitement des données personnelles européennes par des opérateurs américains : Google Analytics, Meta… Les avatars sont la solution pour exploiter et partager les données personnelles de manière éthique.

 

Les avatars, déjà utilisés dans le secteur de la santé

D’ailleurs, les clients d’Octopize ne s’y sont pas trompés. Les avatars sont déjà commercialisés dans un secteur collectant des données hautement sensibles : la santé. Des données tabulaires et des séries temporelles sont anonymisées via un logiciel ou du service. La Clinique des données, par exemple, rattachée au CHU de Nantes, exploite avec l’accord de la CNIL les données de ses patients grâce aux avatars. Il en va de même pour l’AP-HP, le CHU d'Angers, l’Inserm, SOS Médecins, le projet européen HAP2, le Health Data Hub ou encore avec des start-up comme Epidemium, EchOpen ou Samdoc, et avec des laboratoires pharmaceutiques comme illustré récemment avec Roche.

 

Les avatars ouvrent ainsi la voie à la revalorisation des données de santé. Ils débrident la recherche médicale et facilitent la science ouverte. La start-up Octopize est fière de contribuer à cet enjeu de santé publique vital, exacerbé par la crise sanitaire.

 

Et si demain, les avatars devenaient la norme dans l’Union européenne ?

 

Avec le financement i-Nov, Octopize accélérera la R&D pour étendre l’usage des avatars à des données complexes (textuelles, spatiales, etc.) et améliorer l’industrialisation de la méthode, afin de devenir le leader européen de l’anonymisation des données. La force de la méthode Octopize réside dans sa souplesse, qui permet de s’adapter à tous les besoins, de l’usage interne à l’open data, et dans sa robustesse, qui ouvre la voie à une large variété d’utilisations. La prochaine étape d’Octopize est déjà en marche et vise à conquérir de nouveaux marchés français et européens : banque, marketing, assurance, finance, mobilité, collectivités, etc.

 

Octopize prône un changement radical dans l’utilisation des données au service de tous et respectueux de chacun : réservons les données personnelles aux usages personnels et utilisons les avatars pour tous les autres usages. Et si demain, les avatars devenaient la norme au sein de l’Union européenne ?

 

Avec Octopize, exploitons la valeur des données au service de tous, dans le respect de chacun.

 

À propos d’Octopize

Octopize – Mimethik Data est une startup Deeptech nantaise qui ambitionne de devenir le leader européen de l’anonymisation. Elle a développé et breveté une méthode unique d’anonymisation des données personnelles, dont la conformité est attestée par la CNIL en juin 2020 : les avatars. La méthode est commercialisée sous forme de logiciel ou de service permettant de nouveaux usages de façon éthique. Elle est déjà reconnue dans le secteur de la santé et dans d’autres verticales. La startup compte une dizaine de personnes. En septembre 2021, Octopize a réalisé une levée de fonds de 1,5 million d’euros auprès de plusieurs investisseurs en capital-risque, Bpifrance et des Business Angels. Lauréate 2022 du concours i-Nov, sur décision du Premier ministre, elle s’ouvre à d’autres secteurs économiques et confirme son ambition.

Pour en savoir plus : https://octopize-md.com/ 

Fondateur : Olivier BREILLACQ – linkedin.com/in/olivier-breillacq 

Contact presse : contact@octopize.io 

 

À propos du Concours i-Nov

Lancé en 2017 et co-piloté par le ministère de la Transition écologique et le ministère de l'Économie, des Finances et de la Relance, le concours i-Nov compte déjà plus de 400 lauréats. Il s'inscrit dans le continuum du « Concours d'innovation », se déclinant autour de 3 volets complémentaires : i-PhD, i-Lab et i-Nov. Le concours d'innovation marque un engagement de l’État via des financements, une labellisation et une communication renforcée, permettant de soutenir le développement d'entreprises fortement innovantes et technologiques. En amont, les concours i-PhD et i-Lab visent à encourager l'émergence et la création de start-up Deeptech, nées des avancées de la recherche de pointe française. En aval, le concours i-Nov soutient les projets de développement innovants portés par des start-up et des P.M.E.. Ce concours est financé par l’État via le Programme d'investissements d'avenir (P.I.A.) dans le cadre de France 2030. Il mobilise jusqu'à 80 millions par an autour de thématiques comme la révolution numérique, la transition écologique et énergétique, la santé ou la sécurité. Il est opéré par Bpifrance et l'ADEME. Pour les lauréats, c'est une opportunité d'obtenir un cofinancement de leur projet de recherche, de développement et d'innovation, dont les coûts totaux se situent entre 600 000 et 5 millions d'euros. À la clé, une aide financière jusqu'à 45 % du coût du projet sous forme de subventions et avances récupérables.

Pour en savoir plus : https://www.gouvernement.fr/investissements-d-avenir-lancement-de-la-8eme-vague-du-volet-i-nov-du-concours-d-innovation 

 

À propos du Programme d'Investissements d'Avenir (P.I.A.)

Engagé depuis 10 ans et piloté par le Secrétariat général pour l'investissement auprès du Premier ministre, le P.I.A. finance des projets innovants, contribuant à la transformation du pays, à une croissance durable et à la création des emplois de demain. De l'émergence d'une idée jusqu'à la diffusion d'un produit ou service nouveau, le P.I.A. soutient tout le cycle de vie de l'innovation, entre secteurs publics et privés, aux côtés de partenaires économiques, académiques, territoriaux et européens. Ces investissements reposent sur une doctrine exigeante, des procédures sélectives ouvertes, et des principes de cofinancement ou de retour sur investissement pour l’État. Le quatrième P.I.A. (P.I.A.4) est doté de 20 milliards d'euros d'engagements sur la période 2021-2025, dont 11 milliards d'euros contribueront à soutenir des projets innovants dans le cadre du plan France Relance. 

Pour en savoir plus : https://www.gouvernement.fr/le-programme-d-investissements-d-avenir

 

À propos de Bpifrance

Bpifrance finance les entreprises à chaque étape de leur développement en crédit, en garantie et en fonds propres. Bpifrance les accompagne dans leurs projets d'innovation et à l'international. Bpifrance assure aussi désormais leur activité export à travers une large gamme de produits. Conseil, université, mise en réseau et programme d'accélération à destination des start-up, des PME et des ETI font également partie de l'offre proposée aux entrepreneurs. Grâce à Bpifrance et ses 50 implantations régionales, les entrepreneurs bénéficient d'un interlocuteur proche, unique et efficace pour les accompagner et faire face à leurs défis.

Pour en savoir plus : https://www.bpifrance.fr

Quels critères permettent de considérer une donnée comme véritablement anonyme  ?

Comment mesurer l’anonymat d’une base de données  ?

À l’ère du Big Data, les données personnelles constituent une matière première incontournable pour le développement de la recherche et le fonctionnement de quantité d’entreprises. Cependant, malgré leur grande valeur, l’utilisation de ce type de données implique nécessairement un risque de ré-identification et de fuite d’informations sensibles même en ayant suivi un traitement de pseudonymisation préalable (voir article 1). Dans le cas de données personnelles, a fortiori sensibles, le risque de ré-identification peut être considéré comme une trahison de la confiance des individus à l’origine des données, d’autant plus quand elles sont utilisées sans consentement clair et éclairé.  

 

La mise en vigueur du Règlement général sur la protection des données (RGPD) en 2018 et de la Loi informatique et libertés avant lui a offert une tentative de réponse à cette problématique en initiant un changement dans les pratiques de collecte, traitement et stockage des données personnelles. Un groupe de réflexion indépendant et spécialisé dans les questions de protection de la vie privée a également été mis en place. Appelé Comité européen de la protection des données (CEPD) ou anciennement G29, cet organe consultatif a publié des travaux (ref Article G29) qui servent aujourd’hui de références aux autorités nationales européennes (CNIL en France) dans l’application du RGPD. 

 

Le CEPD convient ainsi du potentiel de l’anonymisation pour valoriser les données personnelles tout en limitant les risques pour les individus qui en sont l’origine. Pour rappel, des données sont considérées comme anonymes si la ré-identification des individus d’origine est impossible. Il s’agit donc d’un processus irréversible. Les méthodes d’anonymisation développées pour répondre à ce besoin ne sont toutefois pas infaillibles et leur efficacité dépend souvent de nombreux paramètres (voir article 2). Pour utiliser ces méthodes de façon optimale, il est nécessaire d’apporter une précision supplémentaire sur la nature des données anonymes. Le CEPD, dans son Avis du 05/2014 sur les techniques d’anonymisation, identifie trois critères pour déterminer l’impossibilité de ré-identification ; à savoir :  

 

  1. Individualisation : est-il toujours possible d’isoler un individu ? 

 Le critère d’individualisation correspond au scenario le plus favorable pour un attaquant, c’est-à-dire une personne, malveillante ou non, cherchant à ré-identifier un individu dans un jeu de données. Pour être considéré anonyme, un jeu de données ne doit pas permettre à un attaquant d’isoler un individu cible. En pratique, plus un attaquant possède d’informations sur l’individu qu’il souhaite isoler dans une base, plus les probabilités de ré-identification sont élevées. En effet, dans un jeu de données pseudonymisé, c’est-à-dire débarrassé de ses identifiants directs, les informations quasi-identifiantes restantes agissent comme un code barre de l’identité d’un individu quand elles sont considérées ensemble. Ainsi plus l’attaquant a d’informations préalables sur l’individu qu’il cherche à identifier, plus il peut réaliser une requête précise pour tenter d’isoler cet individu. Un exemple d’attaque par individualisation est représenté Figure 1. 

Ré-identification d’un patient par individualisation dans un jeu de données sur la base de deux attributs (Age, Gender) 

Figure 1 : Ré-identification d’un patient par individualisation dans un jeu de données sur la base de deux attributs (Age, Gender) 

 

L’un des attributs de ce type d’attaque réside également dans la sensibilité accrue des individus présentant des caractéristiques peu communes. Il sera en effet plus aisé pour un attaquant, ne disposant que des informations sur le sexe et la taille, d’isoler une femme mesurant 2 mètres qu’un homme mesurant 1 mètre 75.  

 

2. Corrélation : est-il toujours possible de relier entre eux les enregistrements relatifs à un individu ? 

 Les attaques par corrélation correspondent au scénario le plus fréquent. Aussi, pour considérer des données comme anonymes, il est primordial que celles-ci satisfassent le critère de corrélation. Entre la démocratisation de l’Open Data et les nombreux incidents liés à des fuites de données personnelles, la quantité de données disponibles n’a jamais été aussi conséquente. Ces bases regroupant des informations personnelles parfois directement identifiantes, sont autant d’opportunités pour les attaquants de réaliser des tentatives de ré-identification par croisement. En pratique, les attaques par corrélation utilisent des bases directement-identifiantes possédant des informations similaires à la base à attaquer comme illustré Figure 2.  

 

Illustration d’une attaque par corrélation

Figure 2 : Illustration d’une attaque par corrélation. La base extérieure directement identifiante (en haut) est utilisée pour ré-identifier des individus dans la base attaquée (en bas). La corrélation se fait sur la base des variables communes. 

Dans le cas de tableaux illustrées dans la Figure 2, l’attaquant aurait réussi à ré-identifier les 5 individus de la base pseudonymisée grâce aux deux attributs communs aux deux bases. De plus, la ré-identification lui aurait permis d’inférer une nouvelle information sensible à propos des patients, à savoir la pathologie qui les affecte. Dans ce contexte, plus les bases possèdent d’informations communes, plus la probabilité de ré-identifier un individu par corrélation augmente. 

 

3. Inférence : peut-on déduire des informations concernant un individu ? 

 Enfin, troisième et dernier critère identifié par le CEPD est probablement le plus complexe à évaluer. Il s’agit du critère d’inférence. Pour considérer des données comme anonymes, il doit être impossible d’identifier par déduction, de façon quasi certaine, de nouvelles informations sur un individu. À titre d’exemple, si un jeu de données contient des informations sur l’état de santé d’individus ayant participé à une étude clinique et que tous les hommes de plus de 65 ans de cette cohorte sont atteints d’un cancer du poumon ; alors il sera possible de déduire l’état de santé de certains participants. En effet il suffit de connaitre un homme de plus de 65 ans ayant participé à cette étude pour affirmer que celui-ci est atteint d’un cancer du poumon. 

L’attaque par inférence est particulièrement efficace sur les groupes d’individus partageant une modalité unique. En cas de réussite de l’inférence, la divulgation de l’attribut sensible concerne alors l’ensemble du groupe d’individus identifiés. 

 

Ces trois critères identifiés par le CEPD réunissent la majorité des menaces d’attaques pesant sur les données après avoir subis un traitement visant à préserver leur sécurité. En cas de satisfaction de ces trois critères, le traitement peut alors être considéré comme une anonymisation au sens propre du terme. 

 

Les techniques actuelles permettent-elles de satisfaire les trois critères  ? 

 Les techniques de randomisation et de généralisation présentent chacune des avantages et des inconvénients vis-à-vis de chaque critère (voir article 2). L’évaluation de la performance du respect des critères pour plusieurs techniques d’anonymisation est représentée Figure 3. Elle est issue de l’Avis publié par l’ex G29 sur les techniques d’anonymisation.

 

Forces et faiblesses des techniques considérées - OCTOPIZE

Figure 3 : Forces et faiblesses des techniques considérées 

 

Il apparait clairement qu’il n’existe parmi ces techniques, aucune permettant de respecter les 3 critères simultanément. Elles doivent donc être utilisées avec prudence dans leur contexte d’usage le plus propice. Au-delà des méthodes évaluées, les données synthétiques semblent être une alternative prometteuse permettant de satisfaire l’intégralité des 3 critères. Cependant, les méthodologies permettant de produire des données synthétiques doivent se confronter à la difficulté d’apporter la preuve de cette protection. À l’heure actuelle, toutes les solutions de génération de données de synthèse se reposent sur le principe de plausible deniability pour prouver la protection associée à une donnée. En d’autres termes si une donnée synthétique venait par hasard à ressembler à une donnée originale, la défense consiste à annoncer qu’en de telles circonstances, il est impossible d’apporter la preuve que cette donnée synthétique est liée à une donnée originale. Chez Octopize, nous avons développé une méthodologie unique permettant de produire des données synthétiques tout en quantifiant et apportant la preuve de la protection apportée. Cette évaluation est réalisée par le biais de métriques développées spécialement pour mesurer la satisfaction des critères, à savoir vous l’aurez compris, l’individualisation, la corrélation et l’inférence. Nous développerons le sujet des métriques d’évaluation de la qualité et de la sécurité des données synthétiques plus en détail dans un autre article. 

Octopize, expert de l’anonymisation de données, lève 1,5 M€ pour accélérer son développement.

Octopize, expert de l’anonymisation de données, annonce avoir bouclé une levée de fonds de 1,5 million d’euros menée par Pays de la Loire Développement (géré par Sodero Gestion), Pays de la Loire Participations, Atlantique Vendée Innovation (Crédit Agricole Atlantique Vendée), avec la participation de Bpifrance et de business angels.

Déjà commercialisée dans la verticale de la santé, Octopize confirme son ambition avec sa solution d’avatarisation basée sur l’intelligence artificielle : devenir le leader européen des données synthétiques. Les avatars sont des données de synthèse issues des individus et qui permettent de « partager sans dévoiler et donc d’exploiter de façon éthique ». Ils représentent une innovation de rupture assurant confidentialité et exploitation des données sensibles.

Un marché en expansion

À l’heure du Big Data, le volume des données personnelles ne cesse de croître et offre un gisement de valeur pour les acteurs économiques qui souhaitent les valoriser. L’avatarisation est une solution éthique qui permet l’exploitation de nouveaux usages de la donnée personnelle pour lesquels on doit assurer la confidentialité des individus. Ces usages sont nombreux : exploitation de données (analyse, recherche en vue d’innovation, environnement de test), partage (avec des tiers, envoi hors UE, open data) et conservation des données illimitée dans le temps contrairement aux données personnelles. Les avatars deviennent des données multi-usages, multi-usagers, et sans date de péremption.

Octopize bénéficie déjà d’une reconnaissance dans la verticale de la santé. La solution est commercialisée chez plusieurs industriels de la pharma, et également au CHU de Nantes ou encore à l’APHP. Octopize travaille aussi avec SOS Médecins et est partenaire du projet européen HAP2 (www.hap2-project.com) programme Horizon 2020.

Cap vers des données éthiques au service de tous et respectueuses de chacun

Aujourd’hui, le traitement des données personnelles implique un partage de données au détriment de leur confidentialité ou de leur qualité. Octopize résout ce paradoxe en affirmant qu’il faut réserver les données personnelles aux usages personnels et utiliser des données synthétiques dites « avatars » pour tous les autres usages. Les avatars permettent de ne pas faire de compromis entre la confidentialité due aux individus et la qualité statistique nécessaire à l’exploitation. L’impossibilité de ré-identification des individus est assurée avec les avatars, des données anonymes qui miment les données personnelles de façon éthique, des données “mimethik”. L’algorithme a été audité en juin 2020 avec succès par la CNIL (l'autorité française de protection des données).

Les avatars sont une nouvelle forme de données qui, n’étant plus des données personnelles en tant que telles, sortent du champ d’application du RGPD et ouvrent de nombreuses perspectives d’exploitation. Les avatars conservent tout le potentiel de la valeur de la donnée et assurent la reproductibilité dans le cadre d’analyses. Grâce à l’innovation d'Octopize, il n’y a plus aucune justification de faire prendre un risque de ré-identification aux individus, patients, clients, fournisseurs.

Les investisseurs

Octopize a retenu : Pays de la Loire Développement (géré par Sodero Gestion), Pays de la Loire Participations, Atlantique Vendée Innovation (Crédit Agricole Atlantique Vendée), Bpifrance et des business angels dans le cadre d’un financement global de 1,5M€. Grâce à cet apport, Octopize confirme son ambition de devenir le leader européen des données synthétiques.

Avec Octopize, exploitons vos données au service de tous, dans le respect de chacun.

À propos d'Octopize

Octopize – Mimethik Data, startup nantaise, labélisée Deeptech par BPI, accompagnée par Atlanpole, membre d’Atlanpole Biothérapies et lauréat de réseau Entreprendre Atlantique. La startup compte une dizaine de personnes et est composée d’un conseil scientifique présidé par le Pr. Gourraud (Université de Nantes et CHU de Nantes). La méthode est commercialisée sous forme de logiciel (on premise) ou de revente d’avatars à la ligne (mimethik data) permettant de nouveaux usages de façon éthique.

Pour plus d’informations : https://octopize-md.com/
Fondateur : Olivier BREILLACQ – 07 69 14 11 35 – contact@octopize-md.com

Quelles techniques d'anonymisation pour protéger vos données personnelles ?

Quelles sont les différentes techniques d’anonymisation ?

Après avoir différencié les concepts d’anonymisation et de pseudonymisation dans un précédent article, il est important pour l’équipe d'Octopize de faire un état des lieux des différentes techniques existantes d’anonymisation des données personnelles.

Les techniques d’anonymisation

Avant de parler anonymisation des données, notons qu’il est nécessaire en premier lieu de procéder à une pseudonymisation afin de retirer tout caractère directement identifiant du jeu de données : c’est une première étape de sécurité indispensable. Les techniques d’anonymisation permettent de prendre en charges les attributs quasi identifiants. En les combinant à une étape de pseudonymisation préalable, on s’assure de prendre en charge les identifiants directs et ainsi protéger l’intégralité des informations personnelles liées à un individu.

Ensuite, pour rappel, l’anonymisation consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Cette technique a un caractère irréversible qui implique que les données anonymisées ne soient plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD.

Pour caractériser l’anonymisation, le CEPD (Comité Européen de la Protection des Données), anciennement le groupe de travail G29, a énoncé 3 critères à respecter, à savoir :

Le CEPD défini ensuite deux grandes familles de techniques d’anonymisation à savoir la randomisation et la généralisation.

RANDOMISATION GENERALISATION
La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale.

 

Cette technique permet de protéger le jeu de données du risque dinférence. Dans les techniques de randomisation, on peut par exemple citer l’ajout de bruit, la permutation et la confidentialité différentielle.

Situation de randomisation : permuter des données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.

La généralisation consiste à modifier l’échelle des attributs des jeux de données, ou leur ordre de grandeur, afin de s’assurer qu’ils soient communs à un ensemble de personnes.

 

Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres. Dans les techniques de généralisation, on peut par exemple citer l’agrégation, le k-anonymat, le l-diversité ou encore le t-proximité.

Situation de généralisation : dans un fichier contenant la date de naissance des personnes, le fait de remplacer cette information par la seule année de naissance.

Ces différentes techniques permettent de répondre à certains enjeux avec leur lot d’avantages et d’inconvénients. Nous détaillerons ainsi le principe de fonctionnement de ces différentes méthodes et exposeront par le biais d’exemples factuels, les limites auxquelles elles sont soumises.

Quelle technique utiliser et pourquoi ?

Chacune des techniques d’anonymisation peut être appropriée, selon les circonstances et le contexte, pour atteindre la finalité souhaitée sans compromettre le droit des personnes concernées au respect de leur vie privée.

La famille randomisation :

1- L’ajout de bruit :

Principe : Modification des attributs de l’ensemble des données pour les rendre moins précis. Exemple : à la suite d’une anonymisation par ajout de bruit, l’âge des patients est modifié de plus ou moins 5 ans.

Points forts :

Points faibles :

Erreurs courantes :

Échec d’utilisation :

Cas Netflix :

Dans le cas Netflix, la base de données initiale avait été rendue publique « anonymisée » conformément à la politique interne de l’entreprise en matière de confidentialité (en supprimant toutes les informations d’identification des utilisateurs hormis les évaluations et les dates).

Dans ce cas, il a été possible de réidentifier 68% des utilisateurs Netflix grâce à une base de données externe à celle-ci, par croisement. Les utilisateurs ont été identifiés de manière unique dans l’ensemble de données en prenant comme critères de sélection 8 évaluations et des dates comportant une marge d’erreur de 14 jours.

2- La permutation:

Principe : Consiste à mélanger les valeurs des attributs dans un tableau de telle sorte que certaines d’entre elles sont artificiellement liées à des personnes concernées différentes. La permutation altère donc les valeurs au sein de l’ensemble de données en les échangeant simplement d’un enregistrement à un autre. Exemple : à la suite d’une anonymisation par permutation, l’âge du patient A a été remplacé par celui du patient J.

Points forts :

Point faible :

Erreurs courantes :

Échec d’utilisation : la permutation d’attributs corrélés

Dans l’exemple suivant, nous pouvons voir qu’intuitivement, nous allons chercher à relier les salaires avec les métiers selon les corrélations qui nous semblent logiques (voir flèche).

Ainsi, la permutation aléatoire des attributs n’offre pas de garanties de confidentialité quand il existe des liens logiques entre différents attributs.

tableau1_article2

Tableau 1. Exemple d’anonymisation inefficace par permutation d’attributs corrélés

3- La confidentialité différentielle :

Principe : La confidentialité différentielle, ou Differential Privacy, consiste en la production d’aperçus anonymisés d’un ensemble de données tout en conservant une copie des données originales.

L’aperçu anonymisé est généré à la suite de la requête effectuée par un tiers sur la base de données et dont le résultat sera associé à un ajout de bruit. Pour être considéré « differencially private », la présence ou l’absence d’un individu particulier dans la requête ne doit pas pouvoir changer son résultat.

Point fort :

Points faibles :

Erreurs courantes :

Échecs d’utilisation :

La famille généralisation :

1- Agrégation et k-anonymat:

Principe : Généralisation des valeurs des attributs dans une mesure telle que tous les individus partagent la même valeur. Ces deux techniques visent à empêcher qu’une personne concernée puisse être isolée en la regroupant avec, au moins, k autres individus. Exemple : pour qu’il y ait au moins 20 individus partageant la même valeur, l’âge de tous patients entre 20 et 25 ans est ramené à 23 ans.

Point fort :

Points faibles :

Erreurs courantes :

 

Échec d’utilisation :

Le principal problème lié au k-anonymat est qu’il n’empêche pas les attaques par inférence. Dans l’exemple qui suit, si l’attaquant sait qu’un individu figure dans l’ensemble de données et est né en 1964, il sait aussi que cet individu a fait une crise cardiaque. De plus, si l’on sait que cet ensemble de données a été obtenu auprès d’une organisation française, on peut en déduire que chacun des individus réside à Paris puisque les trois premiers chiffres des codes postaux sont 750*).

table2_article2

Tableau 2. Un exemple de k-anonymisation mal conçue

Pour combler les défauts du k-anonymat, d’autres techniques d’agrégation ont été développées, notamment la L-diversité et la T-proximité. Ces deux techniques affinent le k-anonymat en veillant à ce que chacune des classes ait L valeurs différentes (l-diversité) et que les classes créées ressemblent à la distribution initiale des données.

A noter que malgré ces améliorations, cela ne permet pas de s’advenir quant aux faiblesses principales du k-anonymat présentées ci-dessus.

Ainsi, ces différentes techniques de généralisation et de randomisation ont chacune des avantages de sécurité mais ne répondent pas toujours totalement aux 3 critères énoncés par le CEPD, ancien G29 comme le montre le tableau 3 « Forces et faiblesses des techniques considérées réalisé par la CNIL.

Tableau comparatif des méthodes d'anonymisation _ CNIL

Tableau 3. Forces et faiblesses des techniques considérées

Issues de techniques d’anonymisation plus récentes, les données synthétiques apparaissent aujourd’hui comme de meilleures solutions d’anonymisation.

Cas des données synthétiques

Les dernières années de recherche ont vu l’émergence de solutions permettant la génération d’enregistrements synthétiques assurant une forte rétention de la pertinence statistique et facilitant la reproductibilité des résultats scientifiques. Elles reposent sur la création des modèles permettant de comprendre et reproduire la structure globale des données d’origines. On distingue notamment les réseaux neuronaux adversaires (GAN) et des méthodes reposant sur des distributions conditionnelles.

Point fort :

Point faible :

La solution d’anonymisation Avatar, développée par OCTOPIZE, utilise une approche conceptuelle unique, centrée sur le patient, permettant la création de données synthétiques protégées et pertinentes tout en apportant la preuve de leur protection. Sa conformité a été démontrée par la CNIL sur les 3 critères du CEPD. Cliquez ici pour en savoir plus sur les avatars.

Évolution rapide des techniques

Enfin, la CNIL (Commission Nationale de l'Informatique et des Libertés) rappelle qu’étant donné que les techniques d’anonymisation et de réidentification sont amenées à évoluer régulièrement, il est indispensable pour tout responsable de traitement concerné, d’effectuer une veille régulière pour préserver, dans le temps, le caractère anonyme des données produites. Cette veille doit prendre en compte les moyens techniques disponibles et les autres sources de données qui peuvent permettre de lever l’anonymat des informations.

La CNIL souligne que les recherches en matière de techniques d’anonymisation se poursuivent et font apparaître définitivement qu’aucune technique n’est, en soi, infaillible.

Sources :

https://www.cnil.fr/sites/default/files/atoms/files/wp216_fr.pdf

https://edpb.europa.eu/edpb_fr

Lien Membership Inference Attacks : https://arxiv.org/pdf/1807.09173.pdf

Lien Netflix : https://arxiv.org/PS_cache/cs/pdf/0610/0610105v2.pdf

Vos données sont-elles pseudonymisées ou anonymisées ?

Quelle différence entre anonymisation et pseudonymisation ?

La notion de données anonymes cristallise un grand nombre d’incompréhension et de fausses idées au point que le terme « anonyme » n’ait pas la même signification selon la personne qui l’emploie.
Pour rétablir le consensus, l’équipe d'Octopize a souhaité évoquer les différences entre pseudonymisation et anonymisation, deux notions souvent confondues.
Au premier abord, le terme « anonymisation » évoque la notion de masque, de dissimulation. On s’imagine alors que le principe d’anonymisation revient à masquer les attributs directement identifiants d’un individu (nom, prénom, numéro de sécu). Ce raccourci constitue justement le piège à éviter. En effet, le masquage de ces paramètres constitue plutôt une pseudonymisation.
A première vue semblables, ces deux notions impliquent pourtant de grandes différences, tant du point de vue juridique que de la sécurité.

Qu’est-ce que la pseudonymisation ?

Selon la CNIL, la pseudonymisation est un « traitement de données personnelles réalisé de manière qu'on ne puisse plus attribuer les données relatives à une personne physique sans information supplémentaire ». Elle constitue une des mesures recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles.

Mais la pseudonymisation n’est pas une méthode d’anonymisation. La pseudonymisation réduit simplement la corrélation d’un ensemble de données avec l’identité originale d’une personne concernée et constitue par conséquent une mesure de sécurité utile mais non absolue. En effet, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom...) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.) empêchant ainsi la réidentification directe des individus.

La pseudonymisation ne constitue toutefois pas une protection infaillible car l’identité d’un individu peut également être déduite à partir d’une combinaison de plusieurs informations appelée quasi identifiants. Ainsi, en pratique, des données pseudonymisées restent potentiellement réidentifiantes indirectement par croisement d’informations. L’identité de l’individu peut être trahie par une de ses caractéristiques indirectement identifiantes. Cette transformation est donc réversible, justifiant le fait que des données pseudonymisées soient toujours considérées comme des données personnelles. À ce jour, les techniques de pseudonymisation les plus utilisées reposent sur des systèmes cryptographiques à clé secrète, des fonctions de hachage, du chiffrement déterministe ou encore de la Tokenization.

L’« affaire AOL (America  On  Line)» illustre de manière typique le malentendu qui existe entre la pseudonymisation et l’anonymisation. En 2006, une base de données contenant vingt millions de mots-clés figurant dans les recherches effectuées par plus de 650000 utilisateurs au cours d’une période de 3 mois a été diffusée publiquement, sans autre mesure destinée à préserver la vie privée que le remplacement de l’identifiant d’utilisateur AOL par un attribut numérique (pseudonymisation).
Malgré ce traitement, l’identité et la localisation de certains utilisateurs ont été rendues publiques. En effet, les requêtes transmises à un moteur de recherches, surtout si elles peuvent être couplées avec d’autres attributs, comme les adresses IP ou d’autres paramètres de configuration, ont un potentiel d’identification très élevé.

Cet incident ne constitue qu’un exemple parmi les nombreux écueils montrant qu’un ensemble de données pseudonymisées n’est pas anonyme ; le simple fait de modifier l’identité n’empêche pas un individu d’être ré-identifié à partir d’informations quasi identifiantes (âge, sexe, code postal). Dans bien des cas, il peut se révéler aussi facile d’identifier un individu dans un ensemble de données pseudonymisées qu’à partir des données originales (jeu du « Qui est ce ? »).

Quelle différence avec l’anonymisation ?

L’anonymisation, elle, consiste à utiliser des techniques de façon à rendre impossible, en pratique, la réidentification des individus à l’origine des données personnelles anonymisées. Ce traitement a un caractère irréversible qui implique que les données anonymisées ne sont plus considérées comme des données personnelles, sortant ainsi du cadre d’application du RGPD. Pour caractériser l’anonymisation, le Comité Européen de la Protection des Données (ex G29) se base sur les 3 critères énoncés dans l’avis du 05/2014 (source en pied de page) :

- Individualisation :  les données anonymes ne doivent pas permettre de distinguer un individu. De ce fait, même en disposant de l’ensemble des informations quasi identifiantes relatives à un individu, il doit être impossible de distinguer celui-ci dans une base une fois anonymisé.

- Corrélation :  les données anonymes ne doivent pouvoir être ré-identifiées en les croisant avec d’autres jeux de données. Ainsi il doit être impossible de relier deux ensembles de données provenant de sources différentes concernant le même individu. Une fois anonymisées, les données de santé d’un individu ne doivent pas pouvoir être reliées à ses données bancaires sur la base d’informations communes.

- Inférence : les données ne doivent pas permettre de déduire de l’information additionnelle sur un individu de façon raisonnable. Il doit être par exemple impossible de déterminer avec certitude l’état de santé d’un individu à partir de données anonymes.

C’est lorsque ces trois critères sont respectés que des données sont considérées comme anonymes à proprement parlé. Elles changent alors de statut juridique : elles ne sont plus considérées comme des données personnelles et sortent du cadre du RGPD.

Notre solution : Avatar

Il existe à ce jour plusieurs familles de méthodes d’anonymisation que nous détaillerons dans notre prochain article. Pour la plupart, ces méthodes apportent la protection en dégradant la qualité, la structure ou la finesse des données d’origine, limitant ainsi la valeur informative de ces données après traitement. Le véritable défi consiste à résoudre le paradoxe entre la protection légitime des données de chacun, et leur exploitation dans l’intérêt de tous.

La méthode d’anonymisation Avatar, développée par Octopize, est une méthode d’anonymisation unique. Elle résout le paradoxe entre la protection des données personnelles des patients et le partage de ces données pour leur valeur informative. En effet, la solution Avatar, qui a été évaluée avec succès par la CNIL, permet grâce à des données de synthèse d’assurer d’une part la confidentialité des données d’origine (et donc leur partage sans risque) et d’autre part, de conserver la valeur informative des données d’origine.

Cliquez ici pour en savoir plus.

Sources :