Logo réduit OCTOPIZE - pictogramme
20/04/2023

Comment évaluer l'utilité des données synthétiques ?

L’utilisation de données synthétiques est de plus en plus populaire pour l'analyse des données et l'apprentissage automatique. En générant de nouvelles données qui imitent les propriétés statistiques des données originales sans les copier, les données synthétiques peuvent être utilisées pour exploiter le potentiel des données sans compromettre la vie privée des individus. 

Cependant, pour s'assurer que les données synthétiques sont utiles et efficaces, il est important d'évaluer leur utilité. Dans cet article, nous verrons comment évaluer l'utilité des données synthétiques et nous assurer qu'elles peuvent être utilisées efficacement pour l'analyse et la modélisation.

Pour évaluer le niveau d'information conservé dans les données synthétiques, nous utilisons des mesures d'utilité qui évaluent deux aspects : la cohérence au niveau individuel et la cohérence au niveau de la population.

On entend par cohérence individuelle, toutes les règles logiques qui doivent être respectées. Ce critère dépend du jeu de données et ne sera pas développé dans cet article.

La cohérence au niveau de la population signifie qu'il existe une similarité statistique entre les données originales et les données synthétiques. Nous évaluons cette similarité à trois niveaux :

  • La comparaison des distributions des variables (analyse univariée)
  • La comparaison des dépendances entre les variables (analyse bivariée)
  • La comparaison des informations générales des données (analyse multivariée)

Dans cet article, nous décrirons comment évaluer la rétention de l’information statistique à l’échelle de la population. Cette analyse est globale et non spécifique au cas d’usage. Pour des cas d’usage spécifiques, il est recommandé de comparer les données originales et synthétiques basées sur l'analyse d’intéret.

Il y a autant de possibilités d'évaluation de l'utilité qu'il y a d'analyses possibles. Ici, nous nous concentrerons sur un échantillon de méthode d’évaluation.

 

Comparaison des distributions des variables

distributions

Pour chaque variable d’un jeu de données, nous comparons la distribution de cette variable dans le jeu de données original (en gris) et dans le jeu de données synthétique (en vert). La distance de Hellinger peut être calculée entre les deux distributions. Elle se traduit par un score compris entre 0 et 1. 0 signifie que les deux distributions sont identiques, tandis que 1 signifie que les distributions n'ont pas de valeurs communes. 

Dans la figure ci-dessous, nous pouvons voir de petites distances de Hellinger, qui révèlent que les distributions des données Avatars sont similaires aux distributions originales.

Hellinger

Dans d'autres cas, nous pouvons également utiliser des tests statistiques tels que le test de Kolmogorov-Smirnov ou le test du Khi-deux pour évaluer si les échantillons originaux et Avatar sont tirés de la même distribution.

 

Comparaison des dépendances entre les variables

L'évaluation des distributions des variables ne suffit pas. Si nous générons des données synthétiques en tirant chaque variable indépendamment, les distributions seront préservées mais la corrélation entre les variables sera détruite. Alors, les données synthétiques risquent de ne pas être utiles pour les analyses ou les tâches de modélisation qui dépendent de cette corrélation. Par conséquent, outre les comparaisons de distribution, il est également important de comparer les dépendances ou les corrélations entre les variables. On utilise généralement le coefficient de corrélation de Pearson pour évaluer la relation linéaire entre les variables numériques.

Ici, nous observons que les données Avatar préservent la matrice de corrélation des données originales.

Correlation

Avec cette analyse, nous comprenons que la méthode Avatar préserve les dépendances entre les variables (analyse bivariée). Les corrélations faibles restent faibles suite à l'anonymisation, tandis que les plus fortes restent fortes. D'autres mesures, telles que la “mutual information”, pourraient être calculées pour évaluer la conservation de l’utilité bivariée des données catégorielles.

 

Comparaison des informations générales des données

Préserver les informations générales contenues dans un jeu de données est l'un des principaux objectif de l'anonymisation. Afin d'évaluer l'utilité multidimensionnelle, nous pouvons utiliser les méthodes l'analyse factorielle (FAMD, PCA, MCA). Celles-ci permettent d'étudier le lien entre de nombreuses variables et individus d’un jeu de données.

La visualisation illustre la similarité entre les données originales (en gris) et les données Avatar (en vert). En effet, on voit que les liens entre les variables et les groupes du jeu de données sont conservés dans le jeu de données Avatar. 

Dans la figure ci-dessous, nous voyons que les informations sur la variable “preanti” sont conservées pendant l'anonymisation.

projection variety

 

En résumé, il est important de s'assurer que les données synthétiques préservent les informations utiles des données. Cette évaluation se fait par l’utilisation de métriques. En veillant à ce que les données synthétiques soient cohérentes au niveau de l'individu et de la population, nous pouvons nous assurer que les données synthétiques peuvent remplacer efficacement les données originales à des fins d'analyse et de modélisation.

Consultez notre documentation technique pour voir un exemple de rapport d'anonymisation qui évalue la privacy et l'utilité des données Avatar. 

• Pour en savoir plus, lisez notre article scientifique publié dans Nature npj digital medicine qui démontre la conservation de l'utilité et de la privacy de la méthode Avatar dans deux cas d’usage médicaux.



Rédaction : Julien Petot & Alban-Félix Barreteau
© Octopize 2022
crossmenuchevron-down