Logo réduit OCTOPIZE - pictogramme

Pathologie Cardiaque

Ce cas d’usage correspond à un exercice de classification. Le but étant de prédire une valeur bimodale, ici la présence de maladie cardiaque chez le patient, en fonction des autres paramètres renseignés dans le jeu de données.

Type de données

Les données de santé sont à la fois qualitatives et quantitatives et spécifient la présence ou non d’une pathologie cardiaque chez un patient en fonction de différentes variables. Il s’agit de données sensibles puisqu’une ré-identification peut conduire à la fuite de l’état de santé d’un patient.
  • 303 individus
  • 14 variables

Objectifs de l'anonymisation

Dans ce cas d’usage, on identifie deux objectifs.

  1. Dans un premier temps, le but est de rendre impossible la ré-identification des individus du jeu de données : objectif de protection des données personnelles.
  2. Deuxièmement, on cherche conserver la capacité prédictive des données en termes de performance au regard de plusieurs modèles de machine Learning usuels.
En termes d’analyses, la réalisation d’une réduction de dimension des données et leur projection d’un espace euclidien est une pratique utile pour déterminer les axes de variance majoritaires des données. On détourne ici son utilisation en projetant, suite à une analyse factorielle de données mixtes, les données avatarisées dans l’espace déterminé par les données originales. La structure des données est conservée suite au processus de transformation en avatars. La stabilité des ellipses de confiance déterminant l’état de santé est un indicateur présageant de la qualité de conservation du signal à l’issue de l’étape de transformation des données en avatars.
Le protocole d’évaluation consiste à entrainer plusieurs modèles de machine learning, identiques 2 à 2, sur les données originales d’une part et leur équivalent avatarisé de l’autre. Les deux modèles ont ensuite été testés sur un reste de données originales.
L’ensemble des scores d’accuracy (le pourcentage de bonnes prédictions) des différents modèles est ensuite comparé. Il en résulte que les modèles entrainés sur des avatars permettent de prédire avec une performance similaire aux modèles entrainés sur des données originales peu importe le modèle utilisé.

Autre cas d'usage

Pression Systolique

Les données appréhendées dans ce cas d’usage couvrent le contexte très particulier de l’anonymisation de séries temporelles.

Masse Graisseuse

Ce cas d’usage illustre une problématique d’apprentissage supervisé : la prédiction d’une valeur continue, ici le pourcentage de masse graisseuse, en fonction des autres paramètres du jeu de données.

Taxi New-Yorkais

Le cas d’usage « Taxi New-Yorkais » présente un contexte d’anonymisation de données spatio-temporelles. La difficulté réside dans la nature particulière de ces données dont la combinaison des dimensions spatiales et temporelles accentue le risque de ré-identification.
© Octopize 2021
crossmenuchevron-down