Logo réduit OCTOPIZE - pictogramme

Masse Graisseuse

Ce cas d’usage illustre une problématique d’apprentissage supervisé : la prédiction d’une valeur continue, ici le pourcentage de masse graisseuse, en fonction des autres paramètres du jeu de données.

Type de données

Les données de santé sont toutes quantitatives. Elles mesurent le pourcentage de masse graisseuse d’un individu ainsi que d’autres variables physiologiques. On a ici un jeu de données représentatif d’une cohorte d’essai clinique avec quelques centaines d’individus dans la base. Le contexte de recherche est déterminé par une sensibilité modérée et un risque faible.
  • 252 individus
  • 15 variables

Objectifs de l’anonymisation

Dans ce cas d’usage, on identifie plusieurs objectifs.
  1. Dans un premier temps, le but est de rendre impossible la ré-identification des individus du jeu de données : objectif de protection des données personnelles.
  2. Deuxièmement, le but a été de conserver la capacité prédictive des données en termes de performance et d’explicabilité du modèle.
Le protocole d’entrainement consiste à entrainer deux modèles de machine learning identiques (ici RandomForest) sur les données originales d’une part et leurs équivalents avatarisés de l’autre. Les deux modèles ont ensuite été testés sur un reste de données originales.
Le graphique ci-contre représente la qualité de prédiction en fonction du modèle d’entrainement. Les avatars permettent donc de prédire la valeur de données de vie réelles avec la même performance que les données originales.
Ce graphique permet de visualiser l’importance que prennent les variables dans les modèles de régressions générés. En comparant les résultats des deux modèles respectivement entrainés sur des données de vie réelles et des avatars, on remarque une similitude d’interprétabilité. En effet les variables prépondérantes dans la prédiction de la valeur cible sont globalement les mêmes.

Autre cas d'usage

Pression Systolique

Les données appréhendées dans ce cas d’usage couvrent le contexte très particulier de l’anonymisation de séries temporelles.

Pathologie Cardiaque

Ce cas d’usage correspond à un exercice de classification. Le but étant de prédire une valeur bimodale, ici la présence de maladie cardiaque chez le patient, en fonction des autres paramètres renseignés dans le jeu de données.

Taxi New-Yorkais

Le cas d’usage « Taxi New-Yorkais » présente un contexte d’anonymisation de données spatio-temporelles. La difficulté réside dans la nature particulière de ces données dont la combinaison des dimensions spatiales et temporelles accentue le risque de ré-identification.
© Octopize 2021
crossmenuchevron-down