IA : Annoter les données

10 juin 2024

La phase d’annotation des données est cruciale pour garantir la qualité du modèle entraîné. Cet enjeu de performance peut être atteint au moyen d’une méthodologie rigoureuse garantissant le respect de la protection des données personnelles.

La phase d’annotation des données est une étape déterminante dans le développement d’un modèle d’IA de qualité, tant pour des enjeux de performance que pour le respect des droits des personnes. Cette étape est centrale en apprentissage supervisé, mais peut également permettre d’obtenir un jeu de validation en apprentissage non-supervisé. Elle consiste à attribuer une description, appelée « label » ou « étiquette », à chacune des données qui servira de « vérité de terrain » (ground truth) pour le modèle qui doit apprendre à traiter, classer, ou encore discriminer les données en fonction de ces informations.

L’annotation peut porter sur tous types de données, personnelles ou non, et contenir tous types d’informations, personnelles ou non. L’annotation peut être humaine, semi-automatique, ou automatique. Elle peut être un procédé à part entière, ou résulter de processus existants lors desquels une caractérisation des données a déjà été réalisée pour un certain besoin, puis réutilisée pour l’entraînement de modèles d’IA (comme dans le cas du diagnostic médical décrit ci-dessous). Dans certains cas, l'entraînement de l'IA reposera sur des données et annotations existantes.

Cette fiche, ainsi que celles sur la protection des données lors de la conception du système et de la collecte des données, devront alors être appliquées. Le périmètre de cette fiche vise l’ensemble des cas évoqués ci-dessus où l’annotation porte sur ou contient des données personnelles.

Exemples d’annotations :

  • Afin d’entraîner un modèle d’IA de reconnaissance du locuteur intégré dans un assistant vocal, des enregistrements vocaux sont annotés avec l’identité du locuteur ;
     
  • Afin d’entraîner un modèle d’IA de détection de chutes intégré dans le système de vidéosurveillance d’un EHPAD, des images sont annotées avec la position des personnes représentées selon plusieurs labels tels que « debout » ou « couché » ;
     
  • Afin d’entraîner un modèle d’IA de reconnaissance des plaques minéralogiques intégré dans une barrière d’accès à un espace privé, des images sont annotées avec la position des pixels contenant une plaque minéralogique ;
     
  • Afin d’entraîner un modèle d’IA de prédiction du risque d’une certaine pathologie, ayant vocation à être utilisé comme une aide au diagnostic par le personnel soignant d’un établissement hospitalier, les résultats sanguins de patients sont annotés avec le diagnostic réalisé par un médecin sur la pathologie en question.

Les enjeux de l’annotation pour les droits et libertés des personnes


Garantir la qualité de l’annotation


L’information et l’exercice des droits


L’annotation à partir de données sensibles