IA : Annoter les données
La phase d’annotation des données est cruciale pour garantir la qualité du modèle entraîné. Cet enjeu de performance peut être atteint au moyen d’une méthodologie rigoureuse garantissant le respect de la protection des données personnelles.
La phase d’annotation des données est une étape déterminante dans le développement d’un modèle d’IA de qualité, tant pour des enjeux de performance que pour le respect des droits des personnes. Cette étape est centrale en apprentissage supervisé, mais peut également permettre d’obtenir un jeu de validation en apprentissage non-supervisé. Elle consiste à attribuer une description, appelée « label » ou « étiquette », à chacune des données qui servira de « vérité de terrain » (ground truth) pour le modèle qui doit apprendre à traiter, classer, ou encore discriminer les données en fonction de ces informations.
L’annotation peut porter sur tous types de données, personnelles ou non, et contenir tous types d’informations, personnelles ou non. L’annotation peut être humaine, semi-automatique, ou automatique. Elle peut être un procédé à part entière, ou résulter de processus existants lors desquels une caractérisation des données a déjà été réalisée pour un certain besoin, puis réutilisée pour l’entraînement de modèles d’IA (comme dans le cas du diagnostic médical décrit ci-dessous). Dans certains cas, l'entraînement de l'IA reposera sur des données et annotations existantes.
Cette fiche, ainsi que celles sur la protection des données lors de la conception du système et de la collecte des données, devront alors être appliquées. Le périmètre de cette fiche vise l’ensemble des cas évoqués ci-dessus où l’annotation porte sur ou contient des données personnelles.
Exemples d’annotations :
- Afin d’entraîner un modèle d’IA de reconnaissance du locuteur intégré dans un assistant vocal, des enregistrements vocaux sont annotés avec l’identité du locuteur ;
- Afin d’entraîner un modèle d’IA de détection de chutes intégré dans le système de vidéosurveillance d’un EHPAD, des images sont annotées avec la position des personnes représentées selon plusieurs labels tels que « debout » ou « couché » ;
- Afin d’entraîner un modèle d’IA de reconnaissance des plaques minéralogiques intégré dans une barrière d’accès à un espace privé, des images sont annotées avec la position des pixels contenant une plaque minéralogique ;
- Afin d’entraîner un modèle d’IA de prédiction du risque d’une certaine pathologie, ayant vocation à être utilisé comme une aide au diagnostic par le personnel soignant d’un établissement hospitalier, les résultats sanguins de patients sont annotés avec le diagnostic réalisé par un médecin sur la pathologie en question.
Les enjeux de l’annotation pour les droits et libertés des personnes
Si elle porte sur des données personnelles, l’annotation doit se faire dans le respect du règlement général sur la protection des données (RGPD). Elle s’inscrit généralement dans la finalité plus globale définie en amont du traitement et doit respecter les principes posés par le RGPD. Au regard des risques pour les individus tant en phase de développement que de déploiement, la CNIL souhaite attirer l’attention des acteurs ayant recours à l’annotation sur les principes de minimisation, d’exactitude et de loyauté.
Le principe de minimisation
La minimisation consiste à ne traiter que les données « adéquates, pertinentes et limitées à ce qui est nécessaire au regard des finalités pour lesquelles elles sont traitées » (article 5.1.c du RGPD). En pratique, cela signifie que les annotations, autant que les données d’apprentissage à annoter, doivent se limiter à ce qui est nécessaire à l’entraînement du modèle, comme décrit dans la fiche « Tenir compte de la protection des données dans la collecte et la gestion des données » .
Les annotations contenant des informations non pertinentes avec la fonctionnalité prévue ne respectent pas le principe de minimisation. Dans certains cas, une information indirectement liée à la fonctionnalité peut être utile pour améliorer les performances du modèle (comme par exemple des images de panneaux publicitaires pour l’entraînement d’un modèle d’identification des panneaux de signalisation, cet ajout lui permettant d’éviter certains faux positifs). Une information est pertinente dès lors que son lien avec les performances du modèle est prouvé (théoriquement, ou empiriquement, notamment dans des publications scientifiques) ou suffisamment plausible.
Les jeux annotés de données utilisées par le développeur d’un système d’IA à l’issue d’une collecte antérieure, d’un achat ou d’un téléchargement depuis une source ouverte ou non ne devraient contenir que des annotations pertinentes au regard des fonctionnalités du système qu’il développe. Lorsque cela n’est pas techniquement possible, le responsable du traitement doit être en mesure de le justifier et s’être efforcé de recourir au jeu annoté le plus pertinent. Un tri dans les données doit alors être réalisé pour limiter les annotations conservées à celles qui sont pertinentes.
Lorsque l’activité d’un organisme consiste à constituer des jeux de données d’entraînement au service de tiers, deux situations doivent être distinguées :
- soit, ce qui est recommandé, le jeu d’entraînement est créé ou configuré spécialement pour les besoins du client ; le fournisseur du jeu d’entraînement est alors sous-traitant de son client pour l’application du RGPD ; le sous-traitant doit s’assurer que le jeu de données ne contient que des annotations pertinentes ;
- soit le fournisseur met à disposition des jeux d’entraînement déjà constitués ; il doit alors avoir conçu son produit de façon à permettre le respect du principe de minimisation ; une solution peut être de prévoir plusieurs catégories d’annotations, séparables ou cumulables, ou de proposer plusieurs jeux distincts en fonction des types d’annotation.
Dans tous les cas, les jeux d’entraînement doivent avoir été constitués et être mis à disposition dans le respect du RGPD.
Les recommandations de la CNIL sur la minimisation des données formulées au sein des fiches « Tenir compte de la protection des données dès les choix de conception du système pour respecter la minimisation » et « Tenir compte de la protection des données dans la collecte et la gestion des données » sont applicables.
Les annotations peuvent inclure des éléments de contexte utiles pour la mesure et la correction des erreurs et des biais. Dans le cas de systèmes probabilistes comme sont la majorité des systèmes d’IA, la gestion de la performance repose sur la capacité à mesurer et corriger les erreurs et les biais les plus à même d’impacter l’efficacité du système. Il peut donc être pertinent d’annoter les données d’entraînement, de test ou de validation avec des éléments de contexte (date et heure, météo, etc.), notamment pour mesurer d’éventuels écarts de performance selon les situations. En revanche, une attention particulière doit être portée à l’annotation avec des données personnelles telles que le nom d’une personne ou des données sensibles (religion, couleur de peau, etc. – voir infra).
Le principe d’exactitude
L’exactitude impose que les données traitées soient exactes et, si nécessaire, tenues à jour. Ce principe implique que l’annotation ne doit contenir que des informations exactes à propos de la personne à qui correspondent les données. Une annotation inexacte ou fondée sur des critères inadaptés ou arbitraires ne respectera pas le principe d’exactitude. En pratique, cela signifie que le développeur devra prendre les mesures adéquates afin de s’assurer que les critères d’annotation sont objectifs. Cet enjeu apparaît d’autant plus important en raison du fait que l’annotation se concrétise généralement par un unique mot, ou par une expression courte, qui ne suffit pas à décrire une personne. Cette annotation possède un risque d’être perçue comme dégradante par les personnes qu’il convient de ne pas négliger, d’autant plus que le système pourrait reproduire les inexactitudes de l’annotation plus tard, lors du déploiement du système et conduire à des sorties inexactes, voire dégradantes ou discriminantes.
D’autres principes moins spécifiques à l’annotation, tels que la loyauté, la transparence, la confidentialité ou encore l’intégrité, s’appliquent également.
Garantir la qualité de l’annotation
La CNIL invite les acteurs à mettre en œuvre les mesures qui suivent :
La définition d’une procédure de vérification continue. Cette procédure visant à contrôler la qualité de l’annotation devrait être mise en œuvre peu après le début de l’annotation, puis perdurer au moyen de contrôle réguliers ou continus au cours de l’annotation. Elle devrait être documentée et pourra par exemple reposer sur :
- Définir un protocole d’annotation, en application des principes d’exactitude et de minimisation. La CNIL recommande de suivre les étapes suivantes :
- Le choix des labels d’annotation. Ils devront être adaptés à la finalité visée pour le déploiement du système, et limités aux informations utiles pour l’apprentissage. Bien que cette finalité ne soit pas toujours précisément connue lors de la conception du modèle, notamment pour les modèles de fondation, les labels choisis devraient correspondre aux fonctionnalités attendues à l’issue de l’apprentissage. Pour plus d’informations sur la finalité des modèles de fondation et systèmes à usage général, se référer à la fiche « Définir une finalité ». De plus, ils devront permettre une annotation objective et dénuée d’ambiguïté. Ces labels servant à caractériser les données d’une personne, leur choix devra se faire de manière loyale envers les personnes dont les données sont annotées et notamment exclure tout terme dégradant, dépréciatif ou relevant d’un jugement de valeur pouvant porter atteinte à la réputation des personnes. Les annotations pouvant servir de valeurs de substitution, ou proxy, pour d’autres informations concernant la personne, tel que des informations sensibles, une attention particulière doit être portée à ce que ceux-ci ne conduisent pas à l’introduction involontaire de biais, et éventuellement de discriminations, dans le système. Dans le cas où l’annotation résulte d’un processus métier, une phase de tri ou de requalification des labels peut être recommandée afin de limiter les annotations à ce qui est nécessaire et pertinent pour l’entraînement du modèle d’IA.
- La définition d’une procédure d’annotation. Elle devrait :
- être documentée ;
- prévoir une attribution des tâches claires, limitant ainsi l’accès aux données aux seules personnes habilitées ;
- permettre aux personnes réalisant l’annotation d’effectuer des retours sur le protocole d’annotation, et en particulier sur les labels et sur les données, afin d’identifier quand le protocole est améliorable ou inadapté ;
- inclure une phase de validation visant à confirmer le choix des labels et le fonctionnement de la procédure, au cours de laquelle l’accord inter-annotateurs sera par exemple évalué lorsque plusieurs personnes réalisent l’annotation. Une analyse approfondie portant sur un échantillon aléatoire de données annotées permettra de déceler certaines erreurs, imprécisions, ou inexactitudes récurrentes lors de cette phase ;
- être suivie au moyen d’une journalisation des modifications apportées, ou grâce à un outil de gestion des versions ;
- reposer sur un outil d’annotation fiable, robuste et maîtrisé. De nombreux outils d’annotations, souvent spécifiques à certaines typologies de données (images, texte, son, données tabulaires) existent ; il est recommandé de vérifier leur sécurité et leur pertinence avec la finalité visée, notamment lorsqu’ils intègrent une fonctionnalité d’annotation semi-automatique. Le guide d’Etalab pour préparer et conduire sa campagne d’annotation propose plusieurs critères permettant de sélectionner le logiciel d’annotation de texte le plus adapté à sa situation (certains de ces critères restent pertinents pour l’annotation d’autres typologies de données).
Dans le cas où l’annotation résulte d’un processus métier, ce dernier doit intégrer les recommandations précédentes et faire de l’annotation des données un objectif à part entière.
- être documentée ;
- La définition d’une procédure de vérification continue. Cette procédure visant à contrôler la qualité de l’annotation devrait être mise en œuvre peu après le début de l’annotation, puis perdurer au moyen de contrôle réguliers ou continus au cours de l’annotation. Elle devrait être documentée et pourra par exemple reposer sur :
- des panels de discussion incluant l’équipe d’annotation, l’équipe en charge du développement du système, et les utilisateurs du système lorsqu’ils sont connus ;
- l’analyse d’échantillons aléatoires de données annotées ;
- un audit interne ou externe ;
- une analyse de la pertinence des annotations pour chaque nouveau cas d’usage nécessitant un apprentissage sur les données (un jeu d’images constitué pour entraîner un algorithme de reconnaissance de véhicules devrait être revu avant d’être utilisé pour la détection de piétons par exemple) ;
- une procédure de prise en compte des retours des utilisateurs du jeu de données ou du modèle entraîné sur la qualité de l’annotation et sur les corrections à apporter ;
- la procédure de contrôle qualité prévue dans le cadre des processus métier, qui devra être adaptée afin d’inclure la qualité de l’annotation comme objectif à part entière.
- des panels de discussion incluant l’équipe d’annotation, l’équipe en charge du développement du système, et les utilisateurs du système lorsqu’ils sont connus ;
- Le choix des labels d’annotation. Ils devront être adaptés à la finalité visée pour le déploiement du système, et limités aux informations utiles pour l’apprentissage. Bien que cette finalité ne soit pas toujours précisément connue lors de la conception du modèle, notamment pour les modèles de fondation, les labels choisis devraient correspondre aux fonctionnalités attendues à l’issue de l’apprentissage. Pour plus d’informations sur la finalité des modèles de fondation et systèmes à usage général, se référer à la fiche « Définir une finalité ». De plus, ils devront permettre une annotation objective et dénuée d’ambiguïté. Ces labels servant à caractériser les données d’une personne, leur choix devra se faire de manière loyale envers les personnes dont les données sont annotées et notamment exclure tout terme dégradant, dépréciatif ou relevant d’un jugement de valeur pouvant porter atteinte à la réputation des personnes. Les annotations pouvant servir de valeurs de substitution, ou proxy, pour d’autres informations concernant la personne, tel que des informations sensibles, une attention particulière doit être portée à ce que ceux-ci ne conduisent pas à l’introduction involontaire de biais, et éventuellement de discriminations, dans le système. Dans le cas où l’annotation résulte d’un processus métier, une phase de tri ou de requalification des labels peut être recommandée afin de limiter les annotations à ce qui est nécessaire et pertinent pour l’entraînement du modèle d’IA.
- Impliquer un référent ou un comité éthique, à titre de bonne pratique, en amont puis tout au long de la phase d’annotation. Le caractère pluridisciplinaire et objectif de ce comité permettra :
- De choisir la meilleure option pour l’annotation des données, qu’il s’agisse d’un traitement en interne, d’une sous-traitance (et du choix du sous-traitant), ou du recours à une solution ne nécessitant pas d’annotation (utilisation d’un jeu existant ou de données synthétiques) ;
- D’établir un protocole d’annotation, et notamment de choisir et de définir les labels utilisés pour l’annotation ;
- De vérifier l’application du protocole d’annotation ;
- De contrôler la qualité des annotations et leur adéquation à la tâche visée en phase de déploiement.
Dans chacune de ces tâches, les recommandations détaillées suivantes devraient être prises en compte par le comité éthique. Les bonnes pratiques concernant les objectifs et la composition de ce comité sont à retrouver dans la fiche « Tenir compte de la protection des données dans les choix de conception du système ». Il est à noter que la constitution d’un comité éthique doit être adaptée aux contraintes structurelles de l’organisme. Pour les structures moins dotées en ressources, un référent « éthique » pourra tenir le rôle du comité ;
- De choisir la meilleure option pour l’annotation des données, qu’il s’agisse d’un traitement en interne, d’une sous-traitance (et du choix du sous-traitant), ou du recours à une solution ne nécessitant pas d’annotation (utilisation d’un jeu existant ou de données synthétiques) ;
Dans le cas d’une annotation résultant d’un processus métier, ces mesures doivent être intégrées dans ce processus (par exemple, si une information collectée dans le cadre de la procédure métier, comme un diagnostic médical, est réutilisée par la suite pour l’entraînement).
L’information et l’exercice des droits
Les personnes doivent être informées des opérations d’annotation
L’information des personnes dont les données sont collectées, qu’elle soit individuelle ou collective, doit faire mention de la phase d’annotation des données. En complément des informations qui doivent être fournies conformément au RGPD, il est recommandé, à titre de bonnes pratiques, de renforcer la transparence en communiquant les informations suivantes :
- l’objectif de l’annotation, comme par exemple d’identifier les personnes dans une image, ou de faire correspondre le diagnostic médical d’un patient à ses courriers médicaux.
- l’organisme en charge de l’annotation, qu’il s’agisse d’une équipe constituée par le responsable de traitement, d’un sous-traitant, ou d’une communauté de collaborateurs. Dans le cas du recours à un sous-traitant dont les équipes sont situées hors de l’Union Européenne, l’information devra préciser l’existence de transferts en dehors de l’UE. Le recours à un sous-traitant doit également faire l’objet de clauses contractuelles telles que celles proposées sur la page web « Clauses contractuelles types entre responsable de traitement et sous-traitant » de la CNIL.
- les critères de responsabilité sociale des entreprises respectés dans le cadre du contrat liant les personnes en charge de l’annotation au responsable de traitement, tels que les garanties apportées concernant les conditions de travail, la rémunération, ou le soutien psychologique lorsque l’annotation porte sur des données pouvant choquer.
- les mesures de sécurité prises, et en particulier celles concernant la phase d’annotation.
Une fois l’annotation réalisée, et lorsqu’il est possible d’informer a posteriori les personnes concernées, celles-ci peuvent être informées des résultats de l’annotation et notamment du label qui est attribué à leurs données dans un objectif de transparence. Cela peut-être une bonne pratique dans certains cas assez rares, et notamment lorsque :
- l’annotation est susceptible d’entraîner des conséquences pour les personnes, ce qui peut être le cas lorsque ses données représentent l’ensemble ou une part importante du jeu de données d’entraînement. Cela peut être le cas lorsque les données d’une personne sont utilisées afin d’ajuster un modèle (fine-tuning) pour son usage particulier sur la base d’un échantillon annoté.
- l'annotation est susceptible d’entraîner des conséquences pour les personnes, par exemple lorsqu’une divulgation involontaire des données pourrait porter une atteinte à la réputation des personnes.
Les personnes doivent pouvoir exercer leurs droits sur les annotations
Les droits peuvent être exercés aux labels associés aux données d’une personne lorsque les dérogations prévues par les textes (le RGPD et la loi Informatique et Libertés) ne s’appliquent pas, comme décrit dans la fiche dédiée à l’exercice des droits. En effet, l’annotation attribuée à une donnée personnelle pourra être considérée dans de nombreux cas comme une donnée personnelle. Il en découle que :
- le droit d’accès s’applique à l’annotation : les informations fournies suite à une demande de droit d’accès devront contenir les annotations attribuées aux données de la personne ;
- les droits à la rectification, à l’effacement (notamment suite au retrait du consentement), d’opposition, et à la limitation s’appliquent aux annotations. Lorsque ces droits sont exercés, le même traitement doit être appliqué aux données concernées et à leur annotation.
- le droit à la portabilité ne s’applique à l’annotation que lorsque celle-ci a été fournie par la personne et que le traitement est fondé sur la base légale du consentement ou sur celle du contrat ;
Distinguer annotation, profilage et prise de décision automatisée
Bien que l’annotation consiste à attribuer une ou plusieurs caractéristiques aux données de la personne pouvant ainsi constituer un profil, il ne s’agit généralement pas d’un profilage défini à l’article 4 du RGPD, ni d’une décision automatisée au sens de l’article 22 du RGPD.
En effet, le profilage visé par la définition du paragraphe 4 de l’article 4 doit résulter d’un traitement automatisé dont l’objectif est d’évaluer des aspects personnels, en particulier pour analyser ou faire des prédictions sur les personnes concernées. L’utilisation du mot « évaluer » suggère que le profilage implique une certaine forme d’appréciation ou de jugement à l’égard d’une personne. Dans la grande majorité des cas, l’annotation consiste en une classification afin de servir de « vérité terrain » pour le modèle qui devra apprendre à traiter, classer, ou encore discriminer les données en fonction de ces informations. Le but n’est généralement pas d’évaluer par une appréciation ou un jugement les caractéristiques individuelles et cela ne constitue donc pas du profilage.
Par ailleurs, les décisions automatisées visées à l’article 22 du RGPD, qui peuvent inclure le profilage, doivent avoir des effets juridiques concernant la personne ou l’affecter de manière significative. L’annotation des données d’une personne pour l’apprentissage n’aura généralement pas d’impact pour la personne concernée à ce stade du traitement de données.
Ainsi, l’annotation ne sera que rarement considéré comme un profilage, et elle n’entrera généralement pas dans le périmètre de l’article 22 du RGPD, à l’inverse des sorties du système d’IA en phase de déploiement, qui pourront fréquemment être considérées comme des prises de décision exclusivement automatisées.
L’annotation à partir de données sensibles
L’annotation peut parfois révéler des données sensibles (origine ethnique, données concernant la santé des personnes concernées, opinion politique ou syndicale, etc.) sans que la donnée source soit elle-même une donnée sensible. Le traitement de données sensibles est interdit par principe par l’article 9 du RGPD ; toutefois, certaines exceptions existent. L’organisme responsable du traitement d’annotation devra identifier l’une de ces exceptions pour pouvoir le mettre en œuvre légalement.
L’annotation « sensible » n’est donc pas impossible mais fait l’objet de dispositions particulières qui doivent être respectées. Dans le cas de projets de recherche en santé sur des données collectées lors de soins par exemple, les exceptions prévues par les article 44-3 de la Loi Informatique et Libertés et 9.2.j du RGPD peuvent s'appliquer. La mobilisation de ces exceptions et la réalisation de l'une des formalités prévues à l'article 66 de la LIL, comme un engagement de conformité à une méthodologie de référence, ou une demande d’autorisation accordée par la CNIL, permettront de traiter les données de santé annotées pour le développement d’un système d’IA.
Au regard des risques que le traitement de ces données comporte pour les personnes, tels que le risque de discrimination, la CNIL recommande de recourir autant que possible à d’autres catégories de données, telles que des données de synthèse.
Lorsque les dispositions applicables sont remplies et que le traitement est licite, des mesures particulières doivent néanmoins être prises au regard du risque accru pour les personnes. La CNIL recommande notamment les mesures suivantes :
- Annoter selon des critères objectifs et factuels (comme la mesure de la couleur de peau selon le système RGB plutôt que l’annotation de l’origine ethnique de la personne représentée dans une image), ce qui peut être permis par l’utilisation d’outils techniques d’annotation ne laissant pas de marge à l’interprétation de l’annotateur ;
- Limiter l’annotation au contexte des données en évitant de tirer des conclusions dépassant les informations présentes dans les données ;
- Renforcer l’étape de vérification des annotations notamment en ce qui concerne leur régularité (par une fréquence plus élevée par exemple), leur exhaustivité (par une analyse d’un volume de données plus important par exemple), ou encore le contrôle de leur efficacité (par une journalisation des résultats des vérifications, ou par un audit externe de la procédure par exemple). Cette étape de vérification semble notamment cruciale quand des outils d’annotation automatiques ou semi-automatiques sont utilisés ;
- Augmenter la sécurité les données annotées, en réalisant le traitement d’annotation en interne, en traitant les données localement, et en garantissant leur sécurité par le chiffrement, la journalisation, et par des restrictions d’accès plus fortes ;
- S’interroger sur le risque de régurgitation et d’inférence des données sensibles sur les modèles entraînés à partir de celles-ci. Lorsque le responsable du traitement d’annotation du jeu de données n’entraîne pas de modèle mais se contente de mettre les données à disposition d’autres organismes, il devrait les inciter à conduire cette réflexion sur les modèles qu’ils développent. La CNIL souhaite interroger les acteurs concernés sur les cas dans lesquels ces risques sont les plus importants et par les mesures permettant de les réduire par un questionnaire dédié (que des données sensibles soient traitées ou non). Les recommandations résultantes feront l’objet d’une publication après l’analyse des réponses reçues.
Le sujet de l’utilisation de données sensibles pour la gestion des biais discriminatoires est une problématique cruciale en intelligence artificielle et fera l’objet d’une fiche pratique dédiée.