IA : comment être en conformité avec le RGPD ?
L’intelligence artificielle pose des questions cruciales et nouvelles, tout particulièrement au regard de la protection des données. La CNIL rappelle les grands principes de la loi Informatique et Libertés et du RGPD à suivre, ainsi que ses positions sur certains aspects plus spécifiques.
Définir une finalité
Le principe
Pour respecter le RGPD, un système d’intelligence artificielle (IA) reposant sur l’exploitation de données personnelles doit toujours être développé, entrainé, et déployé avec une finalité (objectif) bien définie.
Cet objectif doit être déterminé, c’est-à-dire établi en amont, dès la conception du projet. Il doit également être légitime, donc compatible avec les missions de l’organisme. Il doit enfin être explicite, c’est-à-dire connu et compréhensible.
En savoir plus : Définir une finalité
En pratique
Comme pour tout traitement de données, mais encore plus ceux impliquant de très grandes quantités de données personnelles – comme c’est bien souvent le cas avec les systèmes d’IA – il est nécessaire de s’assurer que ce principe est bien respecté.
En particulier car c’est la finalité qui permet de s’assurer que seules les données pertinentes sont utilisées et que la durée de conservation retenue est adaptée.
Apprentissage VS production : le cas particulier des systèmes d’IA
La mise en place d’un système d’IA reposant sur l’apprentissage automatique nécessite la succession de deux phases :
-
La phase d’apprentissage
La phase d’apprentissage consiste à concevoir, développer et entraîner un système d’IA et en particulier un modèle, c’est-à-dire une représentation de ce que le système d’IA aura appris à partir des données d’entraînement.
-
La phase de production
La phase de production consiste à déployer de manière opérationnelle le système d’IA obtenu à l’étape 1.
Du point de vue de la protection des données, ces deux étapes ne remplissent pas le même objectif et doivent donc être séparées.
Dans les deux cas la finalité des traitements de données personnelle effectués lors de chacune de ces phases devra être déterminée, légitime et explicite.
Établir une base légale
Le principe
Comme tout traitement, un système d’IA exploitant des données personnelles ne pourra être mis en œuvre que s’il correspond à une justification prévue par la loi. Elles sont au nombre de 6 dans le RGPD : le consentement, le respect d’une obligation légale, l’exécution d’un contrat, l’exécution d’une mission d’intérêt public, la sauvegarde des intérêts vitaux, la poursuite d’un intérêt légitime. Concrètement, la base légale est ce qui donne le droit à un organisme de traiter des données personnelles. Le choix de cette base légale est donc une première étape indispensable pour assurer la conformité du traitement. Selon celle qui sera retenue, les obligations de l’organisme et les droits des personnes pourront varier.
Ce choix de la base légale doit intervenir avant la mise en œuvre du traitement des données.
En savoir plus : Les bases légales
Si la mise en place d’un système d’IA ne diffère pas fondamentalement d’un autre traitement de données personnelles, certaines spécificités imposent néanmoins d’être vigilant. Ainsi, les systèmes d’IA – et en particulier ceux reposant sur l’apprentissage automatique (machine learning) – nécessitent d’exploiter des données lors de la phase d’apprentissage avant d’être appliqué à d’autres en phase opérationnelle.
En tout état de cause, un système d’IA ne pourra pas être mis en œuvre sur des données personnelles collectées illégalement, autant en phase d’apprentissage qu’en phase opérationnelle. La section suivante, « Constituer une base de données », fournit de plus amples précisions.
Par ailleurs, lorsque les données ont été collectées sous un autre régime (tel que celui de la directive Police-Justice par exemple), un traitement de données personnelles à des fins d’apprentissage relève, sauf cas particulier, du RGPD sous réserve que :
- cette phase d’apprentissage est bien distincte de celle de mise en œuvre opérationnelle du système d’IA (voir l’encadré « Apprentissage VS production : le cas particulier des systèmes d’IA » de la section précédente « Définir une finalité ») ;
- sa finalité exclusive consiste à développer ou améliorer les performances d’un système d’IA.
Attention : l’objectif de « recherche scientifique » ne peut pas constituer, en soi, une base légale du traitement. Seules les bases légales listées dans le RGPD peuvent permettre de mettre en œuvre un traitement de données personnelles.
Constituer une base de données
Les systèmes d’IA, et en particulier ceux reposant sur l’apprentissage automatique, nécessitent l’utilisation d’importants volumes de données. Celles-ci sont indispensables, tant à des fins d’entrainement des systèmes que d’évaluation, de comparaison (benchmarking) ou de validation. La constitution de bases de données a toujours été un enjeu pour la recherche en informatique et représente un effort important puisqu’il s’agit de les assortir d’annotations décrivant les données et de réaliser un travail de catégorisation, de nettoyage, de normalisation, etc. De ce fait, il s’agit d’un enjeu essentiel pour les traitements d’intelligence artificielle.
En pratique
Il existe deux grandes possibilités pour la constitution de bases de données : la collecte spécifique de données personnelles à cette fin et la réutilisation de données déjà collectées pour une autre finalité. Dans ce dernier cas, se pose la question de la compatibilité des finalités pour lesquelles les données ont été initialement collectées et des conditions dans lesquelles la base initiale a été constituée.
Dans tous les cas, la constitution de bases de données personnelles, qui reposent bien souvent sur des durées de conservation des données longues, ne peut se faire au détriment des droits des personnes concernées. En particulier, elle doit s’accompagner des mesures d’information :
- soit préalablement à la collecte ;
- soit dans un délai d’un mois après la réception des bases par les tiers.
Cette information est essentielle pour permettre l’exercice des autres droits (accès, rectification, suppression, opposition).
Exemples
- Dans le domaine de la santé, la CNIL a eu l’occasion de se prononcer sur la constitution d’entrepôts de données de santé. Dans un référentiel récemment publié, elle précise dans quel cadre peut être opérée la collecte et la conservation des données dans une base unique pendant une longue durée, cela dans le cadre de missions d’intérêt public et pour la réalisation de recherches ultérieures.
- Dans le cadre d’une demande de conseil, les services de la CNIL ont pu admettre la réutilisation d’images de vidéo protection dans un contexte particulier pour la réalisation de recherches scientifiques sur la compréhension des mouvements de foules, une tâche du domaine de la vision par ordinateur. Il a néanmoins été précisé que pour ce faire, la collecte devait :
- avoir lieu dans le délai légal de conservation des images de vidéo protection (1 mois) ; et
- être assortie d’informations à destination des personnes concernées.
Minimiser les données
Le principe
Les données personnelles collectées et utilisées doivent être adéquates, pertinentes et limitées à ce qui est nécessaire au regard de l’objectif défini : c'est le principe de minimisation des données. Une attention particulière doit être apportée à la nature des données et ce principe doit être appliqué de manière particulièrement rigoureuse lorsque les données traitées sont sensibles (article 9 du RGPD).
Les systèmes d’IA actuellement les plus en vue et les plus discutés reposent sur des méthodes d’apprentissage automatique (machine learning) particulièrement puissantes. L’amélioration de ces méthodes a été rendu possible par les effets conjugués :
- de la recherche et du développement de nouvelles approches ;
- de l’augmentation de la puissance de calcul disponible permettant de réaliser des opérations plus complexes ; et
- de l’accroissement des volumes de données disponibles.
Si l’utilisation de quantités importantes de données est au cœur du développement et de l’utilisation des systèmes d’IA, le principe de minimisation n’est cependant pas un obstacle en soi à la réalisation de tels traitements.
En pratique
Il est nécessaire de déterminer les types de données nécessaires à l’entraînement et au fonctionnement d’un système d’IA, par exemple au moyen d’expérimentations et tests réalisés sur des données fictives, c’est-à-dire présentant la même structure que des données réelles sans pour autant être liées à une personne. Ces données ne sont alors pas des données personnelles.
La quantité de données nécessaires à l’entraînement du système doit également être estimée précisément et mise en regard avec la finalité du traitement, en lien avec le principe de proportionnalité.
En effet, la phase d’apprentissage (ou d’entraînement) vise à développer un système d’IA et donc à explorer les possibilités offertes par l’apprentissage automatique et peut nécessiter un grand nombre de données dont certaines s’avéreront finalement inutiles lors de la phase de déploiement.
Un usage raisonné des données doit donc être fait. En pratique, il est ainsi préconisé, et cela de façon non-exhaustive :
- d’évaluer de manière critique la nature et la quantité des données à utiliser ;
- de vérifier les performances du système lorsqu’il est alimenté par de nouvelles données ;
- de distinguer clairement les données utilisées lors des phases d’apprentissage et de production ;
- de recourir à des mécanismes de pseudonymisation ou de filtrage/obfuscation des données ;
- d’établir et tenir à disposition une documentation concernant les modalités de constitution du jeu de données utilisé et de ses propriétés (source des données, échantillonnage des données, vérification de leur intégrité, opérations de nettoyage réalisées, etc.) ;
- de réévaluer de manière régulière les risques pour les personnes concernées (vie privée, risque de discrimination/biais, etc.) ;
- de veiller à la sécurité des données et notamment d’encadrer précisément les habilitations d’accès pour limiter les risques.
Exemple
Dans le cadre d’une recherche clinique visant à identifier les variables explicatives du cancer de la prostate, la CNIL a refusé à un laboratoire pharmaceutique le traitement de données de l’ensemble de la file active des dossiers médicaux des différents centres participants à l’étude.
En effet, cette file active contenait plusieurs centaines de millions de dossiers de personnes ne souffrant pas de l’affection étudiée (et même des dossiers de personnes du sexe féminin !). La volonté de traiter ces données, qui s’explique scientifiquement par la nécessité de disposer de « vrais négatifs » afin d’entraîner efficacement un classifieur, est en effet apparue disproportionnée au regard de la finalité du traitement, et non nécessaire pour le développement d’un système d’IA avec de bonnes performances.
Apprentissage VS production - le cas particulier des systèmes d’IA
Au cours de la phase d’apprentissage, un encadrement relativement souple est possible concernant l’accès à des données en volume et diversité suffisants, sous réserves de contreparties proportionnées aux risques soulevés par le traitement (sont notamment à prendre en compte la nature des données, leur volume et la finalité du système d’IA). Les mesures peuvent consister en :
- un accès limité à un nombre restreint de personnes habilitées ;
- un traitement borné dans le temps, la pseudonymisation des données ;
- la mise en œuvre de mesures techniques et organisationnelles adaptées ;
- etc.
C’est uniquement à l’issue de la phase d’apprentissage que le déploiement en phase de production du système d’IA pourra être envisagé. Pour cette seconde phase, en quittant l’environnement du « laboratoire », des contraintes plus fortes devront être mises en œuvre pour encadrer le traitement.
Il sera par exemple nécessaire de resserrer la typologie des données personnelles aux seules qui se sont avérées indispensables à l’issue de la phase d’apprentissage et de décliner des mesures adaptées, les contraintes de production différant des contraintes de conception et de développement, sous réserve que cette première phase ne présente pas de risques particuliers pour les personnes.
Exemples
- Dans le cadre d’un projet soumis par une administration, la CNIL a eu l’occasion de se prononcer sur la différence entre la phase d’apprentissage (ou de développement) et la phase opérationnelle (ou de production) d’un système d’IA. Dans le cadre de ce projet, il était prévu que la première phase (d’apprentissage) soit autorisée par décret. Si cette phase s’était avérée satisfaisante, un second décret aurait ensuite eu vocation à encadrer la mise en œuvre pratique de ce référentiel à destination des professionnels et du grand public.
- Dans le domaine de la santé, on distingue clairement les phases de recherche qui nécessitent une formalité auprès de la CNIL (autorisation, conformité à une méthodologie de référence, etc.) et les phases d’exploitation dans un parcours de soin qui, elles, ne nécessitent pas de formalité auprès de la CNIL.
Définir une durée de conservation
Le principe
Les données personnelles ne peuvent être conservées indéfiniment. Le RGPD impose de définir une durée au bout de laquelle les données doivent être supprimées, ou dans certains cas archivées. Cette durée de conservation doit être déterminée par le responsable de traitement en fonction de l’objectif ayant conduit à la collecte de ces données.
En savoir plus : Les durées de conservation des données
La mise en œuvre d’un système d’IA peut dans bien des cas nécessiter la conservation de données personnelles pour une durée plus longue que pour d’autres traitements. Cela peut être le cas pour la constitution de jeu de données pour l’entraînement et le développement de nouveaux systèmes mais également pour répondre à des impératifs de traçabilité et de mesure de performance au cours du temps lorsque le système est mis en production.
La nécessité de définir une durée de conservation pour les données utilisées par un traitement ne fait pas obstacle à la mise en œuvre des traitements d’IA. Cette durée doit toujours être proportionnée à la finalité poursuivie : par exemple, la finalité de mesure de performance doit être explicitement prévue pour être utilisée et les données conservées plus longtemps à cette fin doivent être sélectionnées de manière adéquate. La simple finalité de mesure de performance dans le temps ne suffit pas, a priori, à justifier une conservation longue de toutes les données.
Par ailleurs, pour les traitements d’IA mis en œuvre à des fins de recherche scientifique, il est possible de conserver les données pour des durées plus longues.
Encadrer l’amélioration en continu
La distinction entre les phases d’apprentissage et de production n’apparaît pas toujours de manière claire pour tous les systèmes d’IA. C’est en particulier le cas des systèmes d’apprentissage dit « en continu » pour lesquels les données utilisées lors de la phase de production le sont également pour améliorer le système procédant ainsi d’une boucle de rétroaction complète. Le processus de réapprentissage peut être envisagé à des fréquences différentes, au bout de quelques heures, jours ou mois par exemple en fonction de l’objectif poursuivi.
Les questions à se poser
Outre les risques de dérive inhérents à l’apprentissage en continu (introduction de biais discriminatoires, dégradation des performances, etc.), une telle utilisation des données pour deux finalités distinctes (celle pour lequel le système d’IA est mis en production et l’amélioration intrinsèque du système) pose question du point de vue de la protection des données :
- Dans quelle mesure ces deux finalités sont-elles indissociables ?
- Est-il possible d’opérer dans tous les cas une séparation entre phases d’apprentissage et de production ?
- Si l’algorithme est fourni par un éditeur et utilisé par un responsable de traitement tiers, comment répartir les responsabilités liées aux deux phases du traitement ?
Exemples
- Dans les cas sur lesquels elle a été amenée à se prononcer, la CNIL a toujours considéré qu’il était possible de séparer les phases d’apprentissage et de production, quand bien même celles-ci se trouveraient intriquées l’une dans l’autre. Par exemple, dans son livre blanc sur les assistants vocaux, la CNIL analyse le cas d’usage de la réutilisation des données collectées par un assistant vocal à des fins d’amélioration du service. L’exemple de l’annotation de nouveaux exemples d’apprentissage pour l’amélioration des performances des systèmes d’intelligence artificielle est spécifiquement évoqué et une distinction est clairement faite entre ce traitement et celui mis en œuvre pour l’exécution de la prestation attendue par l’utilisateur de l’assistant vocal.
- Concernant la répartition des responsabilités entre acteurs, la CNIL s’est récemment prononcée sur la question de la réutilisation par un sous-traitant de données confiées par un responsable de traitement. Appliquée au cas des systèmes d’IA, une réutilisation par un fournisseur de système est légalement possible si plusieurs conditions sont remplies : autorisation du responsable de traitement, test de compatibilité, information et respect des droits des personnes et conformité du nouveau traitement mis en œuvre.
Se prémunir des risques liés aux modèles d’IA
Les principaux risques
L’apprentissage automatique repose sur la création de modèles. Ces derniers sont des représentations de ce que les systèmes d’IA ont appris à partir des données d’entraînement. Depuis 2010 environ, un champ de recherche en informatique a émergé sur le sujet de la sécurisation des modèles d’IA et en particulier les possibilités d’extraction d’information, qui peut avoir des répercussions importantes pour la confidentialité des données personnelles.
On parle ainsi fréquemment d’attaques par inférence d’appartenance, d’attaque par exfiltration de modèle ou encore d’attaque par inversion de modèle (voir l’article LINC « Petite taxonomie des attaques des systèmes d’IA »).
Par exemple, de nombreuses études ont démontré que les modèles de langage de grandes tailles (GPT-3, BERT, XLM-R, etc.) avaient tendance à « mémoriser » certains éléments textuels sur lesquels ils avaient été entrainés (nom, prénom, adresse, numéro de téléphone, de carte bleue, etc.). La possibilité de mener de telles attaques et d’en extraire des informations questionne la nature même de ces nouveaux objets introduits par l’intelligence artificielle. Il est donc nécessaire de mettre en œuvre des mesures tant techniques qu’organisationnelles pour minimiser les risques (voir les publications LINC consacrées à la sécurité des systèmes d’IA).
Par ailleurs, un modèle d’IA entrainé à partir de données personnelles ne peut, par défaut, être considéré lui-même comme une donnée personnelle (ou plus exactement un ensemble de données personnelles). Cependant, sa constitution doit se fonder sur une exploitation licite des données au sens du RGPD. Certaines autorités de régulation ont ainsi pu exiger la suppression de modèles d’IA constitués sur la base de données illégalement collectées (par exemple la Federal Trade Commission aux Etats-Unis).
Enfin, si un modèle d’IA fait l’objet d’une attaque en confidentialité réussie (par inférence d’appartenance, exfiltration ou inversion par exemple), cela peut constituer une violation de données. Il est alors nécessaire de procéder au retrait du modèle en question dans les plus brefs délais et de procéder à une notification de violation de données auprès de l’autorité de protection des données compétente si la violation est susceptible d'entraîner un risque pour les droits et libertés des personnes concernées.
Exemples
La CNIL a eu l’occasion d’échanger avec différents organismes concernant le statut des modèles d’IA au regard du RGPD. À ce jour, la CNIL ne considère pas qu’un modèle d’IA entrainé à partir de données personnelles contienne nécessairement des données personnelles.
Néanmoins, de véritables risques d’atteinte à la vie privée existant, la CNIL recommande que des mesures adaptées soient mises en œuvre pour les minimiser. Ainsi, dans le cadre de l’accompagnement d’un des projets lauréats du « bac à sable » données personnelles, la question de la nature des modèles d’IA appris localement et remontés à un centre orchestrateur lors de la mise en œuvre de méthodes d’apprentissage fédéré s’est posée.
S’assurer de l’information et de l’explicabilité
Le principe :
Le principe de transparence du RGPD exige que toute information ou communication relative au traitement de données personnelles soit concise, transparente, compréhensible et aisément accessible, en des termes simples et clairs.
En savoir plus : Comment informer les personnes et assurer la transparence ?
En pratique
Si les grands principes du RGPD et de la loi Informatique et Libertés s’appliquent dans le cas des systèmes d’IA, l’information à donner aux personnes peut varier :
- lorsque les données n’ont pas été collectées directement par le responsable mettant en œuvre le système d’IA et qu’il est difficile de revenir vers les personnes concernées. Cette problématique n’est pas spécifique aux traitements d’IA mais se retrouve fréquemment dans ces derniers, notamment pour l’utilisation de bases d’apprentissage ;
- pour l’exercice de certains droits (notamment de l’article 22 du RGPD), il est indispensable de fournir des explications précises à la personne concernée sur les raisons ayant conduit à la prise de décision en question. La complexité et l’opacité de certains systèmes d’IA peuvent rendre la fourniture de ces éléments compliquée.
Dans certains cas, il est possible de déroger au droit à l’information lorsque les données n’ont pas été collectées directement auprès des personnes concernées, notamment s’il est démontré que l’information de ces personnes se révèle impossible ou exige des efforts disproportionnés, par exemple pour les traitements d’IA mis en œuvre à des fins de recherche scientifique. Dans les publications récentes de la CNIL consacrées au sujet de la recherche scientifique (hors santé), une des fiches pratique précise spécifiquement les modalités de dérogation au droit à l’information des personnes.
Exemple
À la suite du contrôle d’une plateforme permettant la pré-inscription en première année d’une formation post-baccalauréat, la CNIL a relevé une absence d’information relative à l’utilisation d’un algorithme et au fonctionnement de celui-ci pour procéder au classement et à l’affectation des personnes au sein des établissements de l’enseignement supérieur, ce qui a conduit à une mise en demeure de l’administration mettant en œuvre cette plateforme.
Ces faits ont constitué un manquement à l’article 39.I.5 de la loi Informatique et Libertés : « toute personne physique justifiant de son identité a le droit d'interroger le responsable d'un traitement de données personnelles en vue d'obtenir : les informations permettant de connaître et de contester la logique qui sous-tend le traitement automatisé en cas de décision prise sur le fondement de celui-ci et produisant des effets juridiques à l'égard de l'intéressé ».
La CNIL a donc demandé de faire cesser la prise de décision produisant des effets juridiques à l’égard des personnes sur le seul fondement d’un traitement automatisé de données. La mise en œuvre d’une intervention humaine permettant de tenir compte des observations des personnes a en particulier été demandée.
Mettre en œuvre l’exercice des droits
Le principe :
Les personnes concernées par un traitement disposent de droits afin de garder la maitrise de leurs données. Le responsable du fichier doit leur expliquer comment les exercer (auprès de qui ? sous quelle forme ?, etc). Lorsqu’elles exercent leurs droits, les personnes doivent, en principe, obtenir une réponse dans le délai d’un mois.
En savoir plus : Respecter les droits des personnes
Lorsque le système d’IA implique le traitement de données personnelles, il est nécessaire de s’assurer que les principes d’exercice des droits par les personnes prévus par le RGPD sont bien respectés : accès (article 15), rectification (article 16), effacement (article 17), limitation (article 18), portabilité (article 20) et opposition (article 21). Ces droits constituent une protection essentielle pour les individus, en leur permettant de ne pas subir les conséquences d’un système automatisé sans avoir la possibilité de comprendre et, si nécessaire, de s’opposer à des traitements de données qui les concernent. En pratique, ces droits trouvent à s'appliquer tout au long du cycle de vie du système d'IA et couvrent donc les données personnelles :
- contenues dans les bases de données utilisées pour l’apprentissage ;
- traitées en phase de production (ce qui peut inclure les sorties produites par le système).
Les responsables du traitement doivent donc être conscients dès le stade de la conception du système qu'ils doivent inclure des mécanismes et des procédures appropriés pour répondre aux demandes susceptibles d’être reçues. Des exceptions à l’exercice de certains droits peuvent être mobilisées dans le cas de traitements d’IA mis en œuvre à des fins de recherche scientifique.
Par ailleurs, les modèles d’IA appris sont également susceptibles de contenir des données personnelles :
- par construction, comme c’est le cas pour certains algorithmes particuliers qui peuvent contenir des fractions de données d’apprentissage (par exemple SVM ou certains algorithmes de clustering) ;
- par accident, comme cela est indiqué dans la section « Se prémunir des risques liés aux modèles d’IA ».
Dans le premier cas, en fonction des possibilités techniques offertes et de la capacité du responsable de traitement à (ré)identifier la personne concernée, l’exercice des droits des personnes peut donc être réalisé.
Dans le second cas, les droits des personnes concernées peuvent être difficiles voire impossibles à exercer et à satisfaire.
Le responsable de traitement ne doit pas collecter ou conserver d’informations supplémentaires pour identifier la personne concernée à la seule fin de respecter le RGPD (article 11). Par conséquent, dans certains cas, l’identification des personnes peut s’avérer complexe. Si le responsable de traitement démontre qu’il n’est pas en mesure de le faire, il pourra alors écarter les droits sans préjudice, pour les personnes, de fournir des informations supplémentaires, qui pourraient permettre de les réidentifier dans le traitement. Ce sera notamment le cas quand une personne estime qu’un système d’IA la traite de manière particulière.
Se conformer à une demande de rectification ou d'effacement de données d’apprentissage n'implique donc pas nécessairement la rectification ou l'effacement du ou des modèles d’IA ayant été produits à partir de ces données.
Encadrer la prise de décision automatisée
Le principe
Les personnes ont le droit de ne pas faire l’objet d’une décision entièrement automatisée (article 22 du RGPD) - souvent basée sur du profilage - qui a un effet juridique ou l’affecte sensiblement. Un organisme peut néanmoins automatiser ce type de décision si :
- la personne a donné son consentement explicite ;
- la décision est nécessaire à un contrat conclu avec l’organisme ; ou
- la décision automatisée est autorisée par des dispositions légales spécifiques.
Dans ces cas, il doit être possible pour la personne :
- d’être informé qu’une décision entièrement automatisée a été prise à son encontre ;
- de demander à connaitre la logique et les critères employés pour prendre la décision ;
- de contester la décision et d’exprimer son point de vue ;
- de demander l’intervention d’un être humain qui puisse réexaminer la décision.
En savoir plus : Profilage et décision entièrement automatisée
En pratique
Les systèmes d’IA sont bien souvent constitutifs de traitement pouvant mettre en œuvre des mécanismes de prise de décision automatisée.
Le responsable du traitement doit donc prévoir la possibilité, dans son cas, d’une intervention humaine de sa part pour permettre à la personne concernée d’obtenir un réexamen de sa situation, d'exprimer son point de vue, d'obtenir une explication sur la décision prise et de contester la décision. En cas d’aide à la décision, des garanties sont aussi nécessaires, notamment en termes d’information.
Exemples
La question du contour de la définition de ce qu’est une décision individuelle automatisée et du degré d’intervention humaine souhaitable dans le cas de systèmes d’IA se pose.
Dans son projet de guide sur le recrutement, la CNIL analyse l’utilisation de certains outils de classement automatique, voire d’évaluation des candidatures. De telles solutions peuvent conduire à prendre une « décision fondée exclusivement sur un traitement automatisé » par conception lorsque des candidatures sont écartées, ou lorsque des candidatures sont reléguées à un plan secondaire non contrôlé par l’humain par faute de temps par exemple. En raison des risques associés à ce mode de prise de décision, souvent opaque pour les candidats, de tels procédés sont en principe interdits par le RGPD. Leur utilisation n’est admise que dans des conditions exceptionnelles, et est soumise à la mise en œuvre de garanties spécifiques, destinées à assurer les droits et les intérêts des candidats.
La CNIL a eu l’occasion de rendre un avis sur un traitement de données mis en œuvre par une administration et visant à recourir, à titre expérimental, à l’exploitation de contenus librement accessibles en ligne sur les plateformes de mise en relation de plusieurs parties en vue de la vente d'un bien, de la fourniture d'un service ou de l'échange ou du partage d'un contenu, d'un bien ou d'un service. Dans cet avis, la CNIL a précisé que les données modélisées par le traitement ne devaient en aucun cas conduire à une programmation automatique de contrôles fiscaux, ni, à plus forte raison, à des décisions directement opposables aux contribuables.
Évaluer le système
Les angles d’évaluation
L’évaluation des systèmes d’IA est un enjeu essentiel et au cœur du projet de règlement de la Commission européenne. Du point de vue de la protection des données, celle-ci est indispensable pour :
- Valider l’approche testée lors de la phase de conception et de développement du système (dite « phase d’apprentissage »). Il s’agit de vérifier de façon la plus scientifique et honnête possible que celui-ci fonctionne conformément aux attentes des concepteurs et, le cas échéant, est bien à même d’être déployé en phase de production.
- Minimiser les risques de dérive du système qui peuvent être observés au cours du temps. Par exemple parce qu’il s’adresse à des personnes de profils différents de celui des personnes dont les données constituent la base d’apprentissage ou encore parce qu’un ré-entrainement du système est régulièrement réalisé ce qui peut entrainer une dégradation des performances, potentiellement préjudiciables aux personnes concernées.
- S’assurer que le système, une fois déployé en production, satisfait bien les besoins opérationnels pour lesquels il a été conçu. Il faut en effet dissocier les performances obtenues lors de la phase d’apprentissage de celle du système une fois placé en phase de production, la qualité des premières ne préjugeant pas de celle des secondes.
Exemple
Dans le cadre de l’expérimentation d’une technologie de reconnaissance faciale, la CNIL a exigé que le bilan qui lui a été adressé soit également accompagné d’un protocole d’évaluation rigoureux permettant de mesurer précisément l’apport de cette technologie. En pratique, elle a ainsi notamment demandé de lui fournir :
- des métriques objectives de performance communément utilisées par la communauté scientifique ;
- une analyse systématique des erreurs du système et de leurs implications opérationnelles ;
- des éléments relatifs aux conditions d’expérimentation (par exemple pour un système de vision par ordinateur : jour/nuit, conditions météorologiques, qualité des images utilisées, résistance à d’éventuels éléments offusquant, etc.) ;
- des éléments de réflexion sur les potentiels risques de discrimination impliqués par le déploiement de ce système d’IA spécifiquement ;
- des éléments relatifs aux implications de ce système si déployée dans un cadre opérationnel en prenant en compte les réalités du terrain (par exemple, un taux de faux positifs de 10 % sur 10 alertes n’a pas la même implication opérationnelle que 10 % pour 1 000 alertes).
Éviter les discriminations algorithmiques
Les enjeux
L’utilisation de systèmes d’IA peut également entrainer des risques de discriminations. Les raisons sont multiples et peuvent provenir :
- des données utilisées pour l’apprentissage, par exemple parce qu’elles sont non-représentatives ou encore parce que, si elles sont bien représentatives du « monde réel », elles reflètent néanmoins un caractère discriminatoire (par exemple, la reproduction d’écarts salariaux entre les femmes et les hommes) ; ou
- de l’algorithme lui-même qui présenterait des failles de conception. Cette dimension, également très présente dans le projet de règlement de la Commission européenne, nécessite une prise en compte spécifique par les responsables de traitement.
Exemples
A l’occasion du contrôle d’un organisme mettant en œuvre un système d’évaluation automatique de CV vidéo enregistrés par les candidats lors d’une campagne de recrutement, la CNIL a pu constater l’existence de biais discriminatoires. En l’occurrence, le système qui visait à qualifier les compétences de savoir être (social skills) des personnes n’était pas en mesure de prendre en compte la diversité des accents de celles-ci.
La CNIL a eu l’occasion d’apporter son concours au Défenseur des droits (DDD) pour la publication du rapport Algorithmes : prévenir l'automatisation des discriminations. Celui-ci appelle en particulier à une prise de conscience collective et engage les pouvoirs publics et les acteurs concernés à prendre des mesures tangibles et pratiques pour éviter que les discriminations soient reproduites et amplifiées par ces technologies.
Vous souhaitez contribuer ?
Écrivez à ia[@]cnil.fr