IA : Informer les personnes concernées
Les organismes qui traitent des données personnelles pour développer des modèles ou des systèmes d’IA doivent informer les personnes concernées. La CNIL précise les obligations en la matière.
Assurer la transparence des traitements
Le principe de transparence oblige les organismes qui traitent des données personnelles à informer les personnes concernées afin qu’elles comprennent les usages qui seront faits de leurs données (pourquoi, comment, de quelle manière) et soient en mesure d’exercer leurs droits (droits d’opposition, d’accès, de rectification, etc.).
Ce principe s’applique à tout traitement de données personnelles, que les données soient :
- directement recueillies auprès des personnes concernées : par exemple, dans le cadre d’un contrat de prestation avec des acteurs volontaires pour constituer des données d’entraînement, dans le cadre de la fourniture d’un service, dans le cadre d’une relation entre un citoyen et une administration, etc. ;
- ou indirectement collectées : par exemple, lorsque les données sont collectées sur Internet via le téléchargement de fichiers, le recours à des outils de moissonnage de données (web scraping) ou l’utilisation d’interfaces de programmation applicatives (API) mises à disposition de réutilisateurs par les plateformes en ligne ; obtention d’informations auprès de partenaires institutionnels ou commerciaux comme des courtiers de données (data brokers), réutilisation d’une base de données déjà constituée, etc.
À retenir : Lorsque l’organisme, responsable du traitement, n’a pas directement collecté les données personnelles auprès des personnes concernées, il peut être dispensé de l’obligation d’informer individuellement les personnes si cette information est impossible en pratique ou exigerait des efforts disproportionnés.
Quelles informations fournir ?
Dans tous les cas
L’organisme qui constitue ou utilise une base de données d’apprentissage pour développer un système d’IA à partir de données personnelles doit informer les personnes concernées sur les éléments suivants, peu importe que les données aient été collectées de manière directe ou indirecte :
- son identité et ses coordonnées (tels que son adresse électronique, son adresse postale ou encore son numéro de téléphone) ainsi que les moyens de contacter son délégué à la protection des données ;
- la finalité et la base légale du traitement avec, le cas échéant, des précisions sur l’intérêt légitime poursuivi si le traitement se fonde sur celui-ci ;
- les destinataires ou à minima les catégories de destinataires des données, avec, le cas échéant, des précisions sur les transferts envisagés de ces données vers un pays tiers à l’Union européenne ;
- la durée de conservation des données (ou, à défaut, les critères permettant de la déterminer) ;
- les droits des personnes concernées (les droits d’accès, de rectification, d’effacement, à la limitation, le droit à la portabilité, le droit d’opposition ou de retirer son consentement à tout moment) ;
- le droit d’introduire une réclamation auprès de la CNIL.
À retenir : Si les informations sur la durée de conservation et l’exercice des droits n’ont pas à être systématiquement fournies pour tous les traitements, elles seront quasi-systématiquement requises s’agissant de la constitution et l’utilisation de jeux de données d’apprentissage. En effet, elles sont nécessaires pour garantir un traitement équitable et transparent à l'égard des personnes concernées.
Par ailleurs, cette information doit comprendre, le cas échéant, le fait que le responsable du traitement ne sera pas en mesure d’identifier les personnes, y compris pour répondre à leurs demandes d’exercice de droit. Dans ce cas, la CNIL recommande d’indiquer aux personnes souhaitant exercer leurs droits quelles informations complémentaires elles peuvent fournir pour permettre leur identification.
En plus, en cas de collecte indirecte
En cas de collecte indirecte, les organismes doivent fournir, en complément :
- Les catégories de données personnelles (par exemple, identités, coordonnées, images, publications sur les réseaux sociaux, etc.) ;
- La ou les sources des données (en indiquant notamment s’il s’agit ou non de sources accessibles au public).
Les organismes doivent fournir une information suffisamment précise sur la source des données afin de garantir un traitement équitable et transparent. Une telle information doit faciliter l’exercice, par les personnes concernées, de leurs droits sur le traitement source. Lorsque les personnes ne sont pas informées de manière individuelle, l’accessibilité de cette information est essentielle pour leur permettre de déterminer si elles sont concernées par le traitement en cause.
La CNIL recommande que le responsable du traitement informe les personnes de l’identité précise de chacune des sources de données utilisées, à moins que cela ne soit matériellement impossible ou exige des mesures techniques disproportionnées.
En cas de réutilisation d’un jeu de données ou d’un modèle d’IA soumis au RGPD
La CNIL recommande, a minima, de fournir les moyens de contacter le responsable du traitement auprès duquel il a été récupéré. Outre la fourniture de ces informations, une bonne pratique consiste à renvoyer directement vers le site web du responsable du traitement d’origine par le biais d’un lien hypertexte, et à accompagner l’information d’une explication synthétique et claire sur les conditions de collecte et d’annotation des données.
En cas de moissonnage (ou webscraping) sur des sites web
La CNIL recommande, a minima de fournir les catégories de sites sources concernés, et si possible les noms de domaine et URL des pages web concernées.
Par ailleurs, l’article 53 du règlement sur l’IA prévoit l’obligation pour les fournisseurs de modèles d’IA à usage général de mettre à la disposition du public un résumé suffisamment détaillé du contenu utilisé pour entraîner le modèle, conformément à un modèle qui sera fourni par le Bureau de l'IA, afin d'aider les parties ayant des intérêts légitimes à exercer et à faire respecter les droits. Il s’agit, par exemple, d’énumérer les principaux jeux ou collections de données utilisés pour entraîner le modèle, tels que les archives de données ou bases de données publiques ou privées de grande ampleur, et en donnant des précisions sur les autres sources de données utilisées (considérant 107 du règlement sur l’IA). Les responsables de traitement soumis à cette obligation pourront donc utilement renvoyer à ce résumé ou l’inclure dans leurs mentions d’information.
Concernant les modèles d’IA dont le traitement est soumis au RGPD
L’entraînement d’un modèle d’IA peut parfois conduire à ce que celui-ci « mémorise » une partie des données d’apprentissage (voir le « questionnaire sur l’application du RGPD aux modèles d’IA »). Lorsqu'il s’avère que le modèle est soumis au RGPD, il convient d’en informer les personnes.
Le fournisseur du modèle ou du système d’IA devrait alors préciser les éléments d’information spécifiques au modèle, notamment :
- les destinataires ou a minima les catégories de destinataires du modèle (par exemple ses utilisateurs pour un système commercialisé sous licence ou « as a service », ou encore les catégories de personnes susceptibles de télécharger le modèle publié en source ouverte), avec, le cas échéant, des précisions sur les transferts envisagés de ces données vers un pays tiers à l’Union européenne ;
- la durée de conservation du modèle (ou, à défaut, les critères permettant de la déterminer) lorsqu’elle diffère de la durée de conservation des données d’entraînement ;
- les droits des personnes concernées sur le modèle, selon les conditions décrites plus haut et dans la fiche sur la gestion des droits, tels que :
- le droit d’accès ;
- le droit de rectification ;
- le droit d’effacement ;
- le droit à la limitation du traitement ;
- le droit d’opposition ou de retirer son consentement à tout moment.
À titre de bonne pratique, il est également recommandé au fournisseur de préciser :
- la nature du risque lié à la reconstruction des données à partir du modèle, comme le risque de régurgitation de données dans le cas de l’IA générative ;
- les mesures prises afin de limiter ces risques, et les mécanismes de recours existants dans le cas où ces risques se manifesteraient, comme la possibilité de signaler à l’organisme une occurrence de régurgitation.
Quand fournir l’information ?
Lorsque le responsable du traitement collecte lui-même les données d’apprentissage directement auprès des personnes concernées, il doit informer les personnes au moment de cette collecte.
À l’inverse, en cas de collecte indirecte, l’organisme doit informer les personnes concernées dès que possible, et au plus tard lors de la première prise de contact avec les intéressés ou lors de la première communication des données à un autre destinataire le cas échéant. Dans tous les cas, l’organisme doit informer les personnes concernées dans un délai ne dépassant pas un mois après la date à laquelle il a récupéré leurs données.
À titre de bonne pratique, et selon la nature et l’ampleur des risques liés à la mémorisation des données personnelles dans le modèle, la CNIL invite les organismes à respecter un délai raisonnable entre le moment où les personnes sont informées que leurs données sont contenues dans une base de données d’apprentissage et l’entraînement d’un modèle sur cette base (par lui-même ou suite à la diffusion du jeu de données). Cette bonne pratique permettra aux personnes concernées de pouvoir exercer leurs droits pendant ce délai compte tenu des difficultés techniques à exercer ces droits sur le modèle lui-même et des risques que cela engendre (en particulier en fonction de la nature des données mémorisées).
Comment fournir l’information ?
Garantir l’accessibilité de l’information
Les personnes concernées ne doivent pas rencontrer de difficultés dans l’accès à l’information comme dans sa compréhension.
Les mentions d’information doivent être distinguées des autres informations sans lien avec la protection des données ( CGU, mentions légales, etc.). A cet égard, alors que les mentions d’information publiées sur les sites web des responsables de traitement peuvent porter sur de nombreux traitements et concerner différentes catégories de personnes (par exemple les utilisateurs du site web en question, les personnes concernées par la phase de développement des systèmes d’IA, les personnes concernées par leur déploiement, etc.), il est recommandé de distinguer clairement l’information portant sur les traitements réalisés à des fins de développement de l’information concernant les autres traitements.
Concrètement, il existe plusieurs moyens pour la fournir :
- en cas de fourniture d’une information individuelle, elle peut figurer sur le formulaire en ligne utilisé par le diffuseur pour collecter des données, être mentionnée dans les courriels ou courriers adressés par un réutilisateur des données lors de son premier contact avec les personnes concernées ou encore être délivrée via un message vocal pré-enregistré, etc.
- en cas de fourniture d’une information générale (c’est-à-dire dans les cas détaillés ci-dessous), elle peut par exemple prendre la forme de mentions d’information publiées sur un site web librement accessible ou sur un panneau d’affichage.
Garantir l’intelligibilité de l’information
Les informations doivent être aussi succinctes et claires que possible (vocabulaire simple, phrases courtes, style direct, etc.) et adaptée aux conditions d’interaction avec les personnes.
La complexité des systèmes d’intelligence artificielle représente une difficulté pour rédiger une information compréhensible par tous. Néanmoins, la compréhension de l’information fournie par les personnes concernées est une nécessité pour qu’elles puissent anticiper les potentielles conséquences du traitement sur leur vie privée. A cet égard, il est recommandé que les responsables du traitement, en plus de fournir les informations énoncées aux articles 13 et 14 précédemment décrites, définissent séparément et de façon claire les principales conséquences du traitement: autrement dit, quel sera réellement l’effet du traitement spécifique.
L’information pourrait ainsi détailler, par exemple au moyen de schémas, la manière dont les données sont utilisées lors de l’apprentissage, le fonctionnement du système d’IA développé, ainsi que la distinction qui doit être faite entre la base de données d’apprentissage, le modèle d’IA et les sorties du modèle.
Pour atteindre ces objectifs, la CNIL recommande de mettre en place une information en plusieurs niveaux, priorisant les informations essentielles (identité du responsable du traitement, finalités et droits des personnes) au premier niveau mais offrant une information complète par ailleurs.
S’agissant des traitements portant sur des données de mineurs, l’information devrait faire l’objet d’une attention particulière pour être suffisamment compréhensible.
En savoir plus sur la conception des mentions d’informations.
Cas dans lesquels la fourniture d’une information individuelle n’est pas obligatoire
Le RGPD prévoit plusieurs dérogations à l’obligation d’informer les personnes (par exemple quand un texte de droit européen ou national permet de l’exclure en vertu de l’article 23). Les développements ci-dessous se concentrent sur les dérogations les plus pertinentes permettant aux organismes ayant collecté des données d’apprentissage de manière indirecte.
Situation n° 1 : La personne concernée a déjà obtenu les informations (14.5.a du RGPD)
Lorsque les personnes concernées ont déjà été informées de toutes les caractéristiques du traitement, en particulier de la finalité et de l’identité du responsable du traitement d’apprentissage, une nouvelle information n’est pas nécessaire.
À retenir : lorsque les données sont collectées auprès d’un tiers, le responsable du traitement devra s’assurer que l’intégralité des informations sur son propre traitement ont déjà été fournies aux personnes concernées.
À titre de bonne pratique, la CNIL encourage les réutilisateurs de données à s’appuyer sur le diffuseur de données pour informer les personnes, en particulier lorsque ce dernier est encore en contact avec les personnes concernées.
Situation n° 2 : L’information exigerait des efforts disproportionnés (Article 14.5.b du RGPD)
Le responsable du traitement peut alors se contenter de rendre les informations publiquement disponibles.
Cet argument est souvent invoqué par les organismes qui ne sont pas ou plus en lien avec les personnes dont ils traitent les données (par exemple, en cas de réutilisation d’une base de données constituée par un tiers). En effet, dans ce cas, ils ne disposent généralement pas de leurs données de contact.
Une analyse au cas par cas est à réaliser, tenant compte du contexte spécifique de chaque traitement.
Sur le caractère disproportionné d’une information individuelle
L’organisme doit évaluer et documenter le caractère disproportionné en mettant en balance, d’un côté, l’atteinte portée à la vie privée des personnes dont les données sont traitées et, de l’autre, les efforts qu’impliqueraient une communication individuelle des informations aux personnes concernées.
- Pour évaluer l’ampleur des efforts à fournir, il y a lieu de prendre en compte l’absence des coordonnées des personnes concernées, l’ancienneté des données (à l’exactitude incertaine, par exemple des coordonnées de plus de 10 ans), ou encore le nombre de personnes concernées.
Par exemple : le responsable du traitement qui entendrait réutiliser les données de ses clients et dispose encore de leur adresse électronique devrait toujours s’en servir pour les informer de manière individuelle.
- Pour évaluer l’atteinte portée à la vie privée des personnes concernées et l’intrusivité du traitement, il convient de tenir compte des risques liés au traitement (nature plus ou moins directement identifiante des données, sensibilité des données, etc.) et des garanties éventuelles mises en place (telles que la pseudonymisation, les mesures résultant de la réalisation d’une analyse d’impact relative à la protection des données (AIPD), telles que la réduction de la période de conservation ou encore la mise en œuvre de diverses mesures techniques et organisationnelles de sécurité).
Cas particulier de la collecte de données accessibles en ligne par moissonnage (web scraping)
- En cas de collecte de données publiées en ligne sous une forme pseudonymisée, une information individuelle sera le plus souvent disproportionnée si elle suppose de rechercher ou collecter des données plus identifiantes comme l’identité réelle de la personne.
Par exemple : en cas de réutilisation d’un jeu de données d’apprentissage publié en source ouverte de manière licite et ne contenant que des données pseudonymisées.
- En cas de collecte de données personnelles en ligne n’ayant pas été publiées sous une forme pseudonymisée, il conviendra de mener une analyse au cas par cas pour apprécier s’il est nécessaire de chercher à informer les personnes de manière individuelle à travers un moyen de contact (par exemple en recherchant leurs coordonnées ou en utilisant un système de messagerie sur le site internet en question).
Par exemple : la fourniture d’une information générale s’avérera suffisante pour la constitution ou l’utilisation d’un jeu de données composé d’avis de films rendus manifestement publics en ligne par des personnes dont le pseudonyme n’est pas collecté ou conservé dès lors qu’il serait disproportionné de retrouver les données de contact de ces dernières.
Pour en savoir plus, voir la fiche focus sur le web scraping pour l’IA
À retenir : cette dérogation s’appliquera plus facilement aux organismes constituant des bases de données d’apprentissage de systèmes d’IA à des fins de recherche scientifique.
Les mesures appropriées pouvant être prises par l’organisme en plus d’une information générale
Au-delà de la fourniture d’une information générale en rendant les informations publiquement disponibles (par le biais, par exemple, de la publication des informations sur le site internet de l’organisme), d’autres mesures appropriées peuvent être prises par l’organisme dans ce cas telles que:
- la réalisation d’une AIPD ;
- l’application de techniques de pseudonymisation des données ;
- la réduction du nombre de données collectées et de la période de conservation ;
- la mise en œuvre de mesures techniques et organisationnelles pour garantir un niveau élevé de sécurité.
Bonnes pratiques pour plus de transparence sur le développement des traitements
La CNIL souligne également les bonnes pratiques suivantes en matière de transparence :
- la publication de l’AIPD éventuellement réalisée (cette publication pouvant être partielle lorsque certaines sections sont soumises à des secrets protégés comme le secret des affaires) ;
- la publication de toute documentation concernant la base de données constituée (par exemple sur la base du modèle proposé par la CNIL), le processus de développement, ou encore le système d’IA et son fonctionnement ;
- la mise en œuvre de pratiques de transparence recommandées dans le domaine, telles que :
- l’adoption des pratiques liées au développement en source ourverte, comme la publication des poids du modèle, du code source, etc.
- la transparence sur des pratiques qui ne sont pas liées à la protection des données, comme :
- les concepts clés de l’apprentissage automatique, comme l’apprentissage, l’inférence, la mémorisation, ou les différents types d’attaque sur les systèmes d’IA ;
- les mesures mises en œuvre afin de limiter les utilisations malfaisantes ou dangereuses du système ;
La CNIL considère que l’acceptation par le grand public des techniques d’IA ne pourra se faire sans une meilleure acculturation au fonctionnement de ces outils. Elle invite ainsi les acteurs du domaine, concepteurs et utilisateurs, à des efforts de transparence et de vulgarisation sur leurs pratiques, ainsi que sur le fonctionnement et les risques associés à l’utilisation des méthodes d’IA.
- Lorsqu’il s’agit de modèles nécessitant une collecte de grande ampleur, tels que les grands modèles de langage, ou Large Language Models (LLM), l’information générale peut être complétée par une campagne médiatique auprès de différents médias pour informer les personnes concernées.
À retenir : Certains acteurs pourront notamment s’en prévaloir en tant que garanties à prendre en compte au titre de la proportionnalité du traitement.