Pour que l’intérêt légitime soit mobilisable, il faut s’assurer que les intérêts légitimes poursuivis ne portent pas une atteinte disproportionnée aux intérêts, droits et libertés des personnes concernées.
Le responsable du traitement doit donc opérer une mise en balance entre les droits et intérêts en cause. Pour cela, il doit mesurer les avantages de son traitement (bénéfices anticipés, dont notamment ceux présentés ci-dessous) mais aussi les impacts sur les individus concernés. Si nécessaire, il faut mettre en place des mesures additionnelles permettant de limiter ces risques et de protéger les droits et libertés des personnes.
Les bénéfices apportés par le système d’IA contribuent à justifier le traitement de données personnelles
Plus les bénéfices que l’on peut anticiper du traitement sont importants, plus l’intérêt légitime du responsable du traitement est susceptible de prévaloir sur les droits et libertés des personnes.
Les éléments suivants permettent de mesurer l’impact positif des intérêts poursuivis :
- L’ampleur et la nature des bénéfices attendus du traitement, pour le responsable de traitement mais aussi pour des tiers, tels que les utilisateurs finaux du système d’IA ou encore l’intérêt du public ou de la société. La diversité des applications mettant en œuvre des systèmes d’IA montre qu’il peut y avoir de nombreux bénéfices, comme l’amélioration des soins de santé, une meilleure accessibilité de certains services essentiels, la facilitation de l’exercice de droits fondamentaux comme l’accès à l’information, la liberté d’expression, l’accès à l’enseignement, etc.
Exemple : un système de reconnaissance vocale permettant aux utilisateurs de transcrire automatiquement leurs propos et, par exemple, aider au remplissage de formulaires administratifs, peut présenter des bénéfices significatifs pour permettre l’accessibilité de certains services pour des personnes en situation de handicap. L’importance de ces bénéfices peut être prise en compte dans la mise en balance des intérêts lors du développement d’un tel système.
Un intérêt de nature exclusivement commerciale, au seul profit du responsable du traitement, présente moins de bénéfices qu’un objectif de recherche scientifique, qui peut profiter à la communauté scientifique dans son ensemble : il faudra généralement prévoir pour le premier des mesures de protection des droits plus importantes que pour le second.
Un intérêt commercial peut toutefois converger, dans une certaine mesure, avec un intérêt public. En général, le fait qu’un responsable du traitement agisse non seulement dans son propre intérêt mais aussi dans l’intérêt de la collectivité, peut donner plus de «poids» à cet intérêt.
Exemple : une société privée souhaite développer un système d’IA permettant de lutter contre la fraude immobilière en ligne. L’intérêt commercial qu’elle poursuit est renforcé du fait de la convergence avec l’intérêt des utilisateurs et celui de la collectivité de réduire les activités frauduleuses.
- L’utilité du traitement mis en œuvre pour se conformer à d’autres réglementations.
Exemple : le fournisseur d’une très grande plateforme ou d’un très grand moteur de recherche en ligne qui développe un système d’IA pour mieux répondre aux dispositions de l’article 35.1 du DSA sur l’adaptation des processus de modération de contenu en ligne, peut prendre cet objectif en compte dans l’évaluation de son intérêt.
- Le développement du modèle en source ouverte, qui, sous réserve de la mise en place de garanties suffisantes (voir la fiche focus et l’article qui y sont consacrés) peut présenter des bénéfices importants pour la communauté scientifique, l’évolution de la recherche, l’éducation et l’appropriation de ces outils par le public. Il peut également comporter des avantages en matière de transparence, de réduction des biais, de responsabilisation du fournisseur du système d’IA ou encore de contrôle par les pairs. Cela peut témoigner de l’objectif du responsable du traitement de partager les bénéfices de son traitement pour participer au développement de la recherche scientifique.
- La précision des intérêts poursuivis : plus un intérêt est défini de manière précise, plus il pourra peser dans la mise en balance, du fait de la possibilité d’appréhender spécifiquement la réalité des bénéfices à prendre en compte. A l’inverse un intérêt défini de manière trop large (par exemple « offrir de nouveaux services à ses utilisateurs ») est moins susceptible de prévaloir sur les intérêts des personnes.
Les incidences négatives sur les personnes doivent être identifiées
Il convient de mettre en balance ces bénéfices avec les incidences des traitements sur les personnes concernées. Concrètement, l’organisme doit identifier et évaluer les conséquences de toutes sortes, potentielles ou effectives, que le développement du système puis sont utilisation pourraient avoir sur les personnes concernées : sur leur vie privée, sur la protection de leurs données et sur leurs autres droits fondamentaux (liberté d’expression, liberté d’information, liberté de conscience, etc.) ainsi que les autres impacts concrets du traitement sur leur situation.
Les impacts réels du traitement sur les personnes, tels que listés ci-dessous, sont à évaluer en fonction de la vraisemblance que les risques se concrétisent et de la gravité des conséquences, qui dépendent des conditions particulières du traitement, ainsi que du système d’IA développé.
Pour cela, il convient de tenir compte de la nature des données (sensibles, hautement personnelles), du statut des personnes concernées (personnes vulnérables, mineurs, etc.), du statut de l’entreprise ou de l’administration développant et/ou déployant l’IA (les effets étant démultipliés en cas d’usage très large de l’IA), de la façon dont les données sont traitées (croisement de données, etc.) ou encore la nature du système d’IA et de l’usage opérationnel envisagé. Dans certains cas, les incidences pour les personnes seront donc limitées, soit parce que les risques sont faibles, soit parce que les conséquences présentent peu de gravité au regard des données utilisées, du traitement effectué et de l’intérêt poursuivi (par exemple, le développement d’un système d’IA utilisé pour la personnalisation d’une fonctionnalité d’auto-saisie d’un logiciel de traitement de texte présente peu de risques pour les personnes concernées).
Il convient donc de prendre en compte les incidences suivantes sur les personnes et d’évaluer dans le cas étudié le niveau des risques associés. Trois types de risques peuvent être distinguées :
1. Les incidences sur les personnes liées à la collecte des données utilisées pour développer le système, en particulier lorsque les données ont été librement collectées en ligne par des outils de moissonnage
- Les risques d’atteinte à la vie privée et aux droits garantis par le RGPD : l’utilisation de ces outils peut entraîner des impacts importants sur les personnes, du fait du grand volume de données collectées, du nombre important de personnes concernées, du risque que soient collectées des données relevant de la vie privée des personnes (par ex. utilisation des réseaux sociaux) voire des données sensibles ou hautement personnelles, en l’absence de garanties suffisantes. Ces risques sont d’autant plus importants qu’ils peuvent également concerner les données de personnes vulnérables, comme des mineurs, qui doivent faire l’objet d’une attention particulière et être informés de manière suffisamment adaptée.
- Le risque de procéder à une collecte illégale : certaines données peuvent être protégées par des droits spécifiques, notamment des droits de propriété intellectuelle, ou leur réutilisation conditionnée au consentement des personnes.
- Les risques d’atteinte à la liberté d’expression : une collecte indifférenciée et massive de données et leur absorption dans des dispositifs d’IA susceptibles de les régurgiter peuvent affecter la liberté d’expression des personnes concernées (sentiment de surveillance qui qui pourrait conduire les internautes à s’auto-censurer, d’autant plus au regard des difficultés à soustraire les données publiées aux pratiques de moissonnage), alors même que l’utilisation de certaines plateformes et d’outils de communication est nécessaire au quotidien.
Pour plus d’informations : voir la
fiche focus sur les mesures à prendre sur les mesures à prendre en cas de collecte des données par moissonnage ou
web scraping.
2. Les incidences pour les personnes liées à l’entraînement du modèle et à la conservation des données
- Les risques de perte de confidentialité des données contenues dans la base de données ou dans le modèle : les risques liés à la sécurité des bases de données d’apprentissage sont susceptibles d’augmenter les risques pour les personnes concernées liés à des détournements de finalité, notamment en cas de violation de données, ou les risques liés aux attaques spécifiques aux systèmes d’IA (attaque par empoisonnement, par insertion d’une porte dérobée ou encore par inversion du modèle).
- Les risques liés à la difficulté de garantir l’effectivité de l’exercice des droits des personnes, notamment du fait des obstacles techniques à l’identification des personnes concernées ou des difficultés pour transmettre les demandes d’exercice de droits lorsque la base de données ou le modèle est partagé ou diffusé en source ouverte. Il est également complexe voire impossible techniquement de mettre en œuvre l’exercice des droits sur certains objets comme les modèles appris.
- Les risques liés à la difficulté d’assurer la transparence des traitements auprès des personnes concernées : ces risques peuvent également résulter de la technicité des sujets, des évolutions technologiques rapides, et de l’opacité structurelle du développement de certains systèmes d’IA (par exemple, d’apprentissage profond). Cela complexifie en effet la possiblité d’une information intelligible et accessible pour les personnes sur les traitements réalisés.
3. Les incidences pour les personnes liées à l’utilisation du système d’IA
Certains risques, dont les conséquences peuvent se matérialiser lors de l’utilisation du système d’IA, sont à prendre en compte lors du développement du fait de leur caractère systémique. Il est en effet nécessaire d’anticiper dès la phase de conception les garanties permettant de limiter effectivement ces risques pour les personnes. Ces risques dépendent des usages du système d’IA. De façon générale on peut notamment mentionner :
- Les risques de mémorisation, de régurgitation ou de génération de données personnelles lors de l’utilisation de certains systèmes d’IA, susceptibles de porter atteinte à la vie privée. Il est possible dans certains cas d’inférer, accidentellement ou par des attaques (inférence d’appartenance, extraction ou inversion du modèle), des données personnelles contenues dans la base de données d’apprentissage à partir de l’utilisation de systèmes d’IA (voir notamment l’article du LINC « Petite taxonomie des attaques des systèmes d’IA »). Cela présente un risque pour la vie privée des personnes dont les données pourraient apparaître lors de l’utilisation du système d’IA (risque d’atteinte à la réputation, risque de sécurité selon la nature des données mémorisée, etc.).
Dans le cadre des réflexions que la CNIL mène à ce sujet, les acteurs du secteur sont invités à répondre au « Questionnaire sur l’application du RGPD aux modèles d’IA ».
- Les risques d’atteinte à la réputation, de propagation de fausses informations ou encore d’usurpation d’identité, lorsque le système d’IA (particulièrement d’IA générative) produit du contenu sur une personne physique identifiée ou identifiable (par exemple, un système d’IA générative d’images peut être utilisée pour générer de fausses photographies à caractère pornographique de personnes réelles dont les images sont contenues dans la base de données). A noter que ce risque peut également advenir avec des systèmes d’IA n’ayant pas été entraînées avec des données personnelles.
Exemple : un article de presse généré par un système d’IA est susceptible de présenter des informations diffamatoires sur une personne réelle, bien que la base de donnée ne contienne pas d’informations sur cette personne, notamment lorsque le texte a été généré à la demande d’un utilisateur qui précise l’identité de la personne concernée dans le prompt.
- Les risques d’atteinte à certains droits ou secrets prévus par la loi (par exemple, le droit de propriété intellectuelle, comme le droit d'auteur, le secret des affaires ou encore le secret médical) en cas de mémorisation ou de régurgitation de données protégées.
Exemple : un système d’IA générative de texte entraînée sur des œuvres littéraires protégées par le droit d’auteur est susceptible de générer un contenu constitutif de contrefaçon, notamment dans le cas où celui-ci résulte de la régurgitation du contenu qui aurait été mémorisé par le système d’IA.
- Les risques éthiques graves, qui portent atteinte à certaines règles générales de droit ou au bon fonctionnement de la société dans son ensemble, liés au développement de certains systèmes d’IA. Ils doivent être pris en compte dans l’évaluation (par exemple, discrimination, sécurité des personnes en cas d’utilisation malveillante, incitation à la haine ou à la violence, désinformation, qui risquent de porter atteinte aux droits et libertés des personnes ou à la démocratie et à l’état de droit). Le développement de systèmes d’IA, notamment à usage général, peut ainsi porter atteinte à certains droits et libertés fondamentaux en phase de déploiement si des garanties ne sont pas anticipées dès leur conception (par ex. l’amplification de biais discriminatoires dans la base de données d’apprentissage, le défaut de transparence ou d’explicabilité, de robustesse ou encore les biais d’automatisation, etc.).
Les attentes raisonnables des personnes sont un facteur clé pour apprécier la légitimité du traitement.
L’organisme doit tenir compte des attentes raisonnables des personnes concernées pour évaluer l’incidence du traitement sur les personnes. En effet, l’intérêt légitime requiert de ne pas surprendre les personnes dans les modalités de mise en œuvre comme dans les conséquences du traitement.
Les attentes raisonnables constituent un élément de contexte dont le responsable du traitement doit tenir compte dans la pondération des droits et intérêts en cause. A cette fin, l’information des personnes peut être prise en compte afin d’évaluer si les personnes concernées peuvent raisonnablement s’attendre au traitement de leurs données ; il ne s’agira toutefois que d’un indicateur.
Dans le cadre du développement d’un système d’IA, certains traitements sont susceptibles de sortir des attentes raisonnables des personnes, dont les traitements suivants :
- En cas de réutilisation de données publiées sur internet : compte tenu des évolutions technologiques des dix dernières années (big data, nouveaux outils d’IA, etc.), les personnes peuvent avoir conscience que certaines des données qu’elles publient en ligne sont susceptibles d’être collectées et réutilisées par des tiers. Il n’est toutefois pas possible de considérer qu’elles peuvent s’attendre à ce que de tels traitements aient lieu dans toutes les situations et pour tous les types de données accessibles en ligne les concernant. Il convient notamment de tenir compte :
- de la nature des sites web sources (réseaux sociaux, forums en ligne, sites de diffusion de jeux de données, etc.)
- des restrictions que ces sites imposent, par exemple dans les CGU ;
- du type de publication (par exemple, un article publié sur un blog librement accessible n’a aucun caractère privé, alors qu’un post sur un réseau social publié avec des restrictions d’accès peut conserver un caractère privé pour lesquels l’internaute a moins conscience de s’exposer à une collecte et à une réutilisation par des tiers).
- Il peut être difficile d’appréhender la multiplicité des usages possibles d’une base de données, d’un modèle, notamment en cas de diffusion ou de partage. Or, certains de ces usages peuvent sortir des attentes raisonnables des personnes, notamment en cas de réutilisation illicite dans la mesure où une personne ne pourrait pas s’attendre à ce que ses données permettent le développement de systèmes d’IA réutilisés à certaines fins.
Exemple : les personnes concernées ne pourraient pas s’attendre à ce que leurs données soient utilisées pour développer un un modèle de classification d’images disponible en source ouverte, qui soit utilisé ensuite pour classer les personnes en fonction de leur orientation sexuelle.
Mettre en place des mesures additionnelles permettant de limiter les incidences du traitement
L’organisme peut prévoir des mesures compensatoires ou additionnelles à mettre en place en vue de limiter les impacts du traitement sur les personnes concernées. Ces mesures seront souvent nécessaires pour atteindre un équilibre suffisant entre les droits et intérêts en cause et permettra au responsable du traitement de se fonder sur cette base légale.
Ces mesures s’ajoutent à celles qui sont nécessaires au respect des autres obligations posées par le RGPD, sans se confondre avec elles : le respect de ces dispositions est impératif, quelle que soit la base légale du traitement (minimisation des données, protection dès données dès la conception et par défaut, sécurité des données, etc., voir les fiches pratiques dédiées). Les mesures compensatoires consistent en des obligations remplies de manière « premium », la plus approfondie possible, ou en des garanties supplémentaires aux exigences du RGPD.
Elles peuvent être de nature technique, organisationnelle ou juridique et doivent permettre de limiter le risque d’atteinte aux intérêts, droits et libertés précédemment identifiés.
Les mesures suivantes ont été identifiées comme pertinentes pour limiter l’atteinte aux droits et libertés des personnes concernées. Elles doivent être adaptées aux risques lors des différents traitements au cours de la phase de développement.
1. En réponse aux risques liés à la collecte et la constitution de la base de données :
- Prévoir l’anonymisation à bref délai des données collectées ou, à défaut, la pseudonymisation des données collectées. Dans certains cas, l’anonymisation des données sera nécessaire, lorsque des données anonymes suffisent à atteindre les objectifs définis par le responsable du traitement.
Exemple : si une entreprise souhaite constituer une base de données d’apprentissage à partir de commentaires accessibles en ligne pour développer un système d’IA permettant d’évaluer la satisfaction de clients ayant acheté ses produits, la pseudonymisation des données collectées à bref délai après la collecte peut constituer une mesure additionnelle pour limiter les risques liés à la collecte de données susceptibles de révéler de nombreuses informations sur la personne à l’origine des commentaires.
- Lorsque cela ne nuit pas à la performance du modèle développé, privilégier l’utilisation de données synthétiques. Cela peut également présenter certains avantages, notamment de rendre disponibles ou accessibles certaines données et de modéliser certaines situations spécifiques, d’éviter l’utilisation de données réelles, notamment sensibles, d’augmenter le volume de données pour l’entraînement ou encore de minimiser les risques liés à la confidentialité des données, etc. Il faut garder à l’esprit que les données synthétiques ne sont pas systématiquement anonymes.
Exemple : si un fournisseur souhaite développer un système de classification d’images permettant de détecter automatiquement le port ou l’utilisation d’une arme, l’utilisation d’images de synthèse permet par exemple d’éviter la collecte de données susceptibles de présumer la commission d’une infraction ou de faire varier plus facilement les configurations possibles ou encore améliorer la représentativité de la base de données, notamment du fait de la possibilité de décliner les caractéristiques de l’image synthétique de la personne (taille, poids, couleur de peau, etc.) et de l’arme à détecter (forme, couleur, etc.).
Pour plus de détails sur les mesures à prendre en cas de moissonnage (web scraping) des données, voir la fiche focus dédiée
2. En réponse aux risques liés à l’entraînement du modèle et à la conservation des données
- Prévoir des mesures techniques, juridiques et organisationnelles s’ajoutant aux obligations prévues par le RGPD afin de de faciliter l’exercice des droits :
- Prévoir un droit d'opposition discrétionnaire et, en cas de collecte directement auprès des personnes concernées, préalable afin de renforcer le contrôle des personnes sur leurs données. Cela pourra notamment s’avérer pertinent lorsqu’un organisme déploie un système d’IA et entend réutiliser les données d’usage à des fins d’amélioration de son système. Afin de garantir une pleine effectivité de cette garantie, il conviendra alors de s’assurer que la personne peut s’opposer à ce traitement sans que son utilisation du service en dépende. Lorsque les données ont été collectées indirectement, des mesures techniques et organisationnelles devraient être envisagées pour conserver des métadonnées ou autres informations sur la source de la collecte afin de faciliter la recherche d’une personne ou d’une donnée au sein de la base.
- Mettre en place des mesures qui permettent de garantir et de faciliter l’exercice des droits des personnes lorsque le modèle est soumis au RGPD (voir le « Questionnaire sur l’application du RGPD aux modèles d’IA »), comme observer un délai raisonnable entre la diffusion ou la collecte d'un jeu de données d'entraînement et son utilisation (en particulier lorsque l'exercice des droits sur le modèle est difficile) et/ou prévoir un réentraînement périodique du modèle afin de permettre la prise en compte de l’exercice des droits lorsque le responsable de traitement dispose toujours des données d’entraînement.
Pour plus de détails sur les mesures à prendre pour l’exercice des droits, voir la fiche « Respecter et faciliter l’exercice des droits des personnes concernées ».
- Lorsque le modèle est partagé ou diffusé en source ouverte, identifier et mettre en place des mesures qui permettent d’assurer la transmission de l’exercice des droits à travers la chaîne des acteurs, notamment en prévoyant dans les conditions générales l’obligation de répercuter les effets de l’exercice des droits d’opposition, de rectification ou d’effacement sur les systèmes développés ultérieurement. Dans les cas les plus à risque, assurer une traçabilité des téléchargements des modèles disponibles en source ouverte (par exemple en conservant les informations de contact des personnes ou organismes les téléchargeant) pour permettre que l’exercice des droits soit répercuté le long de la chaîne des acteurs.
- Assurer une transparence accrue concernant les traitements effectués pour le développement ou l'amélioration du système d'IA. Outre l'information des personnes prévue par les articles 13 et 14 du RGPD, la mise en place d'un ensemble de mesures qui permettent d'assurer un plus grand niveau de transparence sur les systèmes d'IA développés peuvent constituer des garanties à même de prévenir certains des risques qu'ils présentent au regard de leur spécificité technologique, du manque de connaissance et de recul sur le fonctionnement des systèmes d'IA, etc.
- Mettre en place les mesures et procédures qui garantissent un développement transparent du système d’IA, afin de permettre notamment l’auditabilité du système d’IA en phase de déploiement (documentation de l’ensemble du processus de développement, journalisation des activités, la gestion et le suivi des différentes versions du modèle, l’enregistrement des paramètres utilisés, ou encore la réalisation et la documentation d’évaluations et de tests). Cela peut également être nécessaire pour éviter les biais d’automatisation ou de confirmation en phase de déploiement.
- Assurer un contrôle effectif du développement du modèle par les pairs, par exemple, en consultant ou incluant des chercheurs experts dans le processus de développement ou en effectuant le développement du modèle en source ouverte, ce qui peut permettre selon les modalités d’ouverture et sous réserve de prévoir les garanties suffisantes, différents avantages (voir la fiche focus et l’article dédié sur le site de la CNIL).
- Au regard de la gravité et de la vraisemblance des risques identifiés, mettre en place un comité éthique, ou, selon la taille et les ressources de la structure concernée, un référent éthique, auprès des fournisseurs de systèmes d’IA, afin de prendre en compte, en amont et tout au long du développement de ces systèmes, les enjeux éthiques et de protection des droits et libertés des personnes concernées (pour plus d’informations, voir la fiche « Tenir compte de la protection des données dans la conception du système » ).
3. En réponse aux risques liés à l’utilisation du système d’IA
- Mettre en place les mesures permettant d’éviter la mémorisation, la régurgitation ou la génération de données personnelles, notamment dans le cas des systèmes d’IA générative.
Pour plus d’information : voir le questionnaire dédié et la fiche « Respecter et faciliter l’exercice des droits des personnes ».
- Dans le cas des systèmes d’IA à usage général, limiter le risque de réutilisation illicite du système d’IA en mettant en place des mesures techniques (par exemple, tatouage numérique des productions d’un système d’IA pour éviter l’utilisation du système à des fins trompeuses ou limitation des fonctionnalités en excluant par conception celles qui pourraient donner lieu à des utilisations illicites) et/ou juridiques (par exemple, prévoir l’interdiction contractuelle de certaines utilisations illicites ou non éthiques de la base de données ou du système d’IA, auxquelles les personnes concernées ne pourraient pas raisonnablement s’attendre).
- Mettre en place des mesures permettant d’assurer la prise en compte de certains risques éthiques graves.
Par exemple, garantir la qualité de la base de données d'apprentissage pour limiter les risques de biais discriminatoires en phase d’utilisation notamment en assurant la représentativité des données et en vérifiant et corrigeant la présence de biais dans la base de données ou résultant des annotations effectuées (voir fiche « Annoter les données »).
Pour plus d’information : la détection et la réduction des biais feront l’objet d’une fiche dont la publication est prévue ultérieurement.