Dis-moi ce que tu cherches, je te dirai qui tu es : les algorithmes de profilage en ligne
Sans que les internautes en soient forcément conscients, l’intelligence artificielle, en particulier la technique de partitionnement (clustering), est utilisée chaque jour dans le développement d’outils de profilage en ligne. La proposition de contenus pertinents en liens avec leurs centres d’intérêts doit s’effectuer dans le respect de leurs droits.
La recherche en ligne, qu’elle se fasse sur le web ou sur d’autres plateformes telles que les réseaux sociaux ou les services de streaming de vidéos ou de musique, représente un enjeu de compétitivité majeure pour les entreprises. En suggérant à l’utilisateur les contenus les plus adaptés et pertinents selon certains critères, elles s’assurent en effet que ce dernier poursuivra son utilisation de leur outil de recherche. L’utilisateur bénéficierait également du dispositif puisque le contenu qui lui est proposé correspond davantage à ce qu’il cherche. Néanmoins, pour suggérer du contenu à l’utilisateur, il est nécessaire de connaître ses attentes. Pour cela, la recherche en elle-même fait l’objet d’une analyse.
En utilisant l’historique de recherche, la localisation, et d’autres informations disponibles telles que les applications installées sur un smartphone, l’historique des clics, le temps passé sur les contenus déjà visités, etc., les sociétés parviennent à alimenter une base de données sur chacun des utilisateurs. La constitution du profil se fait alors en deux étapes :
- le prétraitement : les informations collectées sont réarrangées afin de correspondre à un format générique, utilisable dans un traitement automatique : des images peuvent être recentrées, un enregistrement sonore pourra être ralenti, etc. ;
- l’exploitation : cette phase peut se faire au moyen de plusieurs méthodes comme le partitionnement ou clustering.
Le partitionnement des données consiste à regrouper les données similaires afin de constituer des groupes présentant une similarité. Chaque utilisateur peut alors être assigné à un ou plusieurs groupes et les contenus de la plateforme sont recommandés aux utilisateurs selon leur correspondance à la description du groupe ou parce qu’ils ont été appréciés par d’autres membres du groupe.
L’algorithme de partitionnement ne fournit en revanche pas d’interprétation sur les groupes formés : un groupe formé autour des publications d’une personnalité politique correspondra-t-il à une manifestation d’intérêt pour le contenu des publications, pour les opinions de la personnalité ou encore pour le parti politique de la personnalité ? La raison pour laquelle un utilisateur est associé à un groupe existant peut également manquer de clarté. Enfin, une fois un groupe attribué à un utilisateur, est-il possible pour lui d’en sortir afin que d’autres types de contenus lui soient proposés ?
Où ces méthodes sont-elles utilisées ?
- Suggestions de recherche : sur les moteurs de recherche sur le web, sur les claviers dits intelligents.
- Recommandation de contenus : sur les réseaux sociaux, sur les plateformes de streaming de vidéos et de musique.
- Le partitionnement des données est une méthode très généralisée et utilisée dans de très nombreux autres domaines.
Quels sont les risques pour les personnes ?
- Certaines informations que la personne considère comme particulièrement personnelles pourraient être utilisées à des fins de profilage.
- Le profilage pourrait placer la personne dans un groupe qui ne lui correspond pas vraiment.
- Les recommandations suggérées pourraient placer la personne dans une bulle de filtre, où seuls des contenus similaires à son historique lui sont proposés.
Quelques conseils de la CNIL
Pour l’entreprise
- Minimiser les données collectées à des fins de profilage.
- Privilégier la transparence et informer la personne concernée du profil qui lui correspond.
- Analyser les catégories de données collectées pour identifier si elles pourraient conduire à des discriminations.
- Favoriser l’explicabilité de l’algorithme dans son ensemble (globale) et sur chacune des décisions prises (locale).
- Permettre à la personne concernée de prendre la main sur le profil qui la caractérise.
Pour les personnes
- Garder en tête que les suggestions correspondent généralement à l’historique de mes recherches et qu’elles ne représentent pas la totalité du contenu de la plateforme.
- Exercer mon droit d’accès pour connaître les données utilisées pour mon profilage.
- Explorer la diversité de plateformes existantes et les outils me permettant d’éviter le traçage, et donc le profilage.
- Utiliser le mode « navigation privée » si on souhaite obtenir des résultats génériques et « non-profilés ».
Vous souhaitez contribuer ?
Écrivez à ia[@]cnil.fr
Pour approfondir
- Exercer votre droit d’accès auprès des plateformes afin de connaître les informations qu’elles utilisent pour vous suggérer de nouveaux contenus
- Consulter le rapport éthique de la CNIL sur l’IA (PDF, 1,49 Mo)
- Explorer la magie des algorithmes de recommandation musicale avec le LINC
- Lire cet article du LINC sur les limites de la transparence chez ces plateformes