Recherche scientifique (hors santé) : enjeux et avantages de l’anonymisation et de la pseudonymisation
L’anonymisation et la pseudonymisation font partie des différentes mesures qui peuvent être mises en œuvre pour garantir la protection des données personnelles dans le cadre d’un traitement de recherche scientifique. Mais attention, ces deux notions ne doivent pas être confondues car elles sont en réalité très différentes, tant dans leur principe que dans leurs conséquences pratiques et légales.
Le principe
Processus | Pseudonymisation | Anonymisation |
---|---|---|
Statut des données |
Personnelles (restent indirectement identifiantes et donc soumises au RGPD et à la loi Informatique et Libertés
|
Anonymes |
Réutilisation des données |
Sous conditions
|
Sans restriction |
Utilité des données |
Préservée car pas d'altération du niveau de détail des données
|
Plus ou moins altérée en fonction des objectifs poursuivis et des méthodes appliquées |
Méthodes à mettre en oeuvre |
Compteur, générateur de nombres aléatoires, fonction de hachage, chiffrement à clé secrète, etc.
|
Dépend des objectifs poursuivis : confidentialité différentielle, randomisation, k-anonymat, l-diversité, t-proximité, etc. |
Complexité de la mise en oeuvre |
Simple à moyenne
|
Dépend des objectifs poursuivis : simple dans certains cas comme l'agrégation ou le comptage et complexe dans d'autres |
Compte tenu de la complexité relative aux choix et à l’évaluation régulière des techniques d’anonymisation et de pseudonymisation, il est recommandé aux personnes mettant en œuvre des traitements de recherche scientifique de rédiger un protocole de façon concertée, en y associant leur délégué à la protection des données (DPD/DPO).
La pseudonymisation
La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données à une personne physique identifiée sans information supplémentaire.
En pratique, la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénoms, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.). La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. Contrairement à l’anonymisation, la pseudonymisation est une opération réversible : il est possible de retrouver l’identité d’une personne si l’on dispose d’informations supplémentaires.
Exemple : Dans le cadre de l'analyse des prestations et des politiques sociales, un chercheur en économie a noué un partenariat avec une caisse d'allocations familiales (CAF) qui dispose de bases de données contenant les noms, dates de naissance et adresses des demandeurs d'allocation logement en 2019, ainsi que les montants des allocations reçues et le nombre de personnes dans le foyer.
Afin de mener à bien ces recherches et satisfaire les impératifs de protection des données, le chercheur et la CAF ont convenu que ce dernier travaille sur des données pseudonymisées. Pour cela, la CAF remplacera les noms et dates de naissance par un identifiant unique (au lieu de supprimer les colonnes) et remplacera les adresses complètes par les seules communes.
Il sera ainsi possible pour le chercheur de comparer les identifiants entre bases pour retrouver les allocataires communs, sans pour autant être en mesure de connaître directement leur identité. Cependant, pour les communes avec un faible nombre d'habitants, les informations sur la composition du foyer pourraient être suffisantes pour réidentifier certains bénéficiaires par recoupement d’informations et ainsi connaître le montant qu'ils perçoivent. À noter que des mesures complémentaires (agrégation à un niveau géographique supérieur, suppression, etc.) pourraient être mises en œuvre pour se prémunir de cette possibilité (voir la partie suivante consacrée à l’anonymisation).
Dans quels cas la pseudonymisation est-elle préférable ?
La pseudonymisation est un processus assurant la sécurité des données tout en préservant intégralement leur utilité. Elle contribue à respecter le principe de protection des données dès la conception.
Il est souhaitable d’avoir recours à la pseudonymisation de données dans le cadre d’un traitement de données à des fins de recherche scientifique lorsqu’il est nécessaire d’avoir des informations exactes au niveau individuel sans pour autant que les données directement identifiantes soient nécessaires pour mener cette recherche.
Quelles implications du point de vue de la réglementation ?
En pratique, il est possible de retrouver l’identité des personnes dont les données ont été pseudonymisées. Cette opération peut être réalisée en accédant à des informations supplémentaires conservées séparément (exemple : la table de correspondance mettant en relation informations directement identifiantes et pseudonymes) ou encore grâce à des données tierces (permettant de réidentifier les individus à partir de connaissances préalables issues de sources publiques ou privées, etc.). Les données résultant d'une pseudonymisation sont donc considérées comme des données personnelles et leur traitement reste intégralement soumis aux obligations du RGPD (définition d’une base légale, d’une durée de conservation, possibilité d’exercice des droits pour les personnes concernées, mise en œuvre de modalités technique assurant la confidentialité des données, etc.).
Le RGPD encourage cependant l'utilisation de la pseudonymisation dans le cadre du traitement des données personnelles. La pseudonymisation réduit en effet le risque de mise en corrélation d’un ensemble de données avec l’identité originale d’une personne concernée : il s’agit donc d’une mesure de sécurité utile contribuant à la mise en conformité au RGPD.
Comment faire en pratique ?
Le résultat de la pseudonymisation peut être indépendant de la valeur initiale (comme dans le cas d’un numéro généré aléatoirement). Il peut également être dérivé des valeurs originales d’un attribut ou d’un ensemble d’attributs, par exemple au moyen d’une fonction de hachage ou d’un système de chiffrement. Le terme d’attribut fait référence à une variable issue du jeu de données de départ tel qu’un nom, un prénom, une adresse, etc.
Plusieurs techniques de pseudonymisation peuvent être utilisées. Certaines reposent sur la création de pseudonymes relativement basiques (compteur, générateur de nombre aléatoire), d’autres s’appuient sur les techniques cryptographiques (chiffrement à clé secrète, fonction de hachage) :
Compteur
Il s’agit de substituer un nombre, défini par un compteur, à un attribut ou un ensemble d’attributs directement identifiants. Une valeur initiale doit être définie puis incrémentée. Il est essentiel que les valeurs produites par le compteur ne se répètent jamais, pour éviter toute ambiguïté et que deux enregistrements distincts ne soient jamais rattachés à un même pseudonyme. Les avantages du compteur reposent sur sa simplicité, qui en fait un excellent candidat pour les jeux de données de petite taille et sans complexité. Cette solution peut cependant présenter des problèmes en termes de mise en œuvre et d’évolutivité dans le cas de jeux de données de grande taille, plus sophistiqués, car il est nécessaire de stocker l’ensemble de table de correspondance mettant en relation attributs et pseudonymes.
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | 113 |
Isabelle | Martin | 25/05/1988 | 114 |
Marie-Noëlle | Dupond | 03/02/1957 | 115 |
Karl | Petit | 19/07/1965 | 116 |
Générateur de nombres aléatoires
Il s’agit de produire, dans un jeu de données, des valeurs ayant une probabilité égale d’être sélectionnées au sein de la population totale de possibilités. Cette technique permet de créer des pseudonymes aléatoires, c’est-à-dire produisant des valeurs imprévisibles et indépendantes du jeu de données à caractère personnel initial. Cette approche est similaire à celle du compteur, à la différence qu’une valeur aléatoire, et non pas séquentielle, est attribuée à chaque identificateur. Le pseudonyme ne fournit donc pas d’informations sur l’ordre des données au sein du jeu de données.
Attention : des collisions – c’est-à-dire l’attribution d’un même pseudonyme à deux enregistrements distincts – peuvent se produire en l’absence de vigilance particulière.
Exemple : spécification de l’espace mathématique dans lequel sont tirés les nombres aléatoires – qui peut être distinct pour chaque site traitant un sous échantillon –, mise en œuvre d’un tirage sans remise, etc.
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | 75721 |
Isabelle | Martin | 25/05/1988 | 865 |
Marie-Noëlle | Dupond | 03/02/1957 | 42088 |
Karl | Petit | 19/07/1965 | 2562 |
Chiffrement à clé secrète
Il s’agit de chiffrer les données directement identifiantes pour les rendre incompréhensibles. Dans ce cas, le détenteur de la clé secrète peut réidentifier chaque personne concernée en déchiffrant l’ensemble de données, puisque les données personnelles y figurent toujours, bien que sous une forme chiffrée. Cette clé doit donc être conservée de façon sécurisée et accessible uniquement par les personnes autorisées. Par ailleurs, il est indispensable d’appliquer une méthode de chiffrement conforme à l’état de l’art.
Si les méthodes de chiffrement déterministes, c’est-à-dire pour lesquelles à une même donnée d’entrée correspond toujours un même pseudonyme, sont les plus couramment employées, l’utilisation de méthodes de chiffrement probabilistes est également envisageable. Dans ce cas, un aléa est introduit dans le résultat de la pseudonymisation, ce qui a pour conséquence de casser les corrélations entre les enregistrements se rapportant à un même individu.
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | e29843178f52fb5779862748f06f2022b3c7c920a36928eac6c25cbd7e562185 |
Isabelle | Martin | 25/05/1988 | 806e37f131008057776fad53ea1fb72d479e7e0e4435539d03595a0ec5e2c435 |
Marie-Noëlle | Dupond | 03/02/1957 | 55912722ffa374bce6320e16acc2151a947ac1d118b320894d556fc43763140b |
Karl | Petit | 19/07/1965 | 5f9c846b57f88d55eaf97ad900148239c00ce7cd1a5666c3687a5ddd9d51fcd6 |
Fonction de hachage
Il s’agit d’une fonction qui renvoie un résultat de taille fixe, quelle que soit la taille de l’entrée encodée (l’entrée peut être un attribut unique ou un ensemble d’attributs) et qui n’est pas conçue pour être inversée. Il n’est donc plus possible de récupérer facilement les données en clair, comme dans le cas du chiffrement.
Cependant, les fonctions de hachage sont publiques (tout le monde utilise les mêmes fonctions) et ordinairement conçues pour être calculées rapidement. Ainsi, elles sont sensibles aux attaques par force brute qui consistent à essayer toutes les entrées plausibles afin de constituer des tableaux de correspondance. Des tables pré-calculées existent et peuvent aussi être créées pour permettre la reconstitution en masse d’un ensemble volumineux de valeurs de hachage.
Afin de réduire le risque de reconstitution de la valeur d’entrée, il est donc nécessaire d’utiliser une fonction de hachage avec « salage » (où une valeur aléatoire et tenue secrète, appelée « sel », est ajoutée à l’attribut qui fait l’objet du hachage) ou en utilisant une clé secrète. Idéalement, on utilisera une fonction de hachage de la sous-famille des « fonctions de dérivation de clé ». Ces fonctions sont spécifiquement conçues pour intégrer une clé secrète de la façon la plus adaptée.
Prénom | Nom | Date de naissance | Pseudonyme |
---|---|---|---|
Nicolas | Durand | 06/01/1978 | eeff86b4a738a90c0dfaa71ac8a3dd8cef5ba6f3eff8b9edf5f6af73a1abbddc |
Isabelle | Martin | 25/05/1988 | 906cfc57fdc8e489f4383a93cbc9b824555aafe275a627dfe55521f46d69c531 |
Marie-Noëlle | Dupond | 03/02/1957 | ab9ef82e90636a9ba351ec589905656bde12a6b63c1b57c82364b628d911cc27 |
Karl | Petit | 19/07/1965 | c7212903e6c1807d34be14d25975e9b902f47dc278985a75cb6ac986f1461f54 |
Pour mettre en œuvre ce type de mesure, il est recommandé de prendre conseil auprès du délégué à la protection des données (DPD/DPO) et du responsable de la sécurité des systèmes d’information (RSSI) de son organisme.
Subsistution, généralisation et floutage
Certaines techniques, appelées substitution, généralisation ou encore floutage sont fréquemment mises en œuvre dans les traitements de recherche scientifique. Il s’agit de remplacer les données directement identifiantes par d’autres données choisies plus ou moins au hasard. Les chercheurs en sciences humaines et sociales ont régulièrement recours à ce procédé pour attribuer des identités fictives « proches » d’un point de vue socio-culturel aux personnes ayant fait l’objet de leurs enquêtes (choix des prénoms, profession, employeur, lieu de vie, etc.).
Les techniques de dé-identification automatique de texte, qui visent à identifier de manière automatisée les données personnelles dans un document textuel (compte-rendu médical, décision de justice, etc.), peuvent également proposer leur substitution. Celle-ci peut avoir pour avantage de rendre moins décelable la présence d’erreurs de détection toujours susceptibles d’advenir avec des méthodes automatisées.
Pour autant, qu’il s’agisse de recherche qualitative ou de recherche quantitative, cette pratique qui est considérée comme un premier niveau de protection n’est pas une technique de pseudonymisation au sens du RGPD.
Quelle technique de pseudonymisation choisir ?
Le choix de la technique de pseudonymisation appropriée dépend notamment de deux facteurs : le niveau de protection requis et l’utilité des données pseudonymisées pour les besoins de la recherche envisagée. Il est ainsi nécessaire de mettre en balance ces deux aspects en se posant les bonnes questions vis-à-vis du traitement envisagé. De quelles informations a-t-on réellement besoin ? A-t-on besoin de pouvoir lier les données d’un même individu ? La structure des données doit-elle être conservée ? Etc.
Quelle que soit la technique de pseudonymisation appliquée, les informations permettant de mettre en relation les pseudonymes générés et les données directement identifiantes revêtent donc une sensibilité importante. Il est nécessaire de s’assurer que la confidentialité des éléments (table de correspondance, « sel », clé de chiffrement, etc.) est assurée par des mesures techniques et organisationnelles appropriées. Ces informations ne doivent ainsi pouvoir être accédées que par des personnes autorisées et dans des conditions préalablement spécifiées.
Exemple : le responsable d’une recherche peut se voir accorder les droits pour accéder à ces informations, mais pas les chargés d’études qui travaillent à ses côtés.
Pour minimiser les risques pour les personnes concernées et parce qu’il n’y a aucun besoin de revenir vers l’identité de personnes, le choix peut également être fait de supprimer ces informations après leur collecte, leur pseudonymisation, leur analyse ou encore avant la publication des résultats. Attention, les données restantes peuvent cependant toujours permettre une identification indirecte des personnes et demeurent alors soumises au respect du RGPD.
Attention au risque de violation de données
L’inversion non autorisée de la pseudonymisation peut constituer une violation de données personnelles. Si elle est susceptible d’entraîner un risque pour les droits et les libertés des personnes concernées, elle devra faire l’objet d’une notification de violations auprès de l’autorité de protection des données compétente.
À l’inverse, la pseudonymisation peut être considérée comme une mesure qui réduit les effets négatifs d’une violation de données personnelles. Dans certains cas qui doivent être scrupuleusement analysés, elle rend la notification de la violation de données non nécessaire.
L’anonymisation
L’anonymisation est un traitement de données personnelles qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute réidentification de la personne, par quelque moyen que ce soit. Contrairement à la pseudonymisation, l’anonymisation est donc une opération irréversible.
Exemple : dans le but de développer les technologies de type smart grids et ainsi déployer des réseaux énergétiques plus accessibles, économiques, et fiables, un chercheur souhaite étudier les besoins d’électricité d’un quartier d’une grande métropole au cours du temps (sur une journée, une semaine, un mois).
Pour le projet qui l’intéresse, il n’a pas besoin d’accéder aux données au niveau de chaque point de livraison d’électricité (PDL) – c’est-à-dire de chaque foyer – mais peut se contenter d’une information moins fine.
Il récupère ainsi auprès du distributeur d’énergie des consommations anonymisées. En pratique, il s’agit de données agrégées pour plusieurs foyers, ce qui ne permet pas de remonter aux consommations individuelles mais permet au chercheur d’observer et analyser les flux de circulation énergétique dans le quartier qu’il étudie.
Dans quels cas l’anonymisation est-elle conseillée ?
L’anonymisation ouvre des potentiels de réutilisation des données et permet ainsi aux acteurs d’exploiter et de partager leur « gisement » de données sans porter atteinte à la vie privée des personnes. Elle permet également de conserver des données sans limitation.
Il est à noter qu’en pratique l’anonymisation est une technique destructrice d’information. Il est donc conseillé d’avoir recours à l’anonymisation lorsqu’on :
- dispose de quantités suffisantes de données ;
- a une idée précise de l’utilisation qui sera faite des données anonymisées ;
- est en mesure de mettre en œuvre une méthode d’anonymisation qui conservera les propriétés souhaitées du jeu de données.
Quelles implications du point de vue de la réglementation ?
Si la législation relative à la protection des données, et en particulier le RGPD, doit être respectée pour la mise en œuvre du processus d’anonymisation, elle ne s’applique plus à l’issue du processus, car la diffusion ou la réutilisation des données anonymisées n’a plus de conséquences sur la vie privée des personnes concernées. Du point de vue de la protection des données et si cela ne va pas à l’encontre d’un autre texte, chacun est donc libre d’utiliser les données comme il l’entend et pour la durée qu’il souhaite.
Comment faire en pratique ?
Le processus d’anonymisation vise à éliminer toute possibilité de réidentification : il implique donc une nécessaire perte d’information. L’exploitation future des données est ainsi limitée à certains types d’utilisation. Ces contraintes sont à prendre en compte dès le début du projet.
Pour construire un processus d’anonymisation pertinent, il est conseillé de :
- examiner les catégories de données à anonymiser (données structurées ou non, séries temporelles, informations de géolocalisation, etc.) ;
- supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre une réidentification aisée des personnes (par exemple, la connaissance précise de l’âge des individus présents dans un jeu de données peut permettre dans certains cas de réidentifier très facilement les personnes centenaires) ;
- distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables, qu’il est préférable de ne pas collecter du tout en vertu du principe de minimisation des données) ;
- définir la finesse idéale et acceptable pour chaque information conservée ;
- définir les priorités (exemple : est-il plus important de conserver une grande finesse sur telle information ou de conserver telle autre information ?).
Ce questionnement aide à déterminer le procédé d’anonymisation le plus pertinent, c’est-à-dire l’enchaînement des techniques d’anonymisation à mettre en place. Celles-ci peuvent être regroupées en deux familles : la randomisation et la généralisation.
Quel procédé d’anonymisation choisir ?
Randomisation
Il s’agit de modifier les attributs dans un jeu de données de telle sorte que celles-ci soient moins précises, tout en conservant la répartition globale. Cette technique permet de protéger le jeu de données du risque d’inférence.
Exemple : permuter les données relatives à la date de naissance des individus permet d’altérer la véracité des informations contenues dans une base de données.
Généralisation
Il s’agit de généraliser les attributs du jeu de données en modifiant leur échelle ou leur ordre de grandeur afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres.
Exemple : dans un fichier contenant la date de naissance des personnes, remplacer cette information par la seule année de naissance, ou un intervalle temporel (par exemple : individus âgés entre 25 et 30 ans).
Ajout de bruit, agrégation, k-anonymat, l-diversité, t-proximité, confidentialité différentielle, etc. : chaque technique d’anonymisation présente des avantages et inconvénients. Son utilisation est à décider en fonction du traitement de données et de l’objectif poursuivi.
Comment vérifier l’efficacité d’un processus d’anonymisation ?
Dans leur avis de 2014, les autorités de protection des données européennes définissent trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :
- Non-individualisation : Il ne doit pas être possible d’isoler un individu dans le jeu de données.
Exemple : une base de données de CV où seuls les noms et prénoms d’une personne auront été remplacés par un numéro qui ne correspond qu’à elle permet d’individualiser cette personne. Cette base serait considérée comme pseudonymisée et non comme anonymisée.
- Non-corrélation : Il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu.
Exemple : une base de données cartographique renseignant les adresses de domiciles de particuliers ne peut être considérée comme anonyme dès lors que d’autres bases de données existantes par ailleurs, qui contiennent ces mêmes adresses, contiennent également d’autres données permettant d’identifier les individus.
- Non-inférence : Il ne doit pas être possible de déduire de façon quasi-certaine de nouvelles informations sur un individu.
Exemple : si un jeu de données supposément anonyme contient des informations sur le montant des impôts de personnes ayant répondu à un questionnaire, que tous les hommes ayant entre 20 et 25 ans ayant répondu sont non-imposables, il sera possible de déduire, si on sait que M. X, homme âgé de 24 ans, a répondu au questionnaire, qu’il est non imposable.
À défaut de remplir parfaitement ces trois critères, le responsable de traitement qui souhaite rendre un jeu de données anonyme doit démontrer, via une évaluation approfondie, que le risque d’identification d'une personne à l'aide de moyens raisonnablement susceptibles d'être utilisés, par lui-même ou par toute autre personne, est négligeable.
Les techniques d’anonymisation et de réidentification étant amenées à évoluer régulièrement, il est indispensable, pour tout responsable de traitement mettant en œuvre des solutions d’anonymisation, d’effectuer une veille régulière afin de préserver, dans le temps, le caractère anonyme des données produites.
Si un jeu de données publié en ligne comme anonyme contient en réalité des données personnelles (ou qu’il a fait l’objet d’une attaque en réidentification réussie) et qu’aucune des exceptions mentionnées précédemment n’est applicable, cela peut constituer une violation de données. Il est alors nécessaire de procéder au retrait du jeu de données en question dans les plus brefs délais et de procéder à une notification de violation de données auprès de l’autorité de protection des données compétente si la violation est susceptible d'entraîner un risque pour les droits et libertés des personnes concernées.
Découvrez les 8 fiches pratiques sur la recherche (hors santé)
- Les questions-réponses de la CNIL
- Quelle base légale pour un traitement de recherche ?
- Comment assurer le respect des droits des personnes ?
- Les durées de conservation des données
- Enjeux et avantages de l’anonymisation et de la pseudonymisation
- Quels outils pour aider les acteurs de la recherche dans leur mise en conformité ?
- Les mesures de sécurité et de confidentialité
- Focus sur certaines catégories de données personnelles