L’anonymisation des données, un traitement clé pour l’open data

17 octobre 2019

Dans le cadre de l’open data, l’anonymisation permet de publier en ligne des informations publiques sans données personnelles. Quelles sont les méthodes applicables et les règles à respecter ?

Qu’est-ce que l’anonymisation ?

L’anonymisation est un traitement qui consiste à utiliser un ensemble de techniques de manière à rendre impossible, en pratique, toute identification de la personne par quelque moyen que ce soit et ce de manière irréversible.

Lorsque l’anonymisation est effective, le RGPD ne s’applique plus aux données ainsi anonymisées, celles-ci n’étant dès lors plus à caractère personnel.

Différences entre anonymisation et pseudonymisation

La pseudonymisation est un traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans avoir recours à des informations supplémentaires. En pratique la pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénom, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro dans un classement, etc.).

La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. En pratique, il est toutefois bien souvent possible de retrouver l’identité de ceux-ci grâce à des données tierces. C’est pourquoi des données pseudonymisées demeurent des données personnelles. L’opération de pseudonymisation est réversible, contrairement à l’anonymisation.

Dans quels cas anonymiser des données personnelles dans le cadre de l’open data ?

Le règlement général sur la protection des données (RGPD) n’impose pas aux administrations d’anonymiser les documents qu’elles détiennent. L’anonymisation n’est qu’une solution parmi d’autres pour pouvoir exploiter des données personnelles dans le respect des droits et libertés des personnes.

En revanche, lorsque les administrations souhaitent diffuser ces documents (ou des données qu’ils contiennent), par exemple en les publiant en ligne, leur anonymisation préalable est une obligation légale qui s’impose à elles par principe en application de du Code des relations entre le public et l’administration, CRPA (article L. 312-1-2). Ainsi lorsque les documents administratifs comportent des données personnelles, ils ne peuvent être rendus publics qu'après avoir fait l'objet d'un traitement permettant de rendre impossible l'identification de ces personnes.

Une fois anonymisées, les données ne peuvent plus être reliées à une personne. Les impacts potentiels de leur diffusion ou de leur réutilisation sur la vie privée des personnes concernées sont ainsi grandement limités.

Par exception, l’anonymisation n’est pas obligatoire dans trois cas de figure :

lorsque l’administration est dispensée de cette obligation par une disposition législative contraire, c’est-à-dire par un texte de loi autorisant la publication intégrale du document en question (voir guide pratique, 2.2.2) ;
lorsque le document dont la diffusion est envisagée figure dans la liste du CRPA (art. D. 312-1-3) : cet article énumère un certain nombre de catégories de documents susceptibles d’être rendus publics sans anonymisation préalable ;
lorsque les personnes dont les données personnelles figurent dans le document ont donné leur accord.

Comment anonymiser tout en préservant au maximum l’utilité du jeu de données ?

Le processus d’anonymisation vise à éliminer toute possibilité de ré-identification : il implique donc une nécessaire perte de qualité des données. Leur exploitation future est ainsi limitée à certains types d’utilisation. Ces contraintes sont à prendre en compte dès le début du projet.

Pour construire un processus d’anonymisation pertinent, il est ainsi conseillé de :

supprimer les éléments d’identification directe ainsi que les valeurs rares qui pourraient permettre une réidentification aisée des personnes (par exemple, la connaissance précise de l’âge des individus présents dans un jeu de données peut permettre dans certains cas de réidentifier très facilement les personnes centenaires) ;
distinguer les informations importantes des informations secondaires ou inutiles (c’est-à-dire supprimables) ;
définir la finesse idéale et acceptable pour chaque information conservée ;
définir les priorités (par exemple, est-il plus important de conserver une grande finesse sur telle information ou de conserver telle autre information ?).

Ce questionnement aide à déterminer le procédé d’anonymisation le plus pertinent, c’est-à-dire l’enchaînement des techniques d’anonymisation à mettre en place qui peuvent être regroupées en deux familles : la randomisation et la généralisation.

La randomisation consiste à modifier les attributs dans un jeu de données de telle sorte qu'elles soient moins précises, tout en conservant la répartition globale. Cette technique permet de protéger le jeu de données du risque d’inférence.

Exemple : permuter les données relatives à la date de naissance des individus de manière à altérer la véracité des informations contenues dans une base de données.

La généralisation permet de généraliser les attributs du jeu de données en modifiant leur échelle ou leur ordre de grandeur afin de s’assurer qu’ils soient communs à un ensemble de personnes. Cette technique permet d’éviter l’individualisation d’un jeu de données. Elle limite également les possibles corrélations du jeu de données avec d’autres.

Exemple : dans un fichier contenant la date de naissance des personnes, il est possible de remplacer cette information par la seule année de naissance, ou une fourchette (par exemple : individus entre 20 et 30 ans).

Chaque technique d’anonymisation présente ses propres avantages et sera à décider en fonction du traitement de données et de l’objectif poursuivi.

Comme vérifier l’efficacité de l’anonymisation ?

Dans leur avis de 2014, les autorités de protection des données européennes définissent trois critères qui permettent de s’assurer qu’un jeu de données est véritablement anonyme :

La non-individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données ;

Exemple : Une base de données de CV où seuls les noms et prénoms d’une personne auront été remplacés par un numéro qui ne correspond qu’à elle permet d’individualiser cette personne. Cette base serait considérée comme pseudonymisée et non comme anonymisée.

La non-corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu ;

Exemple : une base de données cartographique renseignant les adresses de domiciles de particuliers ne peut être considérée comme anonyme dès lors que d’autres bases de données existantes par ailleurs qui contiennent ces mêmes adresses contiennent également d’autres données permettant d’identifier les individus.

La non-inférence : il ne doit pas être possible de déduire de façon quasi certaine de nouvelles informations sur un individu.

Exemple : si un jeu de données supposément anonyme contient des informations sur le montant des impôts de personnes ayant répondu à un questionnaire, que tous les hommes ayant entre 20 et 25 ans ayant répondu sont non imposables, il sera possible de déduire, si on sait que M. X, homme âgé de 24 ans, a répondu au questionnaire, qu’il est non imposable.

Les techniques d’anonymisation et de réidentification étant amenées à évoluer régulièrement, il est indispensable, pour tout responsable de traitement mettant en œuvre des solutions d’anonymisation, d’effectuer une veille régulière afin de préserver, dans le temps, le caractère anonyme des données produites.

Si un jeu de données publié en ligne comme anonyme contient en réalité des données personnelles et qu’aucune des exceptions mentionnées précédemment n’est applicable, une violation de données est susceptible d’être caractérisée. Il convient dès lors de procéder au retrait du jeu de données en question dans les plus brefs délais

Que faire en cas de doute ?

Compte tenu de la complexité s’attachant aux questions de choix et d’évaluation régulière des techniques d’anonymisation, il est recommandé aux collectivités publiques de travailler sur celles-ci de façon concertée, en association avec leurs délégués à la protection des données et les réseaux de professionnels spécialement concernés. La CNIL pourra également apporter son expertise sur les problématiques les plus fréquemment rencontrées sur ce sujet en particulier dans le cadre des saisines des têtes de réseaux telles que les associations de collectivités.