L’anonymisation est la seule méthode permettant de faire sortir les données du champ d’application du RGPD. Cependant, à la différence de la pseudonymisation, elle doit être irréversible. Malheureusement, cette notion d’irréversibilité est source de confusions fréquentes entre anonymisation et pseudonymisation, et peut exposer les responsables des traitements à des sanctions importantes. A ce sujet, le G29 (Groupe des CNIL Européennes) publie en 2014 un avis sur les techniques d’anonymisation, où il définit la notion d’irréversibilité.
L’anonymisation des données est aujourd’hui nécessaire dans tous les cas de traitements de données à caractère personnel proscrits par le RGPD ; qu’il s’agisse de la conservation de données au-delà de la durée légale de conservation, de l’utilisation des données personnelles en environnements hors production pour du test et de la recette, ou encore, du traitement de données pour une finalité différente de la finalité pour laquelle les données ont été collectées, sans une base juridique viable (ex : utilisation des données de services bancaires pour du marketing sans le consentement des personnes). Tous ces traitements nécessitent la mise en œuvre d’un processus d’anonymisation conforme.
Cependant, la notion de conformité de l’anonymisation repose essentiellement sur son caractère irréversible ; ce qui signifie qu’il ne devrait pas être possible de ré-identifier les personnes concernées sur la base des données anonymes. Le caractère irréversible est aussi ce qui distingue l’anonymisation de la pseudonymisation, qui elle, est réversible. Cependant, le critère d’irréversibilité est source de confusions, car il est très souvent mal interprété, ce qui expose le responsable des traitements à des sanctions pécuniaires importantes, prévues par le RGPD (4% du chiffre d’affaire mondial de l’entreprise ou 20 millions d’euro, le plus élevé étant retenu), mais aussi, à un risque sur sa réputation, car des données mal anonymisées peuvent mener à la ré-identification des personnes concernées et ainsi, à des scandales difficiles à rattraper.
1. Erreurs commises en matière d’irréversibilité de l’anonymisation
a. Penser que supprimer les données « identifiantes » garantit l’irréversibilité
La principale erreur concernant l’irréversibilité est de penser que la suppression des données « identifiantes » suffit pour garantir l’irréversibilité. Cette erreur est due en partie, à une mauvaise interprétation de la définition de la pseudonymisation (article 4 du RGPD) :
Pseudonymisation (RGPD) : « Le traitement de données à caractère personnel de telle façon que celles-ci ne puissent plus être attribuées à une personne concernée précise sans avoir recours à des informations supplémentaires, pour autant que ces informations supplémentaires soient conservées séparément et soumises à des mesures techniques et organisationnelles afin de garantir que les données à caractère personnel ne sont pas attribuées à une personne physique identifiée ou identifiable »
La définition de la pseudonymisation précise que pour protéger les personnes concernées, il est nécessaire de conserver les informations supplémentaires (données « identifiantes ») séparément, et les soumettre à des mesures techniques et organisationnelles pour garantir leur sécurité. Ces informations « identifiantes » sont le plus souvent des informations telles que le nom, le prénom, le numéro de sécurité social, le numéro de carte bancaire….
L’erreur commise est de considérer qu’il suffit de supprimer les données « identifiantes » (conservées séparément), pour que les données pseudonymisées deviennent des données anonymes. En effet, même si les données « identifiantes » sont supprimées, le reste des données (les données « non-identifiantes ») peut toujours contenir des informations pouvant servir à ré-identifier les personnes concernées. De telles données « non-identifiantes » sont appelées quasi-identifiants, car si elles ne permettent pas d’identifier directement une personne, leur combinaison avec d’autres données du même type, peut mener à une identification complète des personnes concernées. Par exemple, en 1997 aux Etats Unis [1], des données « anonymisées » (par suppression de données « identifiantes ») et publiées par une agence d’assurance, ont permis de ré-identifier les personnes concernées sur la base d’informations telles que l’âge, le genre et le code postal, qui sont des quasi-identifiants. Ces quasi-identifiants ont permis de ré-identifier 87% des personnes présentes dans le jeu de données, ainsi que le gouverneur de l’état du Massachussetts de l’époque, du nom de William Weld.
Ainsi, la suppression des données « identifiantes » ne suffit pas pour protéger les personnes, par conséquent, même si les données « identifiantes » sont supprimées, le reste des données est toujours réversible et demeure donc sous la protection du RGPD.
b. S’appuyer sur des méthodes d’anonymisation non référencées pour garantir l’irréversibilité
Afin de garantir l’irréversibilité, une autre erreur est d’utiliser des méthodes d’anonymisation non référencées et parfois « sur mesure ». En effet, l’histoire fait état de plusieurs cas de mauvaises anonymisations, basées sur des méthodes non référencées, qui ont conduit à des scandales après ré-identification des personnes concernées. Ceci est par exemple le cas de la société américaine de services internet AOL [3], qui en 2006, publie des données « anonymes » de requêtes de recherche effectués par ses utilisateurs, en utilisant des méthodes d’anonymisation non référencées. Ces données ont par la suite permis de ré-identifier l’utilisateur « 4417749 », sur la base de requêtes telles que : « dog that urinates on everything » (chien qui urine partout), « 60 single men » (hommes célibataires de 60 ans), « landscapes in Lilburn, GA » (paysages à Lilburn, GA). En effet, l’utilisateur « 4417749 » a été ré-identifié comme étant « Thelma Arnold », une veuve, possédant 3 chiens et vivant à Lilburn, une ville du comté de Gwinnett, en Géorgie, aux États-Unis. Comme autre exemple de mauvaise anonymisation (basée sur des méthodes « sur mesure »), nous pouvons citer le cas plus récent concernant l’agence de taxi newyorkais « NYC Taxis » [4], qui publie des données « anonymisées » sur la base desquelles il a été possible de ré-identifier plusieurs stars du cinéma (« Ryan Reynolds » et « Jessica Alba ») et de déterminer avec précision leurs trajets dans la ville de New York et même de découvrir qu’ils n’avaient pas laissé de pourboire. Plus grave encore, ces données ont permis de ré-identifier des clients d’un bar à striptease situé en périphérie de la ville, en retraçant leur trajet depuis le bar, jusqu’à leur domicile. Toutes ces attaques se sont appuyées sur des failles présentes dans les méthodes d’anonymisation non référencées, utilisées pour anonymiser les données.
Afin de réduire les risques de ré-identification, le G29 [2] recommande un ensemble de techniques à utiliser pour anonymiser les données ; ces techniques servent de référence en matière d’anonymisation. Elles sont classées en 2 principaux modèles : la randomisation et la généralisation. La randomisation fait référence à des techniques qui altèrent la véracité des données afin d’affaiblir le lien entre les données et l’individu, et la généralisation, à des techniques pour diluer les attributs des personnes concernées en modifiant leur échelle ou leur ordre de grandeur respectif (par exemple, une région plutôt qu’une ville, un mois plutôt qu’une semaine).
2. Que signifie irréversible selon le G29 ?
L’irréversibilité doit considérer à la fois l’identification directe et l’identification indirecte telle que décrit dans la définition de l’anonymisation :
Anonymisation (ISO 29100) : le processus par lequel des informations personnellement identifiables sont altérées de façon irréversible, de sorte que la personne à laquelle se rapporte l’information ne puisse plus être identifiée directement ou indirectement.
L’identification directe fait référence aux identifiants tels que le nom, le numéro de sécurité social, l’adresse mail, le numéro de carte bancaire ; et l’identification indirecte fait référence aux quasi-identifiants tels que le genre, l’âge, le code postal, mais aussi la race des chiens, la couleur des chemises, les mots clés d’une requête…
En effet, toute information peut servir de quasi-identifiant car la notion de quasi-identifiant dépend essentiellement du contexte défini par les données en question (ex : les mots clés « chien qui urine partout » ont permis de ré-identifier « Thelma Arnold » cf. Section 1.b). De plus, tous les quasi-identifiants ne sont pas équivalents, certains quasi-identifiants possèdent un degré d’identification plus élevé que d’autres, et ceci dépend aussi du contexte des données. Par exemple, dans un jeu de données contenant l’âge et le genre des personnes, s’il n’y a qu’une personne de sexe « masculin » et âgée de « 27 ans », alors, ces informations sont des quasi-identifiants qui, dans ce jeu de données précis, ont un degré d’identification maximal. Par contre, dans un jeu de données différent, où il y a plusieurs personnes de sexe « masculin » ayant « 27 ans », ces informations sont toujours des quasi-identifiants, mais avec un degré d’identification plus faible.
C’est la nécessité de prendre en compte le contexte des données, ainsi que les risques liés à l’identification indirecte (via les quasi-identifiants), qui amène le G29 (Groupe des CNIL européennes) à publier en 2014, un avis sur les techniques d’anonymisation, qui décrit les principes à respecter en matière d’anonymisation. Le G29 définit ainsi trois risques en matière d’anonymisation :
- L’individualisation : qui correspond à la possibilité d’isoler une partie ou la totalité des enregistrements identifiant un individu dans l’ensemble de données
- La corrélation : qui consiste dans la capacité de relier entre elles, au moins, deux enregistrements se rapportant à la même personne concernée ou à un groupe de personnes concernées (soit dans la même base de données, soit dans deux bases de données différentes). Si une attaque permet d’établir (par exemple, au moyen d’une analyse de corrélation) que deux enregistrements correspondent à un même groupe d’individus, mais ne permet pas d’isoler des individus au sein de ce groupe, la technique résiste à l’« individualisation», mais non à la corrélation;
- L’inférence : qui est la possibilité de déduire, avec un degré de probabilité élevé, la valeur d’un attribut à partir des valeurs d’un ensemble d’autres attributs.
Ainsi, définir une méthode d’anonymisation conforme, et donc irréversible, consiste à diminuer à un niveau acceptable les risques liés à l’individualisation, à la corrélation et à l’inférence. Le caractère irréversible de l’anonymisation n’est donc pas une notion absolue, mais une question de gestion de risques. Cependant, le risque zéro n’existe pas en matière d’anonymisation ; il existe toujours un risque non nul qu’une personne puisse être identifiée. En effet, comme dans d’autres domaines de la sécurité, il s’agit de réduire les risques d’attaque. De plus, il ne serait d’aucune utilité de produire des données complètement anonymes ; l’anonymisation est un processus qui transforme les données en diminuant la quantité d’information contenue dans ces dernières ; si les données sont complètement anonymisées, elles peuvent devenir inutiles. L’anonymisation consiste alors à trouver le meilleur compromis entre protection des personnes et utilisabilité des données. Par exemple, en appliquant le modèle d’anonymisation par généralisation (cf. Section 1.b), on pourrait utiliser un département plutôt qu’un arrondissement pour définir une localité, ce qui peut se traduire par exemple par utiliser « 75*** » (Paris) au lieu de « 75015 » (15eme arrondissement). Cette transformation diminue la précision des données pour protéger les personnes concernées, mais il faut s’assurer qu’elle garantit l’utilisabilité des données, c’est-à-dire, s’assurer que l’utilisation du département à la place de l’arrondissement ne fausse pas les résultats de l’analyse.
3. Conclusion
La notion d‘irréversibilité de l’anonymisation est donc une question d’évaluation de risques tels que définis par le G29 (individualisation, corrélation et inférence). Pour produire des données anonymes et donc irréversibles, il est nécessaire de diminuer ces trois risques à un niveau acceptable. Par conséquent, l’irréversibilité de l’anonymisation n’est pas une notion absolue mais relative ; ce qui est en plus souhaitable, car des données complètement anonymes ne seraient d’aucune utilité pour les responsables des traitements.
[1]: Barth-Jones, Daniel. (July 2012). « The re-identification of Governor William Weld’s medical information: a critical re-examination of health data identification risks and privacy protections, then and now. » Then and Now.
[2] : Avis 05/2014 sur les Techniques d’anonymisation, adopté le 10 avril 2014 : https://www.dataprotection.ro/servlet/ViewDocument?id=1288
[3] : Barbaro, M., Zeller, T., & Hansell, S. (2006). A face is exposed for AOL searcher no. 4417749. New York Times.
[4]: Narayanan, Arvind, & Edward W. Felten. (2014) . « No silver bullet: De-identification still doesn’t work. » White Paper : 1-8.
Intéressant j’apprends quelque chose. Merci pour cet article.
C’est moi qui vous remercie.