Les techniques de « data masking » sont très utilisées pour anonymiser les données dans le cadre du RGPD. Cependant, si elles permettent de réduire les risques liés à la ré-identification des personnes, sont-elles suffisantes pour garantir une anonymisation conforme, telle que définie par le G29 (Groupe des CNILs Européennes) ?

Depuis l’entrée en vigueur du RGPD en mai 2018, l’anonymisation des données est devenue incontournable pour un grand nombre de traitements de données à caractère personnel. En effet, les principes du RGPD restreignent, et parfois interdisent l’usage des données à caractère personnel dans plusieurs cas de figure incluant : l’utilisation de données au-delà de la durée légale de conservation, ou encore, l’envoi des données à des partenaires situés en zone hors UE. Ces restrictions sont un frein pour le développement de nouveaux services et l’amélioration de services existants ; cependant, les responsables des traitements qui ne s’y conforment pas s’exposent à de lourdes sanctions (4% du chiffre d’affaire mondial, ou 20 millions d’euro, le plus élevé étant retenu). L’anonymisation reste dans ces cas, la seule alternative prévue par le RGPD pour exploiter les données, car elle transforme les données personnelles en données qui ne sont plus personnelles.

Afin de répondre à la problématique de l’anonymisation, plusieurs responsables des traitements se sont tournés vers des solutions de « data masking ». Le « data masking » couvre un ensemble de techniques qui consistent à transformer les données personnellement identifiables (PII, « Personally Identifiable Information ») de telle sorte que celles-ci ne permettent plus d’identifier les personnes concernées. Cependant, si ces techniques contribuent à réduire les risques de ré-identification, elles sont insuffisantes pour garantir une anonymisation conforme. En effet, pour être conforme, tout procédé d’anonymisation doit être irréversible ; c’est-à-dire qu’il ne devrait pas être possible de retrouver l’identité des personnes concernées sur la base des données anonymes. Si le « data masking » est souvent présenté comme un procédé irréversible, il ne l’est pas selon l’avis du G29 (Groupe des CNILs Européennes) sur les techniques d’anonymisation, publié en 2014, et qui demeure aujourd’hui l’une des seules références en matière d’anonymisation de données dans le cadre du RGPD.

1. Qu’est-ce que le Data Masking ?

Le « data masking » [1] fait référence à un ensemble de techniques qui visent à remplacer les données personnellement identifiables (PII), par des données structurellement similaires, afin d’assurer d’une part la protection des personnes concernées, et d’autre part, l’utilisabilité des données pour les besoins métiers. Une donnée personnellement identifiable est une information qui peut servir – à elle seule – à ré-identifier une personne. Par exemple : le nom, le numéro de sécurité social, les données biométriques… Le « data masking » consiste donc à transformer ces données afin d’assurer qu’elles ne permettent plus d’identifier une personne.

Différentes techniques sont ainsi utilisées par le « data masking » :

La substitution qui consiste à générer des valeurs « synthétiques » selon le format de la donnée d’origine, il peut s’agir de formats de types : carte bancaire, adresse IP, adresse mail… Par exemple, on pourrait substituer le numéro de carte bancaire suivant : 4012 0010 3714 1112 par 4011 0020 3700 1123 ; tout en gardant une certaine cohérence, par exemple le premier chiffre (« 4 ») fait référence aux cartes VISA.
La suppression ou la troncature, qui consiste à supprimer l’ensemble ou une partie de la valeur d’origine (ex : Marie Dupuis -> ***** ***** ou Marie Dupuis -> Marie *****)
La génération de valeurs aléatoires, qui consiste à remplacer les valeurs d’origines par des nombres générés aléatoirement (ex : Marie Dupuis -> 123456)
Le hachage (par des fonctions de hachage cryptographiques). Une fonction de hachage cryptographique transforme une donnée de taille arbitraire en une donnée de taille fixe, généralement plus petite, appelée haché ou empreinte. Le terme « empreinte » est utilisé car bien qu’étant de taille plus petite que la donnée d’entrée, elle est suffisante pour la caractériser ; en effet, elle est quasiment unique pour une entrée donnée. Une autre propriété essentielle d’une fonction de hachage est qu’il est pratiquement impossible de revenir à la donnée d’origine à partir de son empreinte. L’empreinte est représentée par une chaine de caractère (ex : Marie Dupuis -> 0076 45DD CBE2 1ABC). Cependant, la CNIL recommande de ne pas utiliser des fonctions de hachage « nues », c’est à dire sans mesure de sécurité supplémentaire. Il est conseillé à minima d’utiliser un « sel », ou mieux encore, de faire appel à des fonctions crypographiques de type HMAC.
Le chiffrement des données consiste à transformer les données en les rendant inintelligibles à toute entité n’ayant pas la clé de déchiffrement. Le chiffrement de données est donc un procédé réversible, mais à condition d’avoir la clé de déchiffrement. Il est donc nécessaire de supprimer la clé de déchiffrement pour garantir l’irréversibilité du processus.

De manière générale, le « data masking » vise à remplacer les PII par des valeurs de substitution pour garantir l’irréversibilité des données. Cependant, l’irréversibilité des PII ne garantit pas l’irréversibilité de l’ensemble des données. Le reste des données, « non-identifiant », peut encore servir à ré-identifier les personnes, comme le précise l’avis du G29 sur les techniques d’anonymisation.

2. Pourquoi le « data masking » ne garantit pas l’irréversibilité des données ?

Le « data masking » transforme les données personnellement identifiables (PII) afin d’assurer l’irréversibilité des données. Cependant, il ne suffit pas de transformer ou supprimer les PII pour assurer la protection de l’ensemble des données. En effet, les PII ne constituent le plus souvent qu’une partie du jeu de données à anonymiser, et le reste des données, bien que ne permettant pas une identification directe, peut servir à ré-identifier indirectement. De telles données permettant une identification indirecte sont appelées « quasi-identifiants ». Les « quasi-identifiants » sont des informations qui en elles-mêmes ne permettent pas d’identifier les personnes, mais qui combinées entre elles, peuvent mener à une identification complète des personnes. La majorité des attaques de ré-identification, s’appuie d‘ailleurs sur les « quasi-identifiants », qui sont alors utilisés pour croiser le jeu de données anonymes avec d’autres données. Par exemple, une étude récente (07/2019) publiée dans la revue « Nature et Communications » [2], montre qu’il est possible de ré-identifier avec un taux de réussite supérieur à 95%, des personnes sur la base de données anonymisées par suppression de PII. L’étude se base pour cela sur des attributs démographiques tels que l’âge, le sexe, le code postal et le statut matrimonial, et montre qu’en combinant ces données, il est possible d’affiner la connaissance sur un individu et ainsi d’arriver à le caractériser parmi d’autres individus. Comme l’explique l’un des auteurs : « beaucoup de personnes vivant à New York sont des hommes et ont la trentaine. Parmi elles, beaucoup moins sont également nées le 5 janvier, conduisent une voiture de sport rouge, ont deux enfants (des filles) et un chien ». Ces informations sont en fait des « quasi-identifiants », qui permettent, par combinaison, de ré-identifier les personnes concernées. Plus grave encore, l’étude montre qu’il est possible de ré-identifier plus de 99% des américains sur la base de 15 attributs démographiques de ce type.

Afin de réduire les risques liés à la ré-identification des personnes, le G29 publie en 2014 un avis sur les techniques d’anonymisation [3]. Cet avis décrit les principaux risques en matière d’anonymisation – dont ceux cités précédemment – et recommande des méthodes d’anonymisation permettant de diminuer ces risques. Il s’agit principalement de 3 risques : l’individualisation, la corrélation et l’inférence ; et les méthodes d’anonymisation recommandées sont basées sur 2 principaux modèles que sont : la généralisation et la randomisation.

3. Conclusion

De nombreux responsables des traitements utilisent les techniques de « data masking » pour se prémunir des contraintes du RGPD, cependant, ils s’exposent à de lourdes sanctions car le « data masking » ne garantit pas une anonymisation conforme. En effet, le « data masking » n’agit que sur les PII, qui ne représentent qu’une partie des données à anonymiser, et il est toujours possible d’utiliser le reste des données pour ré-identifier les personnes. Afin d’assurer une anonymisation conforme, il est nécessaire de diminuer les risques de ré-identification tels que décrit par l’avis du G29 (Groupe des CNILs Européennes) sur les techniques d’anonymisation.

[1] https://en.wikipedia.org/wiki/Data_masking

[2] https://www.nature.com/articles/s41467-019-10933-3

[3] Groupe de travail article 29 sur la protection de données. – Avis 05/2014 sur le Techniques d’anonymisation. Adopté le 10 Avril 2014.

Cet article a 4 commentaires

Steve TCHOULBOU 11 Sep 2019 Répondre

Joli décryptage de l’actualité liée à la problématique RGPD au cœur des débats sur la planète numérique actuelle.

Merci MR SONDECK
Sebastian 22 Déc 2019 Répondre

Le challenge portait sur l’anonymisation coherente des donnees personnelles a des fins de test et de developpement sur l’ensemble de la chaine d’applications. Le champ d’application comprenait des bases de donnees Oracle et Non-Oracle. Cisco utilise Oracle Data Masking pour faciliter la conformite aux regles et reglementations mondiales en matiere de confidentialite des donnees
1. Louis Philippe Sondeck 22 Déc 2019 Répondre
  
  Bonjour Sebastian,
  Je vous remercie pour votre contribution.
  En effet, la problématique de données cohérentes pour le test et la recette, est centrale parmi les problématiques connues de l’anonymisation. Cependant, comme le précise la CNIL, les méthodes d’anonymisation doivent fournir des garanties suffisantes pour la protection des personnes concernées. Ces garanties doivent prendre la forme d’évaluation du niveau de risques de ré-identification. Ces risques sont de 3 types: individualisation, corrélation et inférence. Il faut donc être en mesure de prouver que la méthode choisie, fournit un niveau de risque acceptable au regard de ces 3 risques. Le « data masking » n’ayant en général aucun effet sur les quasi-identifiants, il me semble difficile qu’il fournisse un niveau de risque acceptable.
AffiliateLabz 16 Fév 2020 Répondre

Great content! Super high-quality! Keep it up! 🙂