C’est essentiellement dans le domaine de la santé publique que la CNIL a été amenée à examiner les procédés qui permettent de rendre anonymes des données personnelles particulièrement sensibles, même si dans autre domaine, celui du recensement général de la population par l’INSEE, la nécessité d’une anonymisation des renseignements collectés n’est pas moins grande.
On sait en effet que toute étude épidémiologique en matière de santé doit être soigneusement encadrée pour assurer la confidentialité des données personnelles collectées. Si cette obligation résulte de la législation Informatique et Libertés, on peut également remarquer que de façon générale, l’exigence de confidentialité est de l’intérêt même des chercheurs, en créant un climat de confiance susceptible d’améliorer la qualité de la collecte des informations auprès des populations concernées.
A cet égard, l’exemple type est celui du suivi épidémiologique du HIVS (sida) pour lequel la collecte des données se fait (et n'a pu se faire que) sous la garantie d’un haut niveau d’anonymat, dans le souci de rassurer une population déjà fragilisée qui serait tentée de se dérober aux procédures de collecte de données, voire de ne pas se faire soigner.
Allant au delà d’une simple photographie d’une situation épidémiologique à un instant donné, les années 1990 ont vu apparaître, du moins au niveau des dossiers présentés à la CNIL, une problématique plus ambitieuse, celle du « suivi », c’est à dire la possibilité de suivre « à la trace » une même population sur une période pouvant s’étaler sur plusieurs années. Pour répondre à ce nouveau besoin, il semble que le respect de l’anonymat devienne alors un impératif « central » dans la méthodologie d’enquête, dans la mesure où un tel suivi se déroulant sur plusieurs années ne pourrait qu’augmenter la crainte diffuse chez certaines personnes d’être l’objet d’un examen à la « loupe », en temps réel.
La problématique de l'anonymat concerne aussi bien les données directement nominatives (nom, prénom, date de naissance,..) que celles qui le sont indirectement comme un matricule, une adresse, un n° de téléphone, un élément biométrique, une adresse IP internet, les traces des données de connexion, etc.
Ainsi, dans le cas d’une étude statistique ponctuelle donnant lieu à une simple photographie de la situation à un instant donné, le respect de l'anonymat consistera avant tout à ne pas collecter les données directement ou indirectement nominatives ou, à défaut, à les effacer avant de les enregistrer dans la base de données. Si cela s’avérait impossible de par la nature de l’application, des « obstacles » d’ordre organisationnel ou technique doivent être aménagés pour empêcher toute fuite accidentelle d’informations ou pour prévenir une curiosité malsaine.
Toutefois, ces mesures ne suffisent pas, selon une doctrine constante de la CNIL établie depuis la fin des années 1980. En effet, à l'occasion du recensement général de la population de 1990, la CNIL avait fait remarquer que le croisement de certains critères, chacun par lui-même "faiblement nominatif", pouvait aboutir à la levée de l'anonymat. Ainsi, par exemple, pour en rester aux applications médicales, le croisement de la commune du lieu d'habitation avec une date de consultation ou d'hospitalisation et éventuellement un troisième critère pourrait, dans certains contextes, désigner un individu quasiment nommément.
Pour prendre en compte ce risque potentiel d’identification malgré l’anonymat, la CNIL a établi un certain nombre de préconisations qui ont été améliorées au cours du temps. En l'état actuel, les principales préconisations peuvent se résumer comme suit, à appliquer évidemment au cas par cas :
Le « suivi » statistique sur une certaine durée soulève, lui, un tout autre problème qui est celui de pouvoir suivre le parcours d’un certain nombre d’individus sur un certain laps de temps sans avoir à connaître leur identité véritable.
Ce paradoxe, anonymat et suivi, peut être techniquement résolu grâce à l’utilisation d’une fonction de hachage, opération consistant à calculer une valeur numérique (un nombre) à partir des données directement ou indirectement nominatives « textuelles » d’un individu, cette valeur étant ensuite substituée aux données à partir desquelles elle a été calculée.
Les fonctions de hachage ont fait l’objet d’expertises par des générations de chercheurs dans les laboratoires universitaires et celles habituellement retenues disposent de quelques qualités remarquables parmi lesquelles trois intéressent particulièrement la CNIL :
L’anonymisation par une fonction de hachage est sensible à une attaque subtile, l’attaque dite du dictionnaire : pour l’expliquer, utilisons une analogie et imaginons-nous à Venise durant le Carnaval, période pendant laquelle les individus circulent anonymement le visage caché sous un masque. Imaginons que pour l’accès à un certain bâtiment il est demandé aux visiteurs de déposer leurs affaires personnelles au hall d’accueil. Enfin, supposons que pour la restitution d’un objet mis en dépôt, le principe appliqué par le personnel d’accueil soit de comparer le visage masqué de la personne qui se présente avec une photo que l’on aurait prise d’elle (toujours masquée) lors du dépôt et que l’on aurait accrochée à l’objet.
Question : comment doit-on s’y prendre pour voler un objet mis en dépôt ?
Réponse : fabriquer un masque identique à celui porté par la personne ayant déposé l’objet et se présenter ainsi masqué au personnel du hall d’accueil
L’irréversibilité de la fonction de hachage est équivalente à dire qu’il est impossible de trouver l’identité d’une personne se cachant derrière un masque mais elle ne peut pas empêcher une tierce personne de porter le masque d’une autre personne.
En se calant sur cet exemple, l’attaque du dictionnaire peut se décrire comme suit : pour subtiliser dans une base de données les données personnelles stockées anonymement par la technique de la fonction de hachage, un individu malveillant obtient les données d’identité d’une autre personne dite « cible », leur applique le calcul de la fonction de hachage pour obtenir la valeur numérique (le masque) et présente celle-ci au moteur de recherche (le personnel du hall d’accueil) pour ramasser toutes les données personnelles relatives à la personne cible.
L’analogie avec le Carnaval de Venise nous donne immédiatement une réponse : l’utilisation d’un ticket, remis au propriétaire lors du dépôt de l’objet et que le personnel d’accueil doit réclamer pour sa restitution.
Pour parer à l’attaque du dictionnaire, le calcul de hachage doit intégrer une clef secrète qui permet de vérifier lors de la présentation ultérieure d’une valeur de hachage, que celle-ci est bien authentique.
L’efficacité d’une anonymisation par fonction de hachage avec clef secrète tient autant par la manière dont l’outil est mis en œuvre que par la qualité théorique de l’algorithme de hachage. Deux problématiques sont particulièrement importantes :
Gestion de la confidentialité de la clef secrète.
La méthode usuelle consiste à multiplier les clefs ou les parties de clef, chacune détenue par des personnes ou organismes différents.
Le premier procédé n’est pas toujours applicable, par exemple dans un cabinet ou un service médical, et se prête plutôt aux traitements « par lot » dans un centre de traitement informatique. Le deuxième procédé est bien adapté à la collecte « de masse » faite à un premier niveau par des organismes « de base » suivie d’un transfert vers un système informatique central : un premier hachage est fait par l’organisme de base avant envoi vers le système central, puis un deuxième au niveau central avant stockage dans la base de données. Ce double « verrouillage » est celui appliqué par le logiciel FOIN de la CNAM.
Dans quelle mesure une levée de l’anonymat serait-t-elle possible ?
Cette question pourrait paraître saugrenue alors que l’usage de la fonction de hachage est destiné à rendre l’anonymisation irréversible.
Cela n’empêche qu’en pratique une telle question peut se poser, au moins sous 2 formes :
1) La procédure de correction des anomalies :
si des contrôles informatiques détectent des anomalies sur les données comment revenir aux données sources pour les (faire) corriger si elles sont anonymisées ? La réponse triviale pourrait consister à préconiser de ne procéder à l’anonymisation qu’une fois les contrôles effectués, mais ce n’est pas toujours possible. Par exemple, dans le cas de la double anonymisation par la méthode FOIN , les logiciels informatiques du site central réceptionnent des données déjà anonymisées mais pourraient avoir à effectuer, à leur tour, d’autres contrôles de validité. En l’état, aucune solution générale satisfaisante n’a encore été trouvée et le problème doit être traité au cas par cas.
2) L’existence de tables parallèles destinées à maintenir la correspondance entre un code identifiant de l’individu et la valeur d’anonymisation calculée par la fonction de hachage.
Ces tables peuvent être explicites mais quelques fois peuvent apparaître sous la forme implicite d’une table à caractère « purement technique » destinée à permettre de résoudre tel ou tel impératif technique.