La recherche sur Internet de fuites d’informations (RIFI)

06 janvier 2022

La recherche sur Internet de fuites d’informations (RIFI) a pour objectif de détecter, au plus tôt, une fuite de données. Les organismes qui souhaitent y recourir, ainsi que les prestataires de RIFI eux-mêmes, doivent respecter certaines règles, notamment le RGPD et le code pénal.

Qu’est-ce que la RIFI ?

La RIFI permet de détecter une fuite de données, qui peut être accidentelle (en raison de problèmes de sécurité, par négligence, etc.) ou intentionnelle et malveillante (suite à une cyberattaque, à des fins de vengeance ou de chantage, etc.) et peut conduire à rendre accessible sur le web, tout type de données, y compris des données personnelles.

Une opération de RIFI consiste à analyser le web de manière automatisée, afin de vérifier si des informations, préalablement identifiées par le biais de mots‑clés, ont été rendues publiques. Cela revient, pour un organisme, à rechercher dans le vaste océan du web, les données qui ont fuité. Cela implique donc d’analyser un important volume de données, y compris, des données personnelles. Une opération de RIFI se décompose schématiquement en 4 étapes, lors desquelles des données personnelles sont susceptibles d’être collectées et traitées :

  1. le choix des mots-clés qui alimentent l’opération – cela permet d’affiner la recherche et de se limiter aux données qui sont le plus susceptibles d’être pertinentes ;
  2. la recherche effective de données correspondant aux mots-clés préalablement déterminés sur Internet, y compris des zones spécifiques (forums spécialisés dans la revente de données par exemple) ;
  3. la remontée et le traitement des alertes par le prestataire ;
  4. la communication d’alertes qualifiées au client concerné.

Lors de l’analyse du web, toutes les données traitées (analysées pour vérifier leur correspondance avec les mots clés) ne sont pas collectées. En effet, seules les données pertinentes (donnant lieu à une correspondance) vis-à-vis des mots-clés déterminés, font l’objet d’une collecte et d’une conservation (voir ci-dessous, les règles applicables à la conservation des données).

Les deux utilisations les plus courantes de la RIFI sont la réalisation d’une veille active ou la correction d’une fuite avérée de données.

Dans les deux cas, il est nécessaire de respecter le cadre légal applicable à la protection des données personnelles, le règlement général sur la protection des données (RGPD). Pour cela, il faut notamment mettre en place des mesures techniques et organisationnelles permettant de concilier ce type d’opérations avec les droits et libertés des personnes concernées.

Comment respecter la protection des données personnelles lors de la RIFI ?

Plusieurs règles doivent être respectées par les organismes qui décident de recourir à la RIFI et les prestataires de RIFI afin de mettre en place des pratiques respectueuses du RGPD.

Répartir les rôles et responsabilités des acteurs

L’entreprise qui décide de recourir à un prestataire afin d’effectuer une RIFI pour son compte, est qualifiée de responsable de traitement, tandis que le prestataire qui recherche et analyse les données sur les instructions de celle‑ci, agit en tant que sous- traitant.

Chaque opération de RIFI doit être encadrée par un contrat liant l’entreprise cliente qui commande l’opération (le responsable du traitement) et l’entreprise prestataire qui met en œuvre celle-ci (le sous‑traitant). Ce contrat devra préciser les obligations de chaque partie et reprendre les exigences de l’article 28 du RGPD.

Les objectifs (ou finalités) du traitement devront être précisés dans le contrat : il sera ainsi nécessaire de bien décrire ce que recouvre la réalisation d’une veille active ou la remédiation à une fuite avérée de données.

La poursuite de tout autre objectif justifie une analyse complémentaire pour vérifier que celui-ci n’est pas illégal et limiter les risques juridiques tant pour l’organisme décidant d’avoir recours à la RIFI que pour son prestataire.

S’assurer que la RIFI est autorisée

Pour pouvoir être mis en œuvre, tout traitement de données doit d’abord reposer sur l’une des bases légales prévues par le RGPD.

Dans le cadre de la RIFI, les opérations menées sont susceptibles de pouvoir reposer sur la base légale de l’intérêt légitime du responsable de traitement (celui dont les données ont fuité et qui les recherche) à condition d’apporter certaines garanties qui doivent faire l’objet d’une analyse au cas par cas.

Les 6 principales conditions à remplir sont :

  • justifier d’un intérêt légitime à faire une RIFI ;
  • démontrer que la RIFI est nécessaire pour atteindre l’objectif visé ;
  • assurer un juste équilibre entre l’intérêt de l’organisme qui utilise la RIFI et les droits des personnes dont les données personnelles sont traitées ;
  • définir une durée de conservation des données limitées ;
  • utiliser tous les moyens pour ne pas collecter des données non pertinentes ;
  • respecter les droits des personnes.

1. L’intérêt de faire une RIFI doit être légitime

La sécurité du réseau et des systèmes d’information constitue un intérêt légitime (considérant 49 du RGPD) que le responsable de traitement pourrait mettre en avant. En effet, la RIFI a pour objet d’assurer la protection des informations d’un organisme en repérant d’éventuelles fuites de données, révélatrices de failles de sécurité au sein de ses réseaux ou systèmes d’information et portant atteinte à la protection des données personnelles.

2. Démontrer que la RIFI est nécessaire pour atteindre l’objectif visé et qu’un autre moyen moins intrusif n’est pas adapté à la situation

Compte tenu du caractère intrusif des opérations réalisées dans le cadre de la RIFI (collecte et analyse massive de données), l’organisme qui y recourt devrait pouvoir mettre en avant le fait que, compte tenu de sa situation particulière, il n’existe pas d’autres moyens efficaces de repérer certaines fuites de données.

Cela peut être particulièrement le cas lorsque les fuites de données ont pour origine les agissements de personnes mal intentionnées travaillant pour l’organisme et disposant d’un accès légitime à ces données en raison de leurs fonctions. Dans une telle hypothèse, la fuite de données peut être difficilement détectable malgré l’existence de mesures déjà en place au sein de l’organisme concerné.

3. Assurer un équilibre entre les droits des personnes concernées et l’intérêt du responsable de traitement

Lorsque la base légale d’un traitement est « l’intérêt légitime du responsable de traitement », ce dernier doit pouvoir démontrer que les personnes concernées peuvent s’attendre à ce que leurs données personnelles soient utilisées pour l’objectif qu’il poursuit. Dans le contexte de la RIFI, cela signifie que les personnes doivent pouvoir s’attendre à ce que leurs données soient collectées et analysées pour garantir la sécurité et la protection du patrimoine informationnel de l’organisme, au regard notamment de l’importance stratégique de leurs fonctions, ou des projets sur lesquels elles travaillent.

Ainsi, les dirigeants d’un organisme exposé à des risques d’accès illégitimes peuvent raisonnablement s’attendre à ce que leur nom fasse l’objet d’une veille, la question se pose en revanche pour un salarié qui n’exerce aucune fonction à responsabilité ou en lien avec la sécurité des systèmes d’information, ou n’est impliqué dans aucun projet sensible.

Toutefois, les attentes raisonnables des personnes concernées ne sont pas le seul élément à prendre en compte. En effet, l’objectif de sécurité visé par le responsable de traitement doit être suffisamment important pour ne pas créer de déséquilibre au détriment des droits et intérêts des personnes concernées. Il est ainsi important que l’organisme tienne compte d’éléments tels que, la nature de son activité et des données qui doivent être protégées mais également l’objectif de protection de la vie privée des personnes dont les données ont pu être rendues publiquement accessibles. Plus les données à protéger sont sensibles et nombreuses, plus des opérations de RIFI peuvent être, au cas par cas, jugées proportionnées.

4. Définir une durée de conservation des données

Pour rappel, la RIFI n’implique pas systématiquement la collecte de données personnelles. Ces dernières sont collectées uniquement lorsqu’elles sont pertinentes vis-à-vis de la finalité du traitement et qu’elles correspondent aux mots-clés qui ont été définis en amont de la recherche. Ainsi, les données non pertinentes ne sont jamais conservées à l’issue de la phase d’analyse de correspondance.

Concernant les données collectées, comme pour tout fichier, une durée de conservation limitée doit être définie. Celle-ci doit être déterminée en fonction de l’objectif de la recherche. Ainsi, si la RIFI porte sur un aspect particulier d’un projet stratégique (par exemple, une étape de soumission d’une réponse à un appel d’offre important), la durée devra tenir compte des spécificités de celui-ci.

S’agissant des résultats issus de la recherche, lorsque la RIFI permet de retrouver les données qui ont initialement fuité, celles-ci pourront être conservées le temps nécessaire aux poursuites judiciaires et, le cas échéant, à l’analyse de l’origine de la violation.

Si malgré toutes les précautions prises, la RIFI conduit à collecter des données qui ne sont pas recherchées par l’organisme, celles-ci devront être supprimées immédiatement après leur collecte (voir, ci-après, les garanties à mettre en œuvre).

Enfin, s’agissant des mots-clés utilisés aux fins de recherche, ceux-ci peuvent être conservés pour la durée du contrat de RIFI.

5. Utiliser tous les moyens pour ne pas collecter de données non pertinentes

L’organisme souhaitant recourir à la RIFI doit s’assurer que tous les moyens sont mobilisés pour ne pas collecter de données qui ne proviennent pas de ses systèmes d’information.

Il doit en particulier mettre en œuvre toutes les mesures permettant de limiter la collecte de catégories particulières de données personnelles (par exemple des données de santé, d’infraction ou en lien avec la vie sexuelle…), notamment dans les mots-clés utilisés pour la RIFI ou dans les sites ciblés par la RIFI.

Si malgré les mesures prises, des données sensibles qu’il ne recherche pas sont traitées, l’organisme devra là encore les supprimer immédiatement. Sur ce point, il est possible d’avoir le même raisonnement que pour les traitements de données personnelles effectué par le biais de moteurs de recherche auxquels le principe d’interdiction de traitement de données sensible ne s’applique qu’a posteriori lorsque le moteur de recherche est informé du caractère sensible de la donnée qu’il détient (sur ce point, voir les mesures techniques et organisationnelles développées ci-après).

Les prestataires de RIFI doivent s’assurer que les techniques utilisées dans le cadre de leurs missions ne portent pas atteinte aux systèmes de traitement automatisé de données (ce qui est puni par la loi), par exemple :

  • aucune vulnérabilité ne doit être exploitée afin de rechercher l’information ;
  • aucune mesure de sécurité ne doit être forcée ni contournée de manière volontaire (aucun mot de passe ne doit être cassé, des mots de passe par défaut ne doivent pas être utilisés afin de s’introduire dans un système, etc.) ;
  • seules les informations accessibles sans contournement de sécurité doivent être collectées.

6. Respecter les droits des personnes concernées 

Chaque entreprise qui décide de recourir à la RIFI doit veiller au respect des droits des personnes concernées.

Si l’information des personnes en lien avec l’organisme (clients, salariés, dirigeants, etc.) peut être réalisée, par exemple, par le biais de la politique de confidentialité, de la charte informatique ou du contrat de travail, afin d’effectuer une information individuelle, la RIFI est susceptible d’impliquer le traitement (ou au moins la consultation) de données concernant des personnes avec lesquelles l’organisme n’a pas de lien.

En effet, la RIFI implique l’analyse d’un nombre important de contenus publiés en ligne pour identifier ceux qui correspondent aux mots‑clés déterminés par l’entreprise ayant recours à la RIFI. Par conséquent, l’information individuelle des personnes concernées peut s’avérer très complexe.

Dans l’hypothèse d’une collecte des données qui ne s’effectue pas directement auprès des personnes, le RGPD peut dispenser l’organisme d’effectuer une information individuelle si la fourniture de cette information se révèle impossible ou exigerait des efforts disproportionnés. Cette exception doit néanmoins être interprétée strictement par le biais d’une analyse au cas par cas et ne peut constituer une règle générale. Dans ce cas, l’organisme devra rendre ces informations publiques, par exemple, en mettant celles-ci à disposition sur son site web, ou en réalisant une information vers les personnes si elles sont ultérieurement identifiées et joignables.

Si la RIFI révèle l’existence d’une violation de données au sein du système d’information de l’entreprise et que celle-ci est susceptible d'engendrer un risque élevé pour les droits et libertés d'une personne physique, le responsable de traitement devra communiquer à chaque personne concernée les informations concernant cette violation afin qu’elle puisse prendre les mesures appropriées.

Enfin, les personnes disposent d’un droit d’accès à leurs données personnelles, à l’effacement et à la rectification de celles‑ci, ainsi que d’un droit à la limitation, du traitement mis en œuvre, et d’opposition à celui-ci, qui devront être mis en œuvre par le responsable de traitement.

Quelles sont les garanties à apporter ?

Afin de limiter les conséquences d’une opération de RIFI sur les droits des personnes concernées, la CNIL recommande la mise en œuvre des mesures suivantes :

  • Les mots-clés définis préalablement devraient directement être liés aux objectifs poursuivis ;
  • Les mots-clés ne devraient pas comporter de données personnelles (notamment grâce à l’insertion préalable, dans les bases de données, de marqueurs numériques (dits « canary token ») correspondant à des données synthétiques et non à celles d’une personne physique réelle) ;
  • La configuration de l’outil de RIFI ne devrait pas cibler des données sensibles (données concernant la santé, la vie sexuelle ou l'orientation sexuelle d'une personne, etc.) ;
  • La recherche devrait être automatisée et lever des alertes à partir de mots-clefs ;
  • Le sites web visés par la RIFI ne devraient pas comporter des données sensibles par nature (sites de rencontres, sites d’expression politique ou religieuse, etc.) ;
  • La recherche peut nécessiter la création d’un compte utilisateur sur un site web licite. Pour rappel, il est interdit d’usurper les identifiants d’une personne afin d’accéder à un système ;
  • Des personnes peuvent intervenir pour les seuls besoins de valider et analyser les résultats finaux de la recherche. Il convient qu’elles soient habilitées à consulter les données et soient soumises à des obligations renforcées en matière de confidentialité et sensibilisées aux enjeux de protection des données personnelles, par exemple, par un programme de formation obligatoire sur le sujet.
  • Le prestataire RIFI doit filtrer les résultats comportant des données personnelles. En cas de doute sur la pertinence d’un résultat comprenant des données personnelles, la CNIL recommande de pseudonymiser ou d’anonymiser le résultat concerné.
  • La sécurité des données extraites des résultats doit être garantie (par exemple, en les chiffrant ou en les stockant en dehors de l'environnement de production).
  • Une durée de conservation limitée en fonction du cas d’usage pour laquelle la RIFI est utilisée et des suites envisagées pour les alertes doit être prévue ainsi qu’une politique d’habilitation limitant l’accès aux données.
  • Si un fichier de données provient d’un système d’information d’un autre organisme que l’entreprise cliente, celui-ci devra être supprimé immédiatement après son identification. Il est recommandé de transmettre à l’Agence nationale de la sécurité des systèmes d'information (ANSSI) toute information recueillie relative aux vulnérabilités d’un système de traitement automatisé de données.
  • Les données collectées doivent être supprimées très rapidement lorsqu’elles n’entraînent pas d’alerte ou si une alerte a été qualifiée de faux positif, notamment s’il s’agit de données sensibles.
  • Les informations transmises au client devraient être limitées au strict nécessaire :
    • dans le cadre d’une opération à des fins de veille active, les alertes devraient mentionner le mot‑clé concerné et fournir des informations sur le contenu détecté sans révéler de données personnelles relatives à un tiers ;
    • dans le cadre de la remédiation à une fuite avérée de données, les alertes devraient se limiter aux informations relatives au contenu ayant fuité et au contexte dans lequel le résultat a été obtenu.

Compte tenu de l’évolution rapide des menaces en matière de cybersécurité, la CNIL reste attentive à l’évolution des besoins : les commentaires sur la présente analyse peuvent être envoyés à l’adresse rifi@cnil.fr.