Le responsable du traitement doit toujours définir l’objectif poursuivi par la recherche et le traitement de données mis en œuvre. Toutefois, en matière de recherche scientifique, il peut être admis que le degré de précision de cet objectif soit moins précis ou que les finalités de recherche ne soient pas spécifiées dans leur intégralité, compte tenu des difficultés que les chercheurs peuvent avoir à la cerner entièrement dès le début de leurs travaux. Il sera alors possible de fournir des informations pour préciser l’objectif à mesure que le projet progresse.
Rappel : qu’est-ce qu’une « recherche scientifique » au sens du RGPD ?
La notion de « recherche scientifique » bénéficie d’une acception large dans le RGPD. En synthèse, la recherche a pour objet de produire des connaissances nouvelles dans tous les domaines dans lesquels la méthode scientifique est applicable.
Afin d’aider les responsables de traitement à déterminer s’ils peuvent bénéficier des dispositions relatives à la recherche scientifique, la CNIL propose un faisceau de critères permettant d’aider le responsable de traitement à déterminer si le traitement qui poursuit une finalité de recherche, relève de la recherche scientifique :
- Dans certains cas, il sera possible de présumer que la constitution de bases de données d’apprentissage pour l’IA poursuit une finalité de recherche scientifique en raison de la nature de l’organisme (par exemple, une université ou un centre de recherche public) ou du mode de financement (par exemple, financement par l’Agence nationale de la Recherche, ANR).
- À défaut, notamment pour la recherche scientifique privée ne bénéficiant pas de financement public, il convient d’examiner conjointement les critères suivants (fondés sur le Manuel de Frascati de l’OCDE et sur sa définition de la R&D). Ces critères étant cumulatifs, le responsable de traitement devra en principe démontrer qu’ils sont tous remplis pour que le traitement puisse être considéré comme relevant de la recherche scientifique au sens du RGPD. Lorsque ce n’est pas le cas, une analyse au cas par cas est nécessaire pour qualifier le traitement.
- La nouveauté : le traitement doit viser à obtenir des résultats nouveaux (une nouveauté pouvant aussi résulter d’un projet qui amène à constater des divergences potentielles avec le résultat censé être reproduit). L’objet de la recherche peut aider à la qualification de la recherche scientifique. À cet égard, la publication d’articles dans une revue à comité de lecture ou l’octroi d’un brevet permet de qualifier le critère de nouveauté.
- La créativité : ce critère repose sur des notions et hypothèses originales et non évidentes – l’apport des travaux à la connaissance scientifique ou à l’état de la technique. Le développement d’un savoir collectif qui ne profite pas seulement à l’entité morale porteuse du projet de recherche est un indice fort pour qualifier celle-ci de scientifique.
- L’incertitude : le traitement doit revêtir un caractère incertain quant au résultat final.
- La systématicité : le traitement doit s’inscrire dans une planification et une budgétisation et mettre en œuvre une méthodologie scientifique. Le respect de normes sectorielles pertinentes de méthodologie et d’éthique est un indice fort pour qualifier la recherche de scientifique. C’est par exemple le cas des exigences méthodologiques particulières pour les traitements mis en œuvre à des fins de recherche, d’étude ou d’évaluation dans le domaine de la santé qui résultent notamment des articles 72 et suivants la loi « informatique et libertés ».
- La transférabilité/reproductibilité : le traitement doit déboucher sur des résultats qu’il est possible de reproduire ou de transférer dans un champ plus large que celui de la recherche mise en œuvre. À titre d’exemple, la publication de l’étude réalisée et la présentation de la méthodologie de recherche adoptée est un indice fort permettant de souligner la volonté de partage du ou des porteurs de projet.
Exemple :
Pourrait être considéré comme poursuivant des fins de recherche scientifique le développement d’un système d’IA pour une preuve de concept destinée à démontrer la robustesse d’un apprentissage automatique nécessitant moins de données d’entraînement, qui s’inscrirait dans une démarche scientifique documentée ayant vocation à faire l’objet d’une publication.
En savoir plus :
La réutilisation de données publiquement accessibles à des fins de recherche scientifique (hors santé), extrait du guide.
Retranscription textuelle
Définir la finalité du traitement en phase de développement :
Cas n°1 : L'usage opérationnel du système d'IA en phase de déploiement est précisément identifié dès la phase de développement.
► Si la finalité en phase de déploiement est déterminée, explicite et légitime, la finalité en phase de développement est également considérée comme déterminée, explicite et légitime.
Cas n° 2 : L'usage opérationnel du système d'IA en phase de déploiement n'est pas clairement défini dès la phase de développement ( systèmes d'IA à usage général).
► La finalité du traitement en phase de développement doit se référer cumulativement: au « type » de système développé aux fonctionnalités et capacités techniquement envisageables. Il est recommandé que la finalité mentionne également: les capacités prévisibles les plus à risque, les fonctionnalités exclues par conception dans la mesure du possible, les conditions d'utilisation du système d'IA.
Cas particulier : La constitution d'une base de données pour l'entrainement d'un modèle d'IA à des fins de recherche scientifique.
► Il peut être admis que le degré de précision de la finalité soit plus faible ou que les finalités de la recherche ne soient pas spécifiées dans leur intégralité, compte tenu des difficultés à la cerner entièrement dès le début des travaux.