Assurer que le traitement est licite
L’organisme qui souhaite constituer une base de données d’apprentissage contenant des données personnelles puis l’utiliser pour entraîner un algorithme doit s’assurer que le traitement est autorisé par la loi. La CNIL vous aide à déterminer vos obligations en fonction de votre responsabilité et des modalités de collecte ou de réutilisation des données.
Le responsable de traitement doit définir, dans tous les cas, une base légale et doit effectuer, en fonction du mode de collecte ou de réutilisation des données, certaines vérifications supplémentaires.
Il existe plusieurs moyens de constituer une base de données à des fins d’apprentissage, qui peuvent être utilisés de manière cumulative :
- les données sont collectées directement auprès des personnes ;
- les données sont indirectement collectées à partir de sources ouvertes sur Internet pour cette finalité ;
- les données ont initialement été collectées pour un autre objectif par le responsable du traitement lui-même (par exemple, dans le cadre de la fourniture d’un service à ses utilisateurs) ou par un autre responsable de traitement. Cela implique de prendre des précautions complémentaires.

Définir une base légale
Le principe
Comme tout traitement, la constitution et l’utilisation d’une base de données pour l’apprentissage de systèmes d’IA contenant des données personnelles ne pourra être mise en œuvre que si elle correspond à l’une des « bases légales » prévues par le RGPD.
Concrètement, la base légale est ce qui donne le droit à un organisme de traiter des données personnelles. Le choix de cette base légale est donc une première étape indispensable pour assurer la conformité du traitement. Selon celle qui sera retenue, les obligations de l’organisme et les droits des personnes pourront varier.
Les bases légales les plus pertinentes pour l’entraînement d’un algorithme sont détaillées ci-après.
En pratique
La détermination de la base légale doit être effectuée de manière adaptée à la situation et au type de traitement. Pour constituer une base de données pour l’entraînement d’un système d’IA, les bases légales suivantes peuvent notamment être envisagées, en fonction des caractéristiques du traitement.
La base légale du consentement
Pour être valide, le consentement des personnes concernées doit remplir quatre critères cumulatifs : il doit être libre, spécifique, éclairé et univoque. Le responsable du traitement doit être en mesure de démontrer la validité du recours à cette base légale en s’assurant que chacune de ces conditions, précisément définies par le RGPD, est remplie.
Exemple : un organisme souhaite filmer ou photographier des volontaires pour constituer une base de données d’images permettant d’entraîner un système à détecter certains gestes spécifiques. Il peut fonder le traitement sur la base de leur consentement.
Lorsqu’il constitue une base de données pour l’apprentissage d’un modèle d’IA, un organisme doit particulièrement s’assurer du caractère libre du consentement recueilli.
Cela implique en principe de garantir la possibilité pour les personnes concernées de donner leur consentement au cas par cas (de manière granulaire) lorsque les finalités poursuivies sont distinctes.
Exemple : le consentement de personnes à l’utilisation de leur image, collectée lors d’un événement d’une entreprise à des fins de communication, ne signifie pas qu’ils consentent à une réutilisation des données pour la constitution d’une base de données d’apprentissage ou d’amélioration d’un système d’IA. Dans ce cas, deux consentements distincts doivent être recueillis (par exemple au moyen de deux cases à cocher).
La liberté du consentement doit également faire l’objet d’une certaine vigilance en cas de déséquilibre de rapports de force entre la personne concernée et le responsable du traitement, en particulier si ce dernier est une autorité publique ou un employeur.
Exemple : pour développer un système d’IA, une entreprise souhaite utiliser les données de ses salariés. Leur consentement ne peut alors être valablement recueilli que dans des situations exceptionnelles, lorsqu'ils sont en mesure de refuser de donner leur consentement sans craindre ou encourir de conséquences négatives. En tant que responsable du traitement, l’entreprise devra veiller, en tout état de cause, à ce que les communications destinées à présenter le dispositif aux salariés ne soient ni incitatives, ni contraignantes. Elle devra informer les volontaires de la possibilité de ne plus participer à la collecte de leurs données à tout moment, sans que cela porte à conséquence pour ces derniers.
Il n’apparaît pas possible de recueillir un consentement valide dans certains cas. C’est souvent le cas lorsque le responsable du traitement collecte des données publiquement accessibles en ligne ou réutilise une base de données ouverte, compte tenu notamment de l’absence de contact avec les personnes concernées et de la difficulté à les identifier. Dans ces cas de figure, où les conditions pour recueillir un consentement valide ne sont pas réunies, le responsable du traitement doit mobiliser une autre base légale plus adaptée.
La base légale de l’intérêt légitime
L’intérêt légitime du responsable de traitement ne peut être retenu que sous réserve du respect des conditions suivantes :
- la légitimité de l’intérêt poursuivi par le responsable de traitement. Peut-être, par exemple, considéré comme légitime, l’intérêt pour un organisme de développer un modèle en vue de la commercialisation d’un système d’IA ou encore en vue de contribuer à l’amélioration de la connaissance scientifique, par exemple par la publication des outils développés (code, modèle, protocole expérimental, etc.) et des résultats de recherche.
- la nécessité du traitement de données pour répondre à cet intérêt légitime. Par exemple, le traitement à des fins de constitution d’une base de données d’apprentissage contenant des images de personnes peut être considéré comme nécessaire aux intérêts d’un organisme qui souhaite développer un système de détection de pose, lorsque des données anonymes ou synthétiques ne suffisent pas.
- l’absence d’atteinte disproportionnée aux intérêts et droits des personnes concernées, compte tenu de leurs attentes raisonnables à l’égard de ce traitement. La mise en balance des droits et intérêts en cause dépend des caractéristiques concrètes du traitement envisagé et notamment des garanties mises en œuvre pour assurer le meilleur équilibre possible entre ces intérêts et limiter les impacts du traitement sur les personnes concernées.
Le plus souvent, le fait de constituer une base de données pour l’entraînement d’un modèle dont l’usage est lui-même légal peut être regardé comme légitime. Une analyse au cas par cas est cependant nécessaire pour déterminer si l’utilisation même de données personnelles à cette fin ne porte pas une atteinte disproportionnée à la vie privée des personnes concernées par ces données, et ce même lorsque les données ne sont pas nominatives. Pour assurer que son traitement est proportionné, le responsable de traitement peut notamment recourir à des mesures telles que l’anonymisation ou la pseudonymisation des données, garantir l’absence de données sensibles, définir des critères de sélection permettant de limiter la collecte aux données pertinentes et nécessaires pour le traitement, etc.
Exemples :
- Une entreprise souhaite développer un système d’IA capable de prédire le profil psychologique d’une personne à partir de données accessibles en ligne susceptibles de la concerner. Son intérêt commercial à développer un tel système sera vraisemblablement insuffisant au regard des intérêts, droits et libertés des personnes concernées : une autre base légale devra être recherchée ou le projet abandonné.
- Un organisme constitue une base de données d’apprentissage en collectant les commentaires rendus publics et librement accessibles par des utilisateurs en ligne sur des forums, blogs et sites web. La finalité de ce traitement est de concevoir un système d’IA permettant d’évaluer et de prévoir l’appréciation d’œuvres d’art par le grand public. Dans ce cas, son intérêt à développer et éventuellement commercialiser un système d’IA peut être considéré comme légitime. La collecte de commentaires d’appréciation sur les œuvres peut être considérée comme nécessaire pour le développement du modèle, notamment compte tenu de la quantité de données requises pour l’apprentissage. Il convient de noter que la base légale de l’intérêt légitime donne le droit aux personnes concernées de s’opposer au traitement de leurs données (pour des motifs tenant à leur situation particulière).
La base légale de la mission d’intérêt public
La possibilité de se fonder sur la base légale de la « mission d’intérêt public » suppose :
- que la mission dans laquelle s’inscrit le traitement soit prévue par un texte normatif applicable au responsable du traitement ;
- que l’utilisation des données permette d’exercer spécifiquement cette mission (ce ne sera pas le cas si elle vise un objectif sans rapport particulier avec celle-ci ou trop éloigné de ses particularités), de manière pertinente et appropriée.
Exemples :
- Les chercheurs d’un laboratoire de recherche public sur la langue française souhaitent analyser l’évolution de l’utilisation de la langue en ligne. Ils constituent pour cela une base de données à partir des commentaires publiés librement en ligne sur différents réseaux sociaux (anonymisés à bref délai) afin d’entraîner un modèle qui détecte et analyse automatiquement l’occurrence de certaines expressions ou formes orthographiques.
Dans la mesure où le responsable de traitement est un laboratoire public, les chercheurs peuvent dans ce cas fonder le traitement de données sur la mission d’intérêt public. Cette base légale peut être mobilisée, de manière générale, pour les traitements de données effectués par des laboratoires de recherche publics ou privés investis d’une mission d’intérêt publique, dont les traitements de données sont nécessaires pour leur activité de recherche.
- Le pôle d'expertise de la régulation numérique (PEReN) est autorisé à réutiliser, dans certaines conditions, des données publiquement accessibles de certaines plateformes afin de réaliser des expérimentations ayant notamment pour objet de concevoir des outils techniques destinés à la régulation des opérateurs de plateformes en ligne, conformément à l’article 36 de la loi n° 2021-1382 du 25 octobre 2021 et au décret n° 2022-603 du 21 avril 2022.
- Fiche cas d’usage n° 4 du Guide sur la réutilisation des données publiquement accessible (open data)
- Quelle base légale pour un traitement de recherche ?
La base légale du contrat
La base légale du contrat pourrait être mobilisée pour la constitution d’une base de données d’apprentissage d’un système d’IA à condition, d’une part, qu’un contrat valide soit conclu entre le responsable et la personne concernée et, d’autre part, que le traitement soit objectivement nécessaire à son exécution.
Exemples :
Un organisme peut faire appel à des acteurs professionnels afin de procéder à certaines mises en scène et collecter des images spécifiques pour l’apprentissage d’un système d’IA.
Si l’objet du contrat conclu est précisément de collecter des images en vue de constituer une base de données d’apprentissage, alors il est possible de considérer, sous réserve des caractéristiques spécifiques du traitement de données, que celui-ci est nécessaire à l’exécution du contrat. Le responsable du traitement doit également s’assurer qu’il existe un contrat valide entre l’organisme et les acteurs qui doivent être partie au contrat. Les contrats conclus à cette fin doivent respecter les autres règles applicables, en matière de droit du travail ou de propriété intellectuelle par exemple.
À l’inverse, l’opérateur d’un réseau social en ligne inscrit dans ses conditions générales d’utilisation qu’il entend réutiliser les données de ses utilisateurs (fournies par ces derniers, observées ou déduites par l’opérateur) pour développer et améliorer de nouveaux produits, services et fonctionnalités utiles pour ses utilisateurs. Il ne peut pas fonder le traitement sur la base légale du contrat dès lors que ce traitement n’est pas objectivement indispensable pour leur offrir son service de réseau social en ligne (CJUE, 4 juillet 2023, Meta Platforms Inc. et a. c/Bundeskartellamt, C-252/21).
Données sensibles : un traitement interdit, sauf exceptions
Les données sensibles sont une catégorie particulière de données personnelles définies à l’article 9 du RGPD. Constituent par exemple des données sensibles des données qui révèlent la prétendue origine raciale ou ethnique des personnes concernées, ou encore des données biométriques aux fins d'identifier une personne physique de manière unique, comme un gabarit facial par exemple.
Le RGPD interdit le traitement de ces données, sauf exception, seulement dans les cas énumérés dans son article 9.2. Ces exceptions incluent notamment :
- les traitements pour lesquels la personne concernée a donné son consentement explicite (démarche active, explicite et de préférence écrite, qui doit être libre, spécifique, et informée) ;
- les traitements portant sur des données personnelles qui sont manifestement rendues publiques par la personne concernée ;
- les traitements nécessaires pour des motifs d’intérêt intérêt public important, sur la base du droit de l’UE ou d’un État membre ;
- les traitements nécessaires à des fins de recherche scientifique sur la base du droit de l’Union européenne ou d’un État membre.
En cas de réutilisation de données, effectuer les tests et vérifications complémentaires nécessaires
Le principe
Dans certains cas, en fonction des modalités de collecte et de la source des données utilisées pour la constitution de la base de données d’apprentissage, le responsable du traitement est tenu d’effectuer certaines vérifications afin de garantir que le traitement de données est autorisé par la loi. Ces vérifications s’ajoutent à l’identification de la base légale du traitement de données.
En pratique
Le fournisseur réutilise les données qu’il a lui-même collectées initialement pour une autre finalité
Un responsable de traitement peut vouloir réutiliser les données qu’il a collectées pour une finalité initiale (par exemple, dans le cadre de la fourniture d’un service à des particuliers) afin de constituer une base de données à des fins d’apprentissage d’un système d’IA.
Dans ce cas, il doit déterminer si ce traitement ultérieur est compatible avec la finalité pour laquelle les données ont été initialement collectées, lorsque le traitement ne s’appuie pas sur le consentement de la personne concernée ou sur le droit de l'Union ou le droit d'un État membre.
L’obligation d’effectuer ce « test de compatibilité » s’applique aux traitements ultérieurs de données, c’est-à-dire ceux :
- qui n’ont pas été prévus ni portés à la connaissance des personnes concernées lors de la collecte des données ;
- qui sont effectués par un même responsable de traitement qui décide de réutiliser des données pour une finalité distincte de celle pour laquelle elles ont été collectées, y compris quand il s’agit de les publier sur Internet ou de les partager avec des tiers à des fins de réutilisation pour une autre finalité.
Aucun test de compatibilité n’est requis pour les finalités prévues et portées à la connaissance des personnes concernées dès la collecte dans le respect du principe de transparence, y compris lorsque certaines d’entre elles peuvent paraître secondaires ou accessoires. Par exemple, le partage de données par un responsable de traitement avec son sous-traitant pour l’amélioration de la performance de son algorithme ne nécessite pas d’effectuer un test de compatibilité, si cette finalité était prévue et portée à la connaissance de la personne concernée (sous réserve de respecter les conditions de légalité pour cette finalité d’amélioration de l’algorithme).
Pour réaliser ce « test de compatibilité » il doit notamment prendre en compte :
- l’existence d’un lien entre la finalité initiale et la finalité du traitement ultérieur envisagé ;
- le contexte dans lequel les données personnelles ont été collectées, en particulier les attentes raisonnables des personnes concernées, en fonction de la relation entre les personnes concernées et le responsable du traitement ;
- le type et la nature des données, en particulier en fonction de leur sensibilité (données biométriques, de géolocalisation, concernant des mineurs, etc.) ;
- les éventuelles conséquences du traitement ultérieur envisagé pour les personnes concernées ;
- l’existence de garanties appropriées (telles que le chiffrement ou la pseudonymisation).
Exemples :
- Le fournisseur d’un éditeur de texte grand public lance une fonctionnalité d’IA générative permettant de compléter certaines phrases ou certains paragraphes (auto-saisie). Quelques temps après le déploiement de cette fonctionnalité, il souhaite réutiliser les corrections manuelles apportées par les utilisateurs au contenu des textes ainsi générés, afin de proposer à chaque utilisateur de disposer d’une version personnalisée de son service de recommandation (par exemple pour mieux comprendre et anticiper sa manière d’écrire) sur la base de leurs données respectives.
- Une plateforme de streaming vidéo grand public envisage désormais de réutiliser l’historique et les listes de lecture qu’elle a enregistrés dans le cadre de la fourniture du service pour proposer à chaque utilisateur de disposer d’une version personnalisée de son service de recommandation (par exemple pour mieux anticiper et comprendre ses préférences) sur la base de leurs données respectives.
Dans ces deux cas, la nouvelle finalité pourra être considérée comme compatible avec la finalité initiale de la fourniture du service, à condition que les garanties mises en œuvre soient suffisantes (par exemple, grâce à la possibilité de s’opposer à cette réutilisation, sans avoir à fournir de motif) sur la base de leurs données respectives.
Lorsque la réutilisation des données poursuit des fins statistiques ou de recherche scientifique, le traitement est présumé compatible avec la finalité initiale s'il respecte le RGPD et s'il n'est pas utilisé pour prendre des décisions à l'égard des personnes concernées. La réalisation du « test de compatibilité » n’est donc pas nécessaire.
Il est à noter que pour poursuivre une finalité statistique au sens du RGPD, le traitement ne doit tendre qu’à la production de données agrégées pour elles-mêmes : le traitement doit avoir pour unique objet le calcul des données, leur affichage ou publication, leur éventuel partage ou communication (et non à la prise de décisions ultérieures, individuelles ou collectives). Les résultats statistiques ainsi obtenus doivent constituer des données agrégées et anonymes au sens de la réglementation sur la protection des données.
La notion de « recherche scientifique » est entendue largement dans le RGPD. En synthèse, la recherche a pour objet de produire des connaissances nouvelles dans tous les domaines dans lesquels la méthode scientifique est applicable. Tout traitement de données à des fins de recherche scientifique doit être soumis à des garanties appropriées pour les droits et libertés de la personne concernée, telles que l’anonymisation ou la pseudonymisation (mentionnées à l’article 89 du RGPD).
- La recherche scientifique (hors santé)
- La réutilisation de données publiquement accessibles à des fins de recherche scientifique (hors santé), extrait du guide soumis à consultation publique
Même lorsque le traitement ultérieur est compatible, une base légale valable doit toujours être identifiée.
Le fournisseur réutilise une base de données publiquement accessibles
En particulier dans le domaine de l’IA, il arrive que des bases de données contenant des données personnelles soient librement mises à disposition sur Internet en dehors du cadre légal français ou européen d’ouverture des données (« open data »). Le plus souvent, il s’agit de données qui étaient déjà publiquement accessibles et qui constituent une base de données ou un corpus diffusé sur le site web d’une université ou d’une plateforme dédiée au partage de bases de données, pour faciliter leur réutilisation.
Le contrôle du caractère licite de la mise en ligne de la base de données relève en premier lieu du responsable de traitement qui opère cette mise en ligne. Cependant, afin de pouvoir se prévaloir d’une base légale au titre du RGPD, le responsable du traitement qui réutilise les données doit s’assurer qu’il n’est pas en train de réutiliser une base de données dont la constitution était manifestement illicite (par exemple, provenant d’une fuite de données).
En outre, la personne qui télécharge ou réutilise une base de données manifestement illégale risque de se rendre coupable du délit de recel (article 321-1 du code pénal).
Si la possibilité de réutiliser une base de données librement mise à disposition sur Internet n’est pas subordonnée à des vérifications approfondies sur le respect de l’ensemble des règles du RGPD ou d’autres règles juridiques applicables (droit d’auteur, données couvertes par le secret des affaires, etc.), vérifications qui relèvent en premier lieu de l’organisme qui met en ligne les données, la CNIL recommande aux réutilisateurs de s’assurer :
- que la description de la base de données mentionne leur source.
Exemple : une base de données dont la description expliquerait qu’elle a été constituée à partir de publications sur un réseau social professionnel nommément désigné.
À l’inverse, si une base de données contenant des images de vidéosurveillance ne précise pas la source, tout réutilisateur d’une telle base devrait alors s’abstenir de le réutiliser avant d’avoir obtenu davantage de précisions lui permettant de lever ses doutes quant à la conformité de sa constitution et de sa diffusion ;
- que la constitution ou la diffusion de la base de données ne résulte pas manifestement d’un crime ou d’un délit ou a fait l’objet d’une condamnation ou d’une sanction publique de la part d’une autorité compétente qui a impliqué une suppression ou l’interdiction d’exploiter ultérieurement les données ;
Exemples : une entreprise souhaite constituer une base de données pour le développement d’un système d’IA de recommandation qu’il entend utiliser auprès de ses consommateurs. S’il acquiert pour cela une base de données sur le dark web provenant, par exemple, d’une atteinte à un système de traitement automatisé punie par la loi (au sens de l’article 323-1 du code pénal), il ne saurait en ignorer l’origine délictuelle. Dans ce cas, le caractère illicite de la base de données serait alors manifeste.
Il en irait de même pour une entreprise souhaitant réutiliser une base de données pour laquelle une décision de justice a retenu une atteinte à un droit de propriété intellectuelle comme celui, particulier, des producteurs de bases de données (au sens de l’article L. 342-1 du code de la propriété intellectuelle) ;
- qu’il n’y ait pas de doutes flagrants sur le fait que la base de données est licite (notamment que le traitement source ne soit pas manifestement dépourvu de base légale lorsque les données sont tellement intrusives qu’elles ne sauraient être traitées sans le consentement des personnes), en s’assurant en particulier que les conditions de collecte des données soient suffisamment documentées ;
Exemples :
- Sur une plateforme d’hébergement de bases de données, une entreprise repère un ensemble compilant les trajets domicile-travail de milliers de personnes. Sa description explique qu’il s’agit de données de géolocalisation précises, non anonymes, sans en détailler la source. Dans cette hypothèse, elle ne saurait ignorer qu’il existe un doute sérieux quant à la licéité de la diffusion d’une telle base de données sans le consentement des personnes.
- À l’inverse, il serait envisageable de constituer une base de données à partir d’une base de données dont la description ne laisse pas de doute flagrant quant à sa licéité. Par exemple, une base de données pseudonymisées, initialement rendues publiques par les personnes concernées sur un site web identifié et qui ne contiendrait pas de données sensibles.
- Il en irait de même pour la réutilisation d’une base de données agrégées que le diffuseur présenterait comme anonymes. Par exemple, un organisme qui souhaite constituer une base de données pour entraîner un système d’IA destiné à prévoir l'impact socio-économique du vieillissement d’une population pourrait réutiliser des bases de données anonymes agrégées contenant notamment des informations démographiques (nombre de personnes actives, âge des personnes, taux de fécondité ou encore taux de dépendance des personnes âgées).
- que la base de données ne contient pas de données sensibles (données de santé ou révélant des opinions politiques par exemple) ou de données d’infraction (au sens des articles 9 et 10 du RGPD), ou, si elle en contient, il est recommandé de mener des vérifications supplémentaires pour s’assurer que ce traitement était licite (il s’agirait principalement pour les données sensibles de s’assurer du recueil d’un consentement explicite des personnes concernées, ou que les données ont été manifestement rendues publiques par ces dernières comme cela est précisé ci-dessous et pour les données relatives à des infractions qu’une telle utilisation est rendue possible par la loi informatique et libertés).
Exemple : sur un forum en ligne, un chercheur découvre une base de données non anonymes qui contiendrait, selon sa description, les parcours de soin d’une centaine de patients atteints d’une pathologie particulière et qui proviendraient d’hôpitaux français. Dans ce cas, le chercheur devrait sérieusement douter que la diffusion de ce jeu de données soit licite compte tenu de l’encadrement des données de santé prévu par le RGPD et la loi « informatique et libertés ».
Ces vérifications préalables pourraient utilement figurer dans l’analyse d’impact relative à la protection des données (AIPD).
Certains manquements commis par le responsable des traitements de constitution et de diffusion d’une base de données n’impactent pas systématiquement et irrémédiablement la licéité des traitements mis en œuvre par le réutilisateur. Ainsi, un réutilisateur peut utiliser une base de données dont les illicéités sont mineures, à condition que la réutilisation satisfasse les exigences du RGPD.
Exemple : la fourniture de mentions d’informations incomplètes lors de la constitution ou de la diffusion de la base de données, ou un défaut de documentation adaptée de la conformité de ces traitements (qu’il est nécessaire de vérifier avec le diffuseur ou l’éditeur de la base de données).
Le fournisseur réutilise une base de données acquise auprès d’un tiers (courtiers en données, etc.)
Certains fournisseurs souhaitent constituer une base de données d’apprentissage à partir de bases de données détenues par des tiers.
Pour le tiers qui partage des données personnelles, cela implique de s’assurer de la licéité de cette transmission
- Cas n°1 : les données ont précisément été collectées en vue d’être partagées à des fins de constitution d’une base de données pour l’apprentissage de système d’IA
Le tiers devra s’assurer de la conformité du traitement de transmission des données au regard du RGPD (définition d’une finalité explicite et légitime, exigence d’une base légale, information des personnes et gestion de l’exercice de leurs droits, etc.) dont il assume la responsabilité.
- Cas n°2 : le tiers n’a pas initialement collecté les données pour cette finalité
Lorsque le tiers a initialement collecté les données pour d’autres finalités (par exemple dans le cadre de la fourniture d’un service aux personnes concernées), il lui appartient en outre de s’assurer que la transmission de ces données poursuit une finalité compatible avec celle(s) ayant justifié leur collecte. Il devra donc réaliser un « test de compatibilité ».
À noter que le détenteur initial d’une base de données autorise parfois son utilisation dans le cadre d’un contrat de licence qui en prévoit les termes et les conditions (notamment au titre du droit de la propriété intellectuelle). Ce contrat de licence peut par exemple encadrer cette compatibilité en limitant les réutilisations possibles.
Pour le réutilisateur, cela implique le plus souvent une série de vérifications des traitements du responsable de traitement initial
En effet, comme en cas de réutilisation de bases de données publiquement accessibles, le responsable du traitement qui réutilise les données doit s’assurer qu’il n’est pas en train de réutiliser une base de données dont la constitution ou le partage était manifestement illicite (par exemple, en l’absence d’indication quant à sa source, en cas de doute flagrant sur sa licéité, en particulier dans le cas de traitement de données sensibles, etc.). Cela résulte du principe général de licéité des traitements de l’article 5.1.a du RGPD, outre le risque de se rendre coupable du délit de recel (article 321-1 du code pénal).
Le réutilisateur d’une base de données transmise de gré à gré par un tiers pourra d’autant moins ignorer qu’elle est constituée ou partagée en méconnaissance du RGPD ou de règles plus générales (telles que celles interdisant les atteintes à la sécurité des systèmes d’information ou des atteintes à des droits de propriété intellectuelle) que sa relation avec ce tiers lui permet de lever les doutes qu’il pourrait avoir.
La conclusion d’un accord entre le détenteur initial des données et le réutilisateur est ainsi recommandée afin de permettre à ce dernier de s’assurer de la licéité de ses propres traitements, quand bien même elle ne serait pas explicitement exigée par le RGPD.
À cet égard, la CNIL recommande de fournir un certain nombre d’indications dans le contrat telles que :
- la source, le contexte de la collecte des données, la base légale du traitement et l’analyse d’impact relative la protection des données (voir notamment la fiche n° 5 sur la réalisation d’une AIPD) si nécessaire, afin d’écarter les risques d’avoir une base de données illicite ;
- les mentions d’information des personnes portées à la connaissance des personnes (en particulier s’agissant de la finalité et des destinataires) ;
- d’éventuelles garanties quant à la licéité de ce partage de données par le détenteur initial des données (par exemple : sur la compatibilité de la finalité, sur la licéité du partage, etc.).
La CNIL fournit un modèle de fiche descriptive du jeu de données qui peut utilement être utilisé à cette fin.
À noter : si le réutilisateur souhaite fonder son traitement de données personnelles sur un consentement recueilli par un tiers, il doit être en mesure d’apporter la preuve qu’un consentement valide a bien été recueilli auprès des personnes concernées. L’obligation de rapporter la preuve du consentement ne peut pas être remplie par la seule présence d’une clause contractuelle engageant l’une des parties à recueillir un consentement valable pour le compte de l’autre partie. En effet, une telle clause ne permet pas à l’organisme de garantir, en toutes circonstances, l’existence d’un consentement valide (voir la délibération de la formation restreinte de la CNIL n° SAN-2023-009 du 15 juin 2023). Le contrat pourra, en revanche, être utilisé pour encadrer :
- les mécanismes mis en place pour permettre de démontrer le recueil d’un consentement valide ;
- la mise à disposition des éléments de preuve au profit de l’organisme qui souhaite se prévaloir du consentement ;
- le cas échéant, les conditions dans lesquelles ces éléments de preuve doivent être conservés, notamment afin de conserver leur valeur probante.
Exemple : le fournisseur d’un système d’IA générative d’image se rapproche d’un courtier en données pour constituer une base de données à des fins d’apprentissage comportant notamment des photographies.
Ils concluent pour cela un contrat qui garantit au fournisseur la licéité des données partagées, et encadre la fourniture d’indications cruciales pour la conformité de ses traitements (par exemple : preuves du contexte de la collecte des données pour apprécier son intérêt légitime, garanties s’agissant d’autres réglementations comme celle régissant la cession des droits de propriété intellectuelle, etc.).
Outre ces vérifications préalables, et quel que soit le mode de collecte utilisé, les réutilisateurs doivent analyser complètement la conformité de leurs propres traitements, y compris lorsqu’ils réutilisent des bases de données dont la constitution et la diffusion ne relèvent pas du droit français ou européen (contrairement à leur réutilisation par une entité établie sur le territoire français ou européen qui est soumise au RGPD). En particulier, le réutilisateur doit veiller au respect des exigences vis-à-vis des personnes dont les données sont présentes dans la base ainsi obtenue : il doit les informer du traitement qu’il souhaite faire des données et leur permettre d’exercer leurs droits.
Fiche précédente : déterminer la qualification juridique des fournisseurs de systèmes d’IA | Sommaire | Fiche suivante : réaliser une analyse d’impact si nécessaire |