IA : Mobiliser la base légale de l’intérêt légitime pour développer un système d’IA
La base légale de l’intérêt légitime sera la plus couramment utilisée pour le développement de systèmes d’IA. Cette base légale ne peut toutefois pas être mobilisée sans en respecter les conditions et mettre en œuvre des garanties suffisantes.
L’intérêt légitime est l’une des 6 bases légales prévues par l’article 6 du RGPD.
Elle est souvent adaptée pour fonder le développement, par des organismes privés, de systèmes d’IA, notamment quand la base de données utilisée ne repose pas sur le consentement des personnes (souvent complexe à collecter à grande échelle ou en cas de collecte indirecte).
Concernant les organismes publics, l’intérêt légitime peut être utilisé lorsqu’une autorité publique souhaite développer un système d’IA uniquement lorsque les activités visées ne sont pas strictement nécessaires à l’exercice de ses missions spécifiques mais pour d’autres activités légalement mises en œuvre (comme par exemple, les traitements de gestion des ressources humaines).
Le recours à l’intérêt légitime est toutefois soumis à trois conditions :
- L’intérêt poursuivi par l’organisme doit être « légitime » ;
- Le traitement envisagé doit être nécessaire pour la réalisation de l’intérêt légitime poursuivi ;
- Le traitement ne doit pas porter une atteinte disproportionnée aux droits et intérêts des personnes dont les données sont traitées, compte tenu de leurs attentes raisonnables. Une « mise en balance » des droits et intérêts en cause doit donc être réalisée au regard des conditions concrètes de sa mise en œuvre.
Le responsable du traitement est tenu d’examiner la conformité de son traitement à ces trois conditions. A cette fin, il est recommandé, à titre de bonne pratique, de la documenter. En tout état de cause, lorsqu’une AIPD est nécessaire, les garanties apportées pour limiter l’atteinte susceptible d’être portée au droits des personnes doivent y être décrites par le responsable de traitement (voir fiche « Réaliser une AIPD si nécessaire »).
D’autres bases légales peuvent également être envisagées pour le développement de systèmes d’IA (voir la fiche « Assurer que le traitement est licite – Définir une base légale »).
Première condition : l’intérêt poursuivi doit être « légitime »
L’intérêt poursuivi, bien qu’étroitement lié à la finalité du traitement, ne doit pas être confondu avec elle. La finalité est la raison spécifique pour laquelle les données sont traitées, alors que l’intérêt correspond au bénéfice plus large qu'un responsable du traitement ou un tiers peut avoir.
Le caractère légitime de l’intérêt peut s’entendre largement. Il n’existe pas de liste exhaustive des intérêts considérés comme légitimes mais il est possible de considérer que le caractère légitime de l’intérêt poursuivi par un organisme peut être présumé si l’intérêt est à la fois :
- manifestement licite au regard du droit ;
- déterminé de façon suffisamment claire et précise ;
- réel et présent (c’est-à-dire non-hypothétique ou avéré) pour l’organisme concerné.
Ainsi, dans le cas du développement de systèmes d’IA, les intérêts suivants pourraient être considérés a priori comme légitimes :
- mener des travaux de recherche scientifique (notamment pour les organismes qui ne peuvent pas se fonder sur la mission d’intérêt public) ;
- faciliter l’accès du public à certaines informations ;
- développer de nouveaux systèmes et fonctionnalités pour les utilisateurs d’un service ;
- proposer un service d’agent conversationnel pour assister les utilisateurs ;
- améliorer un produit ou un service pour augmenter sa performance ;
- développer un système d’IA permettant de détecter des contenus ou comportements frauduleux.
Un intérêt commercial constitue un intérêt légitime pour autant qu’il ne soit pas contraire à la loi et que le traitement soit nécessaire et proportionné (CJUE, 4 octobre 2024, Tennisbond, C-621/22).
À l’inverse, certains intérêts ne peuvent pas être considérés comme légitimes, notamment quand le système d’IA envisagé n’a aucun lien avec la mission et l’activité de l’organisme ou si celui-ci ne peut pas être déployé légalement.
À noter : plus généralement, ne pourrait pas être considérés comme légitime le développement de systèmes qui sont catégoriquement interdits par d’autres réglementations que le RGPD. A cet égard, il convient d’accorder une attention particulière à la catégorisation propre à l’IA, prévue par la proposition de règlement européen sur l’intelligence artificielle. Ce texte interdit la mise sur le marché, la mise en service ou l’utilisation de certains systèmes d’IA. Le développement de systèmes qui seraient exclusivement destinés à de tels usages ne pourra, par conséquent, pas être considéré comme licite et il ne sera pas possible de mobiliser l’intérêt légitime, ni aucune autre base légale, pour opérer le traitement. Il reviendra au responsable du traitement de respecter la future réglementation et de se tenir à jour des évolutions à venir.
L’intérêt poursuivi doit être défini de manière suffisamment précise et porté à la connaissance des personnes dans le cadre des obligations de transparence du responsable du traitement. Ainsi, s’agissant du développement et de l’amélioration d’un système d’IA à usage général, même lorsque l’utilisation précise du modèle n’est pas connue, il est recommandé de faire référence à l’objectif visé par le développement du modèle (en indiquant notamment si celui-ci est d’ordre commercial, public, de recherche scientifique, et s’il est interne ou externe à l’organisme).
Dans certains cas, le consentement de la personne pourra être nécessaire au titre d’autres réglementations. Cela peut être par exemple le cas lorsque le responsable du traitement est également un contrôleur d’accès au sens du Digital Markets Act (DMA) et que le traitement pour la constitution de la base de données d’entraînement implique de mettre en œuvre l’une des pratiques listées à l’article 5.2 du DMA (utilisation de manière croisée des données personnelles provenant du service de plateforme essentiel dans le cadre d’autres services fournis par le contrôleur d’accès, par exemple).
Deuxième condition : le traitement doit être « nécessaire »
La condition de nécessité implique de s’assurer que le traitement envisagé permette d’atteindre l’intérêt poursuivi et qu’il n’existe pas de moyens moins intrusifs pour la vie privée que de mettre en œuvre le traitement envisagé.
À ce titre, si le développement du système d’IA nécessite d’utiliser des données personnelles, le responsable du traitement doit s’assurer, en l’état des informations dont il dispose, que le développement de ce système est bien nécessaire pour atteindre l’objectif qu’il s’est donné, qu’il s’agisse d’un objectif de recherche, d’un objectif commercial, d’un objectif de lutte contre la fraude, etc. Lorsque l’utilisation du modèle est connue dès la phase de développement, il sera pertinent d’en tenir compte. Si le développement du système ne nécessite pas d’utiliser des données personnelles, le RGPD n’est pas applicable à ce développement et la question ne se pose pas.
Cette condition relative à la nécessité du traitement est également à examiner en lien avec le principe de minimisation des données (voir la fiche « Tenir compte de la protection des données dans la conception du système »). Cela implique notamment pour le responsable du traitement de s’assurer de la nécessité de traiter des données personnelles ou de les conserver sous une forme permettant l’identification directe ou indirecte des personnes, ainsi que de la nécessité d’avoir recours, le cas échéant, à une solution technique qui implique de traiter un volume important de données personnelles. À cet égard, il convient de tenir compte des évolutions technologiques, qui peuvent permettre le développement de modèles dont l’entraînement nécessite de traiter moins de données personnelles. Les responsables de traitement sont encouragés à participer au développement de telles technologies.
Troisième condition : s’assurer que l’objectif poursuivi ne menace pas les droits et libertés des individus
Il convient de s’assurer que les intérêts légitimes poursuivis ne portent pas une atteinte disproportionnée aux intérêts, droits et libertés des personnes concernées.
Le responsable du traitement doit donc opérer une mise en balance entre les droits et intérêts en cause. Pour cela, il doit mesurer les avantages de son traitement (bénéfices anticipés, dont notamment ceux présentés ci-dessous) mais aussi les impacts sur les individus concernés. Si nécessaire, il faut mettre en place des mesures additionnelles permettant de limiter ces risques et de protéger les droits et libertés des personnes.
Cette analyse doit être effectuée au cas par cas, en tenant compte des circonstances spécifiques du traitement.
Les bénéfices apportés par le système d’IA contribuent à justifier le traitement de données personnelles
Plus les bénéfices que l’on peut anticiper du traitement sont importants, plus l’intérêt légitime du responsable du traitement est susceptible de prévaloir sur les droits et libertés des personnes.
Les éléments suivants permettent de mesurer l’impact positif des intérêts poursuivis :
- L’ampleur et la nature des bénéfices attendus du traitement, pour le responsable de traitement mais aussi pour des tiers, tels que les utilisateurs finaux du système d’IA ou encore l’intérêt du public ou de la société. La diversité des applications mettant en œuvre des systèmes d’IA montre qu’il peut y avoir de nombreux bénéfices, comme l’amélioration des soins de santé, une meilleure accessibilité de certains services essentiels, la facilitation de l’exercice de droits fondamentaux comme l’accès à l’information, la liberté d’expression, l’accès à l’enseignement, etc.
En général, le fait qu’un responsable du traitement agisse non seulement dans son propre intérêt mais aussi dans l’intérêt de la collectivité, peut donner plus de «poids» à cet intérêt.
- L’utilité du traitement mis en œuvre pour se conformer à d’autres réglementations.
- Le développement du modèle en source ouverte, qui, sous réserve de la mise en place de garanties suffisantes (voir l’article qui y est consacré) peut présenter des bénéfices importants pour la communauté scientifique, l’évolution de la recherche, l’éducation et l’appropriation de ces outils par le public. Il peut également comporter des avantages en matière de transparence, de réduction des biais, de responsabilisation du fournisseur du système d’IA ou encore de contrôle par les pairs. Cela peut témoigner de l’objectif du responsable du traitement de partager les bénéfices de son traitement pour participer au développement de la recherche scientifique.
- La précision des intérêts poursuivis : plus un intérêt est défini de manière précise, plus il pourra peser dans la mise en balance, du fait de la possibilité d’appréhender spécifiquement la réalité des bénéfices à prendre en compte. A l’inverse un intérêt défini de manière trop large (par exemple « offrir de nouveaux services à ses utilisateurs ») est moins susceptible de prévaloir sur les intérêts des personnes.
Les incidences négatives sur les personnes doivent être identifiées
Il convient de mettre en balance ces bénéfices avec les incidences des traitements sur les personnes concernées. Concrètement, l’organisme doit identifier et évaluer les conséquences de toutes sortes, potentielles ou effectives, que le développement du système puis sont utilisation pourraient avoir sur les personnes concernées : sur leur vie privée, sur la protection de leurs données et sur leurs autres droits fondamentaux (liberté d’expression, liberté d’information, liberté de conscience, etc.) ainsi que les autres impacts concrets du traitement sur leur situation.
Les impacts réels du traitement sur les personnes, tels que listés ci-dessous, sont à évaluer en fonction de la vraisemblance que les risques se concrétisent et de la gravité des conséquences, qui dépendent des conditions particulières du traitement, ainsi que du système d’IA développé.
Pour cela, il convient de tenir compte de la nature des données (sensibles, hautement personnelles), du statut des personnes concernées (personnes vulnérables, mineurs, etc.), du statut de l’entreprise ou de l’administration développant et/ou déployant l’IA (les effets étant démultipliés en cas d’usage très large de l’IA), de la façon dont les données sont traitées (croisement de données, etc.) ou encore le type de système d’IA et de l’usage opérationnel envisagé. Dans certains cas, les incidences pour les personnes seront donc limitées, soit parce que les risques sont faibles, soit parce que les conséquences présentent peu de gravité au regard des données utilisées, du traitement effectué et de l’intérêt poursuivi (par exemple, le développement d’un système d’IA utilisé pour la personnalisation d’une fonctionnalité d’auto-saisie d’un logiciel de traitement de texte présente peu de risques pour les personnes concernées).
Il convient donc de prendre en compte les incidences suivantes sur les personnes et d’évaluer dans le cas étudié le niveau des risques associés. Deux types de risques peuvent être distinguées :
-
Les incidences liées au développement du modèle d'IA
- Les risques relatifs à la collecte de données accessibles en ligne, notamment à l’aide d’ outils de moissonnage (scraping), susceptible de porter atteinte à la vie privée des personnes et aux droits garantis par le RGPD, ainsi qu’à potentiellement d’autres droits comme les droits de propriété intellectuelle ou certains secrets, ou encore à la liberté d’expression, au regard du sentiment de surveillance que peut créer la collecte massive et généralisée de données en ligne.
- Les risques de perte de confidentialité des données contenues dans la base de données ou dans le modèle : les risques liés à la sécurité des bases de données d’apprentissage sont susceptibles d’augmenter les risques pour les personnes concernées liés à des détournements de finalité, notamment en cas de violation de données, ou les risques liés aux attaques spécifiques aux systèmes d’IA (attaque par empoisonnement, par insertion d’une porte dérobée ou encore par inversion du modèle).
- Les risques liés à la difficulté de garantir l’effectivité de l’exercice des droits des personnes, notamment du fait des obstacles techniques à l’identification des personnes concernées ou des difficultés pour transmettre les demandes d’exercice de droits lorsque la base de données ou le modèle est partagé ou diffusé en source ouverte. Il est également complexe voire impossible techniquement de mettre en œuvre l’exercice des droits sur certains objets comme les modèles appris.
- Les risques liés à la difficulté d’assurer la transparence des traitements auprès des personnes concernées : ces risques peuvent également résulter de la technicité des sujets, des évolutions technologiques rapides, et de l’opacité structurelle du développement de certains systèmes d’IA (par exemple, d’apprentissage profond). Cela complexifie en effet la possiblité d’une information intelligible et accessible pour les personnes sur les traitements réalisés.
-
Les incidences pour les personnes liées à l’utilisation du système d’IA
Certains risques, dont les conséquences peuvent se matérialiser lors de l’utilisation du système d’IA, sont à prendre en compte lors du développement du fait de leur caractère systémique. Il est en effet nécessaire d’anticiper dès la phase de conception les garanties permettant de limiter effectivement ces risques pour les personnes. Ces risques dépendent des usages du système d’IA. De façon générale on peut notamment mentionner :
- Les risques de mémorisation, d'extraction ou de régurgitation (pour les systèmes d'IA générative) de données personnelles lors de l’utilisation de certains systèmes d’IA, susceptibles de porter atteinte à la vie privée. Il est possible dans certains cas d’inférer, accidentellement ou par des attaques (inférence d’appartenance, extraction ou inversion du modèle), des données personnelles contenues dans la base de données d’apprentissage à partir de l’utilisation de systèmes d’IA (voir notamment l’article du LINC « Petite taxonomie des attaques des systèmes d’IA »). Cela présente un risque pour la vie privée des personnes dont les données pourraient apparaître lors de l’utilisation du système d’IA (risque d’atteinte à la réputation, risque de sécurité selon la nature des données mémorisée, etc.).
- Les risques d’atteinte à la réputation, de propagation de fausses informations ou encore d’usurpation d’identité, lorsque le système d’IA (particulièrement d’IA générative) produit du contenu sur une personne physique identifiée ou identifiable (par exemple, un système d’IA générative d’images peut être utilisée pour générer de fausses photographies à caractère pornographique de personnes réelles dont les images sont contenues dans la base de données). A noter que ce risque peut également advenir avec des systèmes d’IA n’ayant pas été entraînées avec des données personnelles.
- Les risques d’atteinte à certains droits ou secrets prévus par la loi (par exemple, le droit de propriété intellectuelle, comme le droit d'auteur, le secret des affaires ou encore le secret médical) en cas de mémorisation ou de régurgitation de données protégées.
- Les risques éthiques graves, qui portent atteinte à certaines règles générales de droit ou au bon fonctionnement de la société dans son ensemble, liés au développement de certains systèmes d’IA. Ils doivent être pris en compte dans l’évaluation (par exemple, discrimination, sécurité des personnes en cas d’utilisation malveillante, incitation à la haine ou à la violence, désinformation, qui risquent de porter atteinte aux droits et libertés des personnes ou à la démocratie et à l’état de droit). Le développement de systèmes d’IA peut ainsi porter atteinte à certains droits et libertés fondamentaux en phase de déploiement si des garanties ne sont pas anticipées dès leur conception (par ex. l’amplification de biais discriminatoires dans la base de données d’apprentissage, le défaut de transparence ou d’explicabilité, de robustesse ou encore les biais d’automatisation, etc.).
Prendre en compte le RIA :
Lorsque le responsable du traitement est un fournisseur d’IA à haut risque au sens de l’article 6 du RIA, il pourra utilement tenir compte des risques identifiés dans le cadre du système de gestion des risques qu’il doit mettre en place au titre de l’article 9 du RIA. De la même manière, lorsqu’il est fournisseur d’un modèle d’IA à usage général présentant des risques systémiques au sens de l’article 51 du RIA, il pourra tenir compte des risques identifiés dans le cadre de la mise en œuvre de ses obligations au titre de l’article 55 du RIA.
Les attentes raisonnables des personnes sont un facteur clé pour apprécier la légitimité du traitement.
L’organisme doit tenir compte des attentes raisonnables des personnes concernées pour évaluer l’incidence du traitement sur les personnes. En effet, l’intérêt légitime requiert de ne pas surprendre les personnes dans les modalités de mise en œuvre comme dans les conséquences du traitement.
Les attentes raisonnables constituent un élément de contexte dont le responsable du traitement doit tenir compte dans la pondération des droits et intérêts en cause. A cette fin, l’information des personnes peut être prise en compte afin d’évaluer si les personnes concernées peuvent raisonnablement s’attendre au traitement de leurs données ; il ne s’agira toutefois que d’un indicateur.
Dans le cadre du développement d’un système d’IA, certains traitements sont susceptibles de sortir des attentes raisonnables des personnes. Il appartient au responsable du traitement de mener cette analyse en tenant compte notamment du faisceau d’indices suivant :
Pour les données collectées directement auprès des personnes :
- La relation entre le responsable du traitement et la personne concernée.
- Les paramètres de confidentialité des données partagées.
L’utilisation d’échanges privés entre deux personnes qui utilisent un service de réunion virtuelle en ligne pour le développement ou l’amélioration d’un modèle d’IA permettant de résumer des réunions n’entre pas dans les attentes raisonnables des personnes.
- Le contexte et la nature du service où les données ont été collectées (par exemple, service fourni ou non par l’intermédiaire d’un système d’IA) ;
- Si le traitement des données des utilisateurs n’affecte que le service fourni à l’utilisateur en question ou s’il est utilisé pour améliorer le service tel que commercialisé (par exemple, si une entreprise collecte les données collectées de ses clients afin de développer un outil qu’elle utilise seule mais qui n’est pas commercialisé par ailleurs).
En cas de réutilisation de données publiées sur internet :
Compte tenu des évolutions technologiques des dernières années (big data, nouveaux outils d’IA, etc.), les personnes peuvent avoir conscience que certaines des données qu’elles publient en ligne sont susceptibles d’être consultées, collectées et réutilisées par des tiers. Elles ne peuvent néanmoins pas s’attendre à ce que de tels traitements aient lieu dans toutes les situations et pour tous les types de données accessibles en ligne les concernant. Il convient notamment de tenir compte :
- du caractère publiquement accessible des données ;
- du contexte et de la nature des sites web sources (réseaux sociaux, forums en ligne, sites de diffusion de jeux de données, etc.)
- des restrictions que ces sites imposent, par exemple dans les CGU, ou par la mise en place de mesures techniques comme l’utilisation de fichiers d’exclusion tels que robots.txt, ou la mise en place de mesures bloquantes comme les CAPTCHA. La CNIL considère à cet égard que le traitement ne pourra pas entrer dans les attentes raisonnables des personnes si son responsable n’exclut pas de la collecte les sites qui s’opposent clairement au moissonnage par l’intermédiaire des protocoles d’exclusion robots.txt ou des CAPTCHA.
- du type de publication (par exemple, un article publié sur un blog librement accessible n’a aucun caractère privé, alors qu’un post sur un réseau social publié avec des restrictions d’accès peut conserver un caractère privé pour lesquels l’internaute a moins conscience de s’exposer à une collecte et à une réutilisation par des tiers).
- de la nature de la relation entre la personne concernée et le responsable du traitement.
Il peut être difficile d’appréhender la multiplicité des usages possibles d’une base de données, d’un modèle, notamment en cas de diffusion ou de partage.
Or, certains de ces usages peuvent sortir des attentes raisonnables des personnes, notamment en cas de réutilisation illicite dans la mesure où une personne ne pourrait pas s’attendre à ce que ses données permettent le développement de systèmes d’IA réutilisés à certaines fins.
Mesures additionnelles permettant de limiter les incidences du traitement
L’organisme peut prévoir des mesures compensatoires ou additionnelles à mettre en place en vue de limiter les impacts du traitement sur les personnes concernées. Ces mesures seront souvent nécessaires pour atteindre un équilibre suffisant entre les droits et intérêts en cause et permettra au responsable du traitement de se fonder sur cette base légale.
Ces mesures s’ajoutent à celles qui sont nécessaires au respect des autres obligations posées par le RGPD, sans se confondre avec elles : le respect de ces dispositions est impératif, quelle que soit la base légale du traitement (minimisation des données, protection dès données dès la conception et par défaut, sécurité des données, etc., voir les fiches pratiques dédiées). Les mesures compensatoires consistent en des garanties supplémentaires aux exigences du RGPD.
Elles peuvent être de nature technique, organisationnelle ou juridique et doivent permettre de limiter le risque d’atteinte aux intérêts, droits et libertés précédemment identifiés.
Les mesures suivantes ont été identifiées comme pertinentes pour limiter l’atteinte aux droits et libertés des personnes concernées. Elles doivent être adaptées aux risques lors des différents traitements au cours de la phase de développement.
1. Mesures qui permettent de limiter la collecte ou la conservation de données personnelles :
- Prévoir l’anonymisation à bref délai des données collectées ou, à défaut, la pseudonymisation des données collectées. Dans certains cas, l’anonymisation des données sera nécessaire, lorsque des données anonymes suffisent à atteindre les objectifs définis par le responsable du traitement.
- Lorsque cela ne nuit pas à la performance du modèle développé, privilégier l’utilisation de données synthétiques. Cela peut également présenter certains avantages, notamment de rendre disponibles ou accessibles certaines données et de modéliser certaines situations spécifiques, d’éviter l’utilisation de données réelles, notamment sensibles, d’augmenter le volume de données pour l’entraînement ou encore de minimiser les risques liés à la confidentialité des données, etc. Il faut garder à l’esprit que les données synthétiques ne sont pas systématiquement anonymes.
- Adopter des mesures pour limiter les risques de mémorisation, d’extraction, de régurgitation, dans le cadre des IA génératives, ou d’attaque des modèles ou systèmes d’IA. Sans préjudice des évolutions technologiques qui pourront permettre l’émergence d’autres mesures, la CNIL recommande la mise en place des mesures suivantes :
- Des mesures limitant les risques de mémorisation :
- La suppression des données rares ou aberrantes ;
- La déduplication des données d’apprentissage ;
- La réduction du rapport du nombre de paramètres du modèle sur le volume de données d’entraînement ;
- La régularisation de la fonction objectif de l’entraînement ;
- Les algorithmes d’apprentissages permettant de garantir un certain niveau de confidentialité, comme cela peut être mesuré en terme de confidentialité différencielle ;
- Toute mesure visant à limiter le surapprentissage ;
- Des mesures limitant les risques d’extraction ou de régurgitation dans le cadre des IA génératives ou d’attaque :
- Mesures qui en limitent la vraisemblance :
- Les restrictions d’accès au modèle ;
- Les modifications apportées aux sorties du modèle (comme les filtres par exemple, ou la limitation apportée à la précision des sorties) ;
- Les mesures de sécurité qui visent à empêcher ou détecter des tentatives d’attaque (qui pourraient toutefois être exigées au titre d’autres obligations du RGPD) ;
- Mesures pour en limiter la gravité :
- Prévoir un recours juridique ou technique en cas d’extraction, de régurgitation dans le cadre des IA génératives ou d’attaque fructueuse, comme par exemple l’ouverture d’un guichet auprès du fournisseur auquel les personnes peuvent indiquer le constat d’une régurgitation.
- Mesures qui en limitent la vraisemblance :
Dans certains cas, l’adoption de ces mesures pourra permettre au responsable du traitement de conclure à l’impossibilité d’extraction de données personnelles ou de régurgitation, dans le cadre des IA génératives, et donc au caractère anonyme du modèle ou système développé (une fiche à venir sur le statut des d’IA au regard du RGPD doit préciser ces cas de figure). L’anonymat du modèle ou du système constituera une garantie particulièrement forte pour limiter les atteintes aux personnes dont les données sont traitées pour l’entraînement du modèle d’IA.
Si le responsable du traitement n’est pas en mesure de conclure au caractère anonyme du modèle ou du système développé, ces mesures constitueront tout de même des garanties additionnelles.
2. Les mesures permettant aux personnes de conserver le contrôle de leurs données
Prévoir des mesures techniques, juridiques et organisationnelles s’ajoutant aux obligations prévues par le RGPD afin de de faciliter l’exercice des droits :
- Prévoir un droit d'opposition discrétionnaire et préalable afin de renforcer le contrôle des personnes sur leurs données.
- L’exercice de ce droit pourrait être facilité par la diffusion de l’information concernant son existence sur le site du responsable du traitement, par la mise en place d’une simple case à cocher, accessible rapidement. Par exemple, les utilisateurs d’un service en ligne dont les données sont utilisées pour le développement ou l’amélioration d’un système d’IA devraient pouvoir accéder rapidement à la page leur permettant de s’opposer à la collecte de leurs données à cette fin. Le responsable du traitement devra s’assurer que la personne peut s’opposer à ce traitement sans que son utilisation du service en dépende ;
- En cas de collecte de données accessibles en ligne, la CNIL encourage le développement de solutions techniques permettant de faciliter le respect de l’exercice du droit d’opposition en amont de la collecte des données. Outre les dispositifs d’opt out mis en place en matière de propriété intellectuelle (voir la fiche focus sur le moissonnage), des mécanismes de « liste repoussoir » pourraient par exemple être mis en œuvre lorsque c’est adapté au traitement. Cela permettrait au responsable du traitement de respecter l’opposition des personnes en s’abstenant de collecter les données de ces dernières.
- L’exercice de ce droit pourrait être facilité par la diffusion de l’information concernant son existence sur le site du responsable du traitement, par la mise en place d’une simple case à cocher, accessible rapidement. Par exemple, les utilisateurs d’un service en ligne dont les données sont utilisées pour le développement ou l’amélioration d’un système d’IA devraient pouvoir accéder rapidement à la page leur permettant de s’opposer à la collecte de leurs données à cette fin. Le responsable du traitement devra s’assurer que la personne peut s’opposer à ce traitement sans que son utilisation du service en dépende ;
- Prévoir un droit discrétionnaire à l’effacement des données contenues dans la base de données ;
- Mettre en place des mesures pour faciliter l’identification des personnes : des mesures techniques et organisationnelles devraient être envisagées pour conserver un certain nombre de métadonnées ou d’autres informations sur la source de la collecte des données afin de faciliter la recherche d’une personne ou d’une donnée au sein de la base. Cela sera particulièrement pertinent lorsqu’il s’agit d’informations publiquement accessibles et dont la conservation n’engendre pas de risques supplémentaires pour les personnes concernées.
Exemple : Dans le cas d’un jeu de données d’images constitué à partir d’un moissonnage (web scraping) de données librement accessibles en ligne sur une série limitée de sites internet, conserver le nom d’affichage et l’adresse URL de la source de chaque image ainsi collectée permettrait de faciliter l’identification des personnes. En effet, ces dernières pourraient directement fournir les adresses URL en cause en retrouvant les données les concernant à partir d’un moteur de recherche généraliste, ou d’un site ou d’une bibliothèque d’archivage du web.
- Mettre en place des mesures qui permettent de garantir et de faciliter l’exercice des droits des personnes lorsque le modèle est soumis au RGPD (voir la fiche à venir sur le statut des modèles d’IA au regard du RGPD) comme observer un délai raisonnable entre la diffusion ou la collecte d'un jeu de données d'entraînement et son utilisation (en particulier lorsque l'exercice des droits sur le modèle est difficile) et/ou prévoir un réentraînement périodique du modèle afin de permettre la prise en compte de l’exercice des droits lorsque le responsable de traitement dispose toujours des données d’entraînement.
Pour plus de détails sur les mesures à prendre pour l’exercice des droits, voir la fiche « Respecter et faciliter l’exercice des droits des personnes concernées ». - Lorsque le modèle est partagé ou diffusé en source ouverte, identifier et mettre en place des mesures qui permettent d’assurer la transmission de l’exercice des droits à travers la chaîne des acteurs, notamment en prévoyant dans les conditions générales l’obligation de répercuter les effets de l’exercice des droits d’opposition, de rectification ou d’effacement sur les systèmes développés ultérieurement.
- Faciliter la notification des droits : par exemple, lorsque cela est possible, la CNIL recommande l’usage d’interfaces de programmation applicatives (API) (en particulier dans les cas les plus à risque), ou à minima des techniques de gestion des journalisations des téléchargements de données.
- Prévoir de communiquer plus largement sur les mises à jour des bases de données ou des modèles, par exemple dans la documentation du jeu de données ou sur le site web des fournisseurs, pour permettre aux personnes concernées de savoir dans quelle mesure leurs demandes ont été respectées. Cela implique également d’inciter les destinataires des versions antérieures à les supprimer ou à les remplacer par la dernière version.
Assurer une transparence accrue concernant les traitements effectués pour le développement ou l'amélioration du système d'IA, outre les obligations prévues aux articles 12 à 14 du RGPD, en prévoyant les mesures suivantes :
- Fournir une information sur les risques liés à l’extraction, ou la régurgitation des données dans le cadre des IA génératives, lorsque le modèle ou le système d’IA développé est soumis au RGPD (voir la fiche à venir sur le statut des modèles d’IA au regard du RGPD) :
- la nature du risque lié à l’extraction des données à partir du modèle ou du système, comme le risque de régurgitation de données dans le cas de l’IA générative ;
- les mesures prises afin de limiter ces risques, et les mécanismes de recours existants dans le cas où ces risques se manifesteraient, comme la possibilité de signaler à l’organisme une occurrence de régurgitation ou d’extraction.
- la nature du risque lié à l’extraction des données à partir du modèle ou du système, comme le risque de régurgitation de données dans le cas de l’IA générative ;
- Prévoir la publication de l’AIPD éventuellement réalisée (cette publication pouvant être partielle lorsque certaines sections sont soumises à des secrets protégés comme le secret des affaires) ;
- Prévoir la publication de toute documentation concernant la base de données constituée (par exemple sur la base du modèle proposé par la CNIL), le processus de développement, ou encore le système d’IA et son fonctionnement ;
- Prévoir la publication d’informations permettant une meilleure acculturation au fonctionnement de ces outils : la CNIL considère que l’acceptation par le grand public des techniques d’IA ne pourra se faire sans cela. Elle invite ainsi les acteurs du domaine, concepteurs et utilisateurs, à des efforts de transparence et de vulgarisation sur leurs pratiques, ainsi que sur le fonctionnement et les risques associés à l’utilisation des méthodes d’IA. Cela peut notamment passer par la mise en œuvre de pratiques de transparence recommandées dans le domaine, telles que :
- l’adoption des pratiques liées au développement en source ouverte, comme la publication des poids du modèle, du code source, etc.
- la transparence sur des pratiques qui ne sont pas liées à la protection des données, comme :
- les concepts clés de l’apprentissage automatique, comme l’apprentissage, l’inférence, la mémorisation, ou les différents types d’attaque sur les systèmes d’IA ;
- les mesures mises en œuvre afin de limiter les utilisations malfaisantes ou dangereuses du système ;
- les concepts clés de l’apprentissage automatique, comme l’apprentissage, l’inférence, la mémorisation, ou les différents types d’attaque sur les systèmes d’IA ;
- l’adoption des pratiques liées au développement en source ouverte, comme la publication des poids du modèle, du code source, etc.
- Mener des campagnes médiatiques pour tenter de diffuser le plus largement possible l’information auprès des personnes, notamment lorsqu’il s’agit de modèles nécessitant une collecte de grande ampleur, tels que les grands modèles de langage (ou LLM) et multiplier les formes alternatives d’information des personnes
- Mettre en place les mesures et procédures qui garantissent un développement transparent du système d’IA, afin de permettre notamment l’auditabilité du système d’IA en phase de déploiement (documentation de l’ensemble du processus de développement, journalisation des activités, la gestion et le suivi des différentes versions du modèle, l’enregistrement des paramètres utilisés, ou encore la réalisation et la documentation d’évaluations et de tests). Cela peut également être nécessaire pour éviter les biais d’automatisation ou de confirmation en phase de déploiement.
3. Les mesures qui permettent de limiter les risques en phase d’utilisation
- Dans le cas des systèmes d’IA à usage général, limiter le risque de réutilisation illicite du système d’IA en mettant en place des mesures techniques (par exemple, tatouage numérique des productions d’un système d’IA pour éviter l’utilisation du système à des fins trompeuses ou limitation des fonctionnalités en excluant par conception celles qui pourraient donner lieu à des utilisations illicites) et/ou juridiques (par exemple, prévoir l’interdiction contractuelle de certaines utilisations illicites ou non éthiques de la base de données ou du système d’IA, auxquelles les personnes concernées ne pourraient pas raisonnablement s’attendre).
- Mettre en place des licences restreignant les usages visant à réidentifier une personne.
- Mettre en place des mesures permettant d’assurer la prise en compte de certains risques éthiques graves.
Par exemple, garantir la qualité de la base de données d'apprentissage pour limiter les risques de biais discriminatoires en phase d’utilisation notamment en assurant la représentativité des données et en vérifiant et corrigeant la présence de biais dans la base de données ou résultant des annotations effectuées (voir fiche « Annoter les données »).
4. Autres mesures
- Au regard de la gravité et de la vraisemblance des risques identifiés, mettre en place un comité éthique, ou, selon la taille et les ressources de la structure concernée, un référent éthique afin de prendre en compte, en amont et tout au long du développement de ces systèmes, les enjeux éthiques et de protection des droits et libertés des personnes concernées (pour plus d’informations, voir la fiche « Tenir compte de la protection des données dans la conception du système »).
Exemples
Exemple où l’intérêt légitime ne peut pas être mobilisé :
Un responsable de traitement souhaite développer un système d’IA génératif d’images. Il constitue la base de données d’entraînement à partir d’images collectées en ligne de manière indiscriminée sur de nombreux sites , sans s’assurer d’exclure certaines catégories de sites contenant par exemple des données sensibles comme les sites pornographiques, sans prévoir de garanties en limitant les risques de mémorisation ou d’extraction des données par le modèle, et ce, pour un objectif défini par le responsable du traitement dans sa politique de confidentialité comme « la fourniture de nouveaux services ». Dans de tels cas, il est peu probable que la mise en balance puisse être considérée comme atteinte.
Exemples où l’intérêt légitime peut-être mobilisé :
Un réseau social proposant un forum en ligne, dont le principe même est de rendre librement accessible les échanges entre ses utilisateurs, souhaite développer un agent conversationnel qui permet de faciliter la recherche dans les publications sur la plateforme, en synthétisant notamment les résultats de la recherche en répondant à la question posée. Afin d’entraîner le modèle, il collecte les données que les utilisateurs ont rendu librement accessibles et manifestement publiques, à l’exclusion donc des données privées des utilisateurs (conversations privées, informations du compte, etc.), et met en place des garanties fortes en prévoyant notamment un mécanisme d’opposition préalable et discrétionnaire, en mettant en place une information accrue (par exemple en ajoutant une information sur la page d’accueil du site qui renvoie directement vers la possibilité de s’opposer au traitement), etc. Dans ce cas, la mise en balance pourra en général être considérée comme atteinte. Pour rappel, dans ce cas de figure, si la finalité du traitement n’était pas prévue et portée à la connaissance des personnes, il sera nécessaire d’effectuer un test de compatibilité au titre de l’article 6.4 du RGPD (voir la fiche Assurer que le traitement est licite - Définir une base légale pour plus d’informations).
Un organisme souhaite développer un système d’IA génératif de texte. Il utilise pour cela exclusivement des données issues de sources librement et publiquement accessible en ligne, qui ont été manifestement rendues publiques par les personnes concernées et excluant tout contenu protégé par les droits d’auteur (contenu qui appartient au domaine public, ou pour lequel les titulaires de droit ne se sont pas opposées à la fouille de textes et de données prévue par la directive 2019/790 sur le droit d’auteur et les droits voisins dans le marché unique numérique). En outre, il prend une série de mesures permettant de limiter la mémorisation et la régurgitation de données ; il limite techniquement ou contractuellement la génération de contenu problématique ; il facilite l’exercice des droits des personnes lorsqu’elles peuvent être réidentifiées, et indique précisément les sources des données dans sa politique de confidentialité qu’il rend publique. Dans ce cas, la mise en balance pourrait en général être considérée comme atteinte.
Une enseigne qui utilise une caisse automatique munie d’une caméra augmentée permettant de détecter automatiquement une erreur du client lors du passage en caisse souhaite réutiliser les données collectées afin d’améliorer le système d’IA utilisé. Elle ne conserve à cette fin que des données sous une forme limitant la réidentification des personnes, et s’assure notamment d’informer le client de la mise en œuvre de ce dispositif, ainsi que de le mettre en mesure de s’y opposer de manière discrétionnaire. Dans ce cas, la mise en balance pourrait en général être considérée comme atteinte.