Comme cela est étayé par la littérature scientifique, la CNIL constate que les modèles d’IA mémorisent parfois une partie des données utilisées pour leur apprentissage. Lorsque celles-ci comportent des données personnelles, les modèles d’IA pourraient entrer dans le champ d’application du RGPD.
La CNIL invite les fournisseurs et utilisateurs de systèmes d’IA, ainsi que l’ensemble des acteurs concernés, à apporter leurs éclairages sur les conditions dans lesquelles les modèles d’IA peuvent être considérés comme anonymes ou doivent être encadrés par le RGPD.
Le développement d’un modèle d’IA est un traitement consistant à modéliser un ensemble de données d’apprentissage : le modèle d’IA constitué est une représentation des caractéristiques de la base qui a servi à l’entraîner. Cette modélisation peut donner lieu à une mémorisation des données d’entraînement, induisant un risque que les données d’apprentissage puissent être reconstruites à partir du modèle entraîné.
La vraisemblance de ce risque dépend toutefois des situations :
- Certains modèles d’IA génératifs entraînés sans précautions pourront régurgiter des données d’apprentissage à l’identique dans le cadre de leur utilisation courante.
- Dans d’autres cas, il sera nécessaire de conduire des attaques poussées sans de plus avoir de garanties théoriques sur la véracité de l’information obtenue.
Les risques liés à la mémorisation de données personnelles varient donc de façon très importante en fonction des modèles, des données utilisées et des contextes d’utilisation. Il pourrait sembler inadapté d’exiger que la même analyse soit conduite afin de prouver le caractère anonyme des modèles dans les deux configurations décrites ci-dessus.
Par ailleurs, la charge de cette analyse pourrait en théorie revenir au fournisseur du modèle ou à son utilisateur, mais les informations dont dispose ce dernier ne pourront pas toujours lui permettre d’accomplir cette tâche. Ainsi, la CNIL s’interroge également sur l’acteur à qui pourrait revenir la responsabilité de cette analyse selon les configurations.
Avec ce questionnaire, la CNIL sollicite les parties prenantes du secteur pour adapter ses futures recommandations aux risques réels et aux capacités du secteur à les réduire.
As supported by the scientific literature, the CNIL has observed that AI models sometimes memorise part of their training data. Where these include personal data, AI models could fall within the scope of the GDPR.
The CNIL invites providers and users of AI systems, as well as all relevant stakeholders, to shed light on the conditions under which AI models can be considered anonymous or must be regulated by the GDPR.
The development of an AI model consists in modelling a set of training data: once trained, the AI model is a representation of the characteristics of the training dataset. This modelling can lead to a memorisation of the data, creating a risk that the data could be reconstructed from the model.
The likelihood of this risk, however, depends on the situation:
- Some unprecautionarily trained generative AI models will be able to regurgitate training data identically as part of their normal use.
- In other cases, it will be necessary to carry out extensive attacks without any theoretical guarantees as to the veracity of the information obtained.
The risks associated with the memorization of personal data therefore vary greatly depending on the models, the data used and the contexts of use. It might seem inappropriate to require the same analysis to be carried out in order to prove the anonymity of the models in the two configurations described above.
Moreover, the burden of this analysis could in theory fall on the model provider or its user, but the information available to the latter may not always allow it to perform this task. Thus, the CNIL also wishes to question participants on the actor to whom the responsibility for this analysis could fall, depending on the configurations.
With this questionnaire, the CNIL wishes to interrogate all stakeholders to adapt its future recommendations to the real risks and to the capacities of the sector to reduce them.