La base légale de l’intérêt légitime : fiche focus sur les mesures à prendre en cas de collecte des données par moissonnage (web scraping)

19 juin 2025

La collecte des données accessibles en ligne par moissonnage (web scraping) doit être accompagnée de mesures visant à garantir les droits des personnes concernées.

La collecte de données personnelles accessibles en ligne par moissonnage (web scraping) reposant généralement sur l’intérêt légitime, le responsable du traitement devra mettre en œuvre certaines mesures additionnelles, permettant de limiter l’atteinte qu’elle peut porter aux intérêts, droits et libertés des personnes.

Rappel sur la doctrine de la CNIL

Le moissonnage des données accessibles en ligne s’est fortement développé, notamment avec l’essor rapide et généralisé des systèmes d’IA générative, qui ont recours à de vastes quantités de données librement accessibles en ligne. Il existe toutefois des risques inhérents à l’utilisation de telles techniques pour les droits et libertés des personnes, qui ne maîtrisent pas les réutilisations de leurs données accessibles en ligne.

La généralisation des pratiques de moissonnage a ainsi opéré un changement de nature quant à l’utilisation d’internet, dans la mesure où toutes les données publiées en ligne par une personne sont désormais susceptibles d’être lues, collectées et réutilisées par des tiers, ce qui peut présenter des risques importants pour les personnes, dont notamment les risques suivants :

  • Les risques d’atteinte à la vie privée et aux droits garantis par le RGPD : l’utilisation de ces outils peut entraîner des impacts importants sur les personnes, du fait du grand volume de données collectées, du nombre important de personnes concernées, des difficultés liées à l’exercice ultérieur du droit d’effacement, du risque que soient collectées des données relevant de la vie privée des personnes (par ex. utilisation des réseaux sociaux) voire des données sensibles ou hautement personnelles, en l’absence de garanties suffisantes. Ces risques sont d’autant plus importants qu’ils peuvent également concerner les données de personnes vulnérables, comme des mineurs, qui doivent faire l’objet d’une attention particulière et être informés de manière suffisamment adaptée.
     
  • Le risque de procéder à une collecte illégale : certaines données peuvent être protégées par des droits spécifiques, notamment des droits de propriété intellectuelle, ou leur réutilisation conditionnée au consentement des personnes.
     
  • Les risques d’atteinte à la liberté d’expression : une collecte indifférenciée et massive de données et leur absorption dans des dispositifs d’IA susceptibles de les régurgiter peuvent affecter la liberté d’expression des personnes concernées (sentiment de surveillance qui qui pourrait conduire les internautes à s’auto-censurer, d’autant plus au regard des difficultés à soustraire les données publiées aux pratiques de moissonnage), alors même que l’utilisation de certaines plateformes et d’outils de communication est nécessaire au quotidien.

Pour autant, le moissonnage n’est pas interdit en lui-même mais doit faire l’objet d’une analyse au cas par cas. Cependant, la CNIL a régulièrement appelé à la vigilance concernant ces pratiques, tout en émettant une série de préconisations à respecter pour pouvoir les mettre en œuvre. Ella a également plusieurs fois appelé à ce que le moissonnage par les administrations publiques fasse l’objet d’un encadrement législatif ad hoc (voir notamment l’avis de la CNIL du 15 décembre 2022 sur le projet « Polygraphe »).

Dans certains cas, la CNIL a eu l’occasion de considérer que de telles pratiques étaient interdites en l’absence d’un tel encadrement juridique (notamment lorsque les traitements sont mis en œuvre par des autorités compétentes à des fins de détection d’infraction). A l’inverse, elles ont été admises dans d’autres cas de figure, sous réserve de la mise en place de garanties fortes, par exemple pour la recherche sur internet de fuites d’informations (RIFI).

Pour l’instant, en l’absence d’un encadrement juridique spécifique, cette fiche rappelle les obligations des responsables de traitements et précise les conditions dans lesquelles de tels traitements pourraient être mis en œuvre pour le développement d’un système d’IA.

La légalité des pratiques de moissonnage dépend notamment de la possibilité de mobiliser une base légale valide. La collecte de données accessibles en ligne pour la constitution d’une base de données d’apprentissage peut se fonder sur la base légale de l’intérêt légitime à condition d’en respecter les conditions rappelées dans la fiche relative à l’intérêt légitime (voir la fiche « Mobiliser la base légale de l’intérêt légitime pour développer un système d’IA »).

Les risques d’atteinte à d’autres réglementations

Si le recours à des techniques de moissonnage n’est pas en soi incompatible avec les exigences du RGPD, il peut être interdit par d’autres réglementations (par exemple par des conditions générales d’utilisation qui s’appuieraient sur le droit des producteurs de bases de données ou sur le droit d’auteur). A cet égard, les organismes de recherche peuvent envisager de bénéficier de l’exception de « fouille de texte et de données » en vertu du code de la propriété intellectuelle (art. L122-5 et 122-5-3), sauf si l'auteur s'y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. Cela inclut les métadonnées et les conditions générales d'utilisation d'un site internet ou d'un service (considérant 18 de la directive 2019/790 du 17 avril 2019 sur le droit d'auteur et les droits voisins).

Les mesures obligatoires


Respecter les attentes raisonnables


Les garanties supplémentaires