Après avoir suspendu l’entraînement de ses systèmes d’IA sur les publications des utilisateurs britanniques en juillet dernier, Meta annonce avoir obtenu le feu vert des autorités du Royaume-Uni pour utiliser le contenu public partagé par les adultes sur Facebook et Instagram dans le cadre du développement de ses modèles génératifs.

L’importance des données publiques pour les modèles génératifs

Pour construire des modèles d’IA capables de comprendre le contexte et de produire des réponses pertinentes, Meta, comme toutes les entreprises travaillant sur l’intelligence artificielle, a besoin d’analyser de vastes quantités d’interactions humaines réelles. C’est en « apprenant » à partir de ces échanges que les systèmes peuvent affiner leur compréhension du langage naturel et générer des réponses de plus en plus fluides et adaptées.

Jusqu’à présent, Meta utilisait principalement les données publiques de ses plateformes Facebook et Instagram aux États-Unis pour entraîner ses modèles. L’accès aux publications des utilisateurs britanniques va permettre d’étendre considérablement le champ des données exploitables et d’améliorer la performance des IA sur le marché du Royaume-Uni.

Un cadre légal strict pour protéger la vie privée

Meta a obtenu l’autorisation d’utiliser les publications publiques des Britanniques adultes en vertu des dispositions légales relatives aux « intérêts légitimes ». L’entreprise tient cependant à souligner qu’elle n’exploitera en aucun cas les messages privés ou le contenu provenant de comptes de mineurs :

Nous n’utilisons pas les messages privés des gens avec leurs amis et leur famille pour entraîner l’IA chez Meta, et nous n’utilisons pas non plus les informations des comptes des personnes de moins de 18 ans au Royaume-Uni.

Nick Clegg, président des affaires globales de Meta

Seules les informations publiques, comme les publications, commentaires, photos et légendes, seront exploitées pour améliorer les modèles génératifs utilisés dans les différentes fonctionnalités et expériences d’IA développées par Meta.

L’Europe reste prudente face à l’utilisation des données

Si les autorités britanniques et brésiliennes ont donné leur accord à Meta, l’Union Européenne se montre plus réticente. En juin dernier, le géant des réseaux sociaux a dû mettre en place une option de retrait permettant aux utilisateurs européens de refuser que leurs publications soient utilisées pour l’entraînement des IA, conformément au « droit d’opposition » prévu par le RGPD.

Les régulateurs européens étudient encore les implications de l’utilisation des données personnelles dans le développement de l’IA et la compatibilité de ces pratiques avec le Digital Services Act (DSA) récemment adopté. Une approche jugée trop restrictive par Nick Clegg, qui estime que l’UE devrait faire davantage pour rattraper son retard sur les États-Unis en matière d’adoption et de développement des nouvelles technologies.

Trouver le juste équilibre entre innovation et protection des utilisateurs

Le débat autour de l’utilisation des données personnelles pour entraîner les IA soulève des questions complexes. D’un côté, l’accès à de vastes ensembles de données est essentiel pour permettre le développement de modèles de langage performants. De l’autre, les utilisateurs devraient avoir le droit de décider comment leur contenu est utilisé, surtout lorsqu’il s’agit d’informations sensibles ou personnelles publiées publiquement.

Jusqu’à présent, de nombreuses entreprises travaillant sur les grands modèles de langage ont eu tendance à « aspirer » massivement les données disponibles sur le web, sans toujours se soucier du consentement des personnes concernées. Une approche plus équilibrée et respectueuse de la vie privée semble indispensable pour construire une IA éthique et responsable.

En attendant que les régulateurs trouvent le juste équilibre, la meilleure façon de garder le contrôle sur ses données reste de passer ses profils en mode privé. Meta indique qu’elle commencera à informer les utilisateurs britanniques de l’évolution de ses pratiques dès cette semaine.

  • L’accès aux données publiques est crucial pour développer des IA performantes
  • Les utilisateurs doivent pouvoir contrôler l’usage de leur contenu
  • La réglementation doit trouver un équilibre entre innovation et protection des données