L’essor fulgurant de l’intelligence artificielle soulève de nombreuses questions, notamment quant à la fiabilité et à l’origine des données utilisées pour entraîner ces modèles. Pour tenter d’y répondre, l’Université Harvard vient d’annoncer une initiative d’envergure: mettre gratuitement à disposition un million de livres issus du domaine public.

Un Tremplin pour les Petits Acteurs de l’IA

Cette vaste bibliothèque numérique, créée par la nouvelle Institutional Data Initiative de Harvard, couvre un large spectre de genres, décennies et langues. L’objectif est clair: permettre à tous, y compris aux startups et laboratoires de taille modeste, de nourrir leurs algorithmes avec du contenu de qualité pour enrichir leurs modèles de langage.

Greg Leppert, directeur exécutif de l’initiative, souligne l’importance « d’égaliser les chances » en donnant accès à des ressources habituellement réservées aux géants du secteur comme Google ou Meta. Harvard espère ainsi favoriser un développement plus équitable et diversifié de l’IA, au-delà des acteurs déjà établis.

Propriété Intellectuelle : Un Débat Ouvert

Cette démarche soulève néanmoins la question épineuse de la propriété intellectuelle. Comment protéger les droits d’auteur face à des technologies conçues pour aspirer et exploiter un maximum de données en ligne, sous licence ou non ?

Les entreprises du domaine de l’IA qui veulent se différencier de leurs concurrents doivent utiliser des données supplémentaires auxquelles les autres n’ont pas accès.

– Greg Leppert, Harvard Institutional Data Initiative

Selon Greg Leppert, cette base de données publique pourrait justement être combinée à des contenus sous licence pour créer des modèles d’IA encore plus performants et différenciants. Une vision partagée par Burton Davis, vice-président de Microsoft, qui voit dans ce « pool de données accessibles » une opportunité pour les startups de construire des solutions innovantes, dans l’intérêt public.

Vers Un Cadre Juridique pour l’IA

Reste que la frontière entre l’exploitation légitime de contenus en ligne et la violation de droits d’auteur est encore floue. Plusieurs actions en justice sont en cours pour tenter de clarifier les règles du jeu et dessiner les contours d’un cadre juridique adapté à l’IA.

D’ici là, l’initiative de Harvard a le mérite d’ouvrir le débat et d’illustrer le potentiel d’un partage éthique et responsable des connaissances. Une piste à suivre pour que l’intelligence artificielle profite au plus grand nombre, sans créer de nouvelles fractures numériques. L’avenir nous dira si les géants du secteur jouent le jeu, ou préfèrent garder leurs précieux jeux de données à l’abri des regards.

  • Un million de livres du domaine public mis à disposition par Harvard
  • Une initiative pour démocratiser l’accès aux données d’entraînement
  • La propriété intellectuelle, un enjeu majeur de l’IA
  • Vers un cadre juridique pour encadrer l’utilisation des données