Alors que beaucoup ont proclamé l’arrivée de l’IA générative avancée comme la mort de l’édition telle que nous la connaissons, ces dernières semaines, nous avons assisté à un nouveau changement qui pourrait en fait apporter des avantages significatifs aux éditeurs en raison du virage de l’IA.

En effet, bien que les outils d’IA et les grands modèles de langage (LLM) qui les alimentent puissent produire des résultats étonnamment semblables à ceux de l’homme, tant pour le texte que pour les visuels, nous découvrons de plus en plus que les données d’entrée réelles sont d’une importance capitale, et qu’en avoir plus n’est pas nécessairement mieux à cet égard.

L’importance de la qualité des données pour les LLM

La qualité et la fiabilité des données d’entrée sont essentielles pour garantir des réponses précises et utiles de la part des systèmes d’IA. Même si les plateformes elles-mêmes peuvent être désireuses de tempérer les attentes en matière de précision, les consommateurs font déjà référence aux chatbots pour obtenir exactement cela. Si les outils d’IA ne fournissent pas de réponses précises, c’est un problème qui ne peut être expliqué comme des occurrences aléatoires qui existeront toujours, inévitablement.

L’accent mis sur les données à grande échelle va inévitablement se déplacer, et il ne s’agira plus seulement de la quantité de données que l’on peut intégrer, mais aussi de la précision de ces données, afin de garantir que ces systèmes produisent de bons résultats utiles. C’est là qu’interviennent le journalisme et les autres formes de contributions de haute qualité.

Les accords entre fournisseurs d’IA et éditeurs

OpenAI a déjà conclu un nouvel accord avec NewsCorp pour intégrer le contenu des publications de News Corp dans ses modèles, tandis que Meta envisagerait maintenant de faire de même. Ainsi, alors que les publications perdent sans doute du trafic au profit des systèmes d’IA qui fournissent toutes les informations dont les chercheurs ont besoin, elles pourraient, du moins en théorie, récupérer au moins une partie de ces pertes grâce à des accords de partage de données conçus pour améliorer la qualité des LLM.

De tels accords pourraient également réduire l’influence des fournisseurs d’informations douteux et partisans, en excluant leur contribution des mêmes modèles.

Si OpenAI, par exemple, devait conclure des accords avec tous les grands éditeurs, tout en supprimant les fournisseurs de contenu plus orientés vers les « scoops », la précision des réponses dans ChatGPT s’améliorerait certainement.

Vers des modèles d’IA affinés et des sources fiables

À cet égard, il s’agira de moins en moins de synthétiser l’ensemble d’Internet, et de plus en plus de construire la précision dans ces modèles, grâce à des partenariats avec des fournisseurs établis et de confiance, ce qui inclurait également les éditeurs universitaires, les sites web gouvernementaux, les associations scientifiques, etc.

Google serait déjà bien placé pour le faire, car grâce à ses algorithmes de recherche, il dispose déjà de filtres pour privilégier les meilleures sources d’information, les plus précises. En théorie, Google pourrait affiner ses modèles Gemini pour, par exemple, exclure tous les sites qui se situent en dessous d’un certain seuil de qualité, ce qui devrait permettre une amélioration immédiate de ses modèles.

Il y a plus que cela, bien sûr, mais le concept est que vous allez de plus en plus voir les créateurs de LLM s’éloigner de la construction des plus grands modèles possibles, et se tourner davantage vers des entrées raffinées et de qualité. Ce qui pourrait également être une mauvaise nouvelle pour la plateforme xAI d’Elon Musk, qui est alimentée par les messages de X, probablement un avantage en termes d’actualité, mais pas en ce qui concerne la précision.

L’avenir : Précision et partenariats éditoriaux

Mais à une échelle plus large, c’est la direction que nous prenons. La plupart des éléments structurels des modèles d’IA actuels sont désormais établis, les données d’entrée représentant le plus grand défi pour l’avenir. Comme le note Pichai, certains de ces éléments sont inhérents et existeront toujours, car ces systèmes tentent de donner un sens aux données fournies.

Mais avec le temps, la demande de précision va augmenter et, à mesure que de plus en plus de sites web empêcheront OpenAI et d’autres entreprises d’IA d’extraire leurs URL pour les intégrer aux LLM, elles devront de toute façon établir des accords de données avec davantage de fournisseurs. Le choix de ces fournisseurs pourrait être considéré comme de la censure et entraîner d’autres problèmes. Mais ils conduiront également à des réponses plus précises et factuelles de la part de ces outils de chatbot IA.

  • Les fournisseurs d’IA concluent des accords avec les éditeurs pour améliorer la précision des LLM
  • La qualité des données d’entrée est essentielle pour obtenir des réponses IA précises et utiles
  • Les partenariats IA-éditeurs pourraient réduire l’influence des sources douteuses et partisanes
  • L’accent sera mis sur des entrées de données raffinées et de qualité plutôt que sur des modèles massifs

En fin de compte, la demande croissante de précision de l’IA entraînera probablement davantage de partenariats entre les fournisseurs d’IA et les éditeurs de contenu de qualité. Bien que cela puisse présenter certains défis, cela devrait conduire à des réponses plus précises et factuelles de la part des chatbots et autres outils d’IA, au profit des utilisateurs.