Dans une décision stratégique, Reddit vient de bloquer l’accès à son contenu pour tous les moteurs de recherche autres que Google. Un choix qui intervient quelques mois après la signature d’un accord juteux entre le réseau social et le géant de Mountain View. Cette manœuvre soulève des questions sur la valeur des données de Reddit et sa volonté de mieux les monétiser.

Reddit ferme ses portes à Bing et consorts

Début juillet, Reddit a modifié son fichier robots.txt pour empêcher les moteurs de recherche non approuvés de scraper son site. Microsoft Bing a ainsi cessé d’indexer les contenus de la plateforme, qui n’apparaîtront plus dans ses résultats de recherche. Seul Google conserve un accès privilégié, grâce à un partenariat à 60 millions de dollars par an signé en février dernier.

Reddit affirme que cette décision n’est pas directement liée à son accord avec Google. La plateforme explique avoir engagé des discussions avec plusieurs moteurs, mais n’avoir pu trouver un terrain d’entente avec tous. En cause notamment, leur incapacité ou réticence à s’engager sur l’utilisation des contenus issus de Reddit, en particulier pour l’entraînement de l’IA.

La valeur des données communautaires

Les données de Reddit représentent un trésor d’insights et de conversations authentiques, couvrant une multitude de sujets de niche. De quoi améliorer considérablement les chatbots et systèmes d’IA, expliquant l’intérêt de Google. Cette manne attire aussi les convoitises de nombreux projets IA, qui scrapent la plateforme pour nourrir leurs modèles de langage (LLM).

Comme Twitter (rebaptisé X), Reddit a récemment augmenté le prix d’accès à ses API. L’objectif : s’assurer que les entreprises d’IA ne profitent pas gratuitement des contributions de ses utilisateurs. La plateforme gagne ainsi en contrôle, pouvant choisir quels projets autorise à puiser dans ses données.

Une stratégie de monétisation assumée

En tant qu’entreprise cotée en bourse, Reddit cherche à maximiser la valeur pour ses actionnaires. Tirer profit de ses données communautaires s’inscrit dans cette logique. Même si cela implique de réduire son trafic référent des moteurs exclus, la plateforme mise sur des accords commerciaux pour valoriser son or noir numérique.

Cette posture pourrait faire des émules. D’autres réseaux sociaux pourraient exiger des contreparties financières pour l’indexation de leurs contenus. Dans la course à l’IA, les acteurs disposant des données les plus précieuses, comme Reddit, auront une longueur d’avance. Leur position leur permet d’écarter les petits projets IA du marché, en leur bloquant l’accès à la matière première essentielle : les conversations authentiques des internautes.

Quel avenir pour l’IA open source ?

Si cette tendance se confirme, le risque est de voir l’IA devenir l’apanage des géants du web, seuls capables de s’offrir les meilleures données. Les alternatives open source devront se contenter d’informations de moindre qualité, avec le risque de produire des résultats moins pertinents et de perdre en usage.

Reddit ouvre la voie à un marché où la valeur des données prime. Un modèle qui pourrait porter préjudice à la démocratisation de l’IA et à l’innovation. Mais pour la plateforme, c’est une occasion unique de transformer son influence communautaire en revenus concrets. Reste à voir si la stratégie portera ses fruits sur le long terme, sans aliéner une partie de son audience et de son écosystème.