Reddit, le célèbre site de discussions en ligne, a récemment pris une décision qui risque de changer la donne dans le domaine des moteurs de recherche et de l’intelligence artificielle. En effet, la plateforme a modifié son fichier robots.txt pour bloquer l’accès à tous les moteurs de recherche non approuvés, y compris Bing de Microsoft.

Une mise à jour qui exclut les moteurs de recherche tiers

Depuis le 1er juillet, Reddit a effectué une mise à jour de son fichier robots.txt, qui spécifie quels moteurs de recherche sont autorisés à indexer le contenu du site. Cette modification a pour effet de refuser l’accès à tous les moteurs non approuvés, ce qui signifie que les résultats de Reddit ne s’afficheront plus sur ces moteurs de recherche.

Seul Google, avec qui Reddit a signé un accord de partage de données de 60 millions de dollars par an en février dernier, conserve un accès privilégié. Cet accord a déjà permis à Google de diriger bien plus de trafic vers les pages Reddit.

Un contrôle accru sur les précieuses données de Reddit

Si Reddit affirme que cette décision n’est pas directement liée à l’accord avec Google, la plateforme explique avoir eu des discussions avec plusieurs moteurs de recherche. Cependant, elle n’a pas réussi à trouver un terrain d’entente avec tous, car certains sont « incapables ou peu disposés à prendre des engagements applicables concernant leur utilisation du contenu Reddit, notamment pour l’IA ».

L’entraînement de l’IA a été un point d’attention majeur pour Reddit et X (anciennement Twitter), de nombreux projets d’IA ayant utilisé les données de ces plateformes pour entraîner leurs modèles de langage. Reddit et X ont donc augmenté le prix d’accès à leurs API pour s’assurer que les projets d’IA ne profitent pas de leurs informations sans contrepartie.

Les données de Reddit sont extrêmement précieuses, car ses communautés couvrent une multitude de sujets de niche, fournissant des informations et des réponses humaines à des requêtes web courantes.

Une monétisation des données pour assurer la viabilité à long terme

Cotée en bourse, Reddit cherche à accroître la valeur pour ses actionnaires et à développer son activité par divers moyens. La monétisation de ses données est donc un levier clé pour assurer sa viabilité à long terme.

En restreignant l’accès des moteurs de recherche à ses données, Reddit leur impose de passer des accords similaires à celui de Google. Bien que cela puisse réduire dans une certaine mesure le trafic référent vers le site, Reddit estime que l’impact en vaut la peine pour valoriser davantage ses données.

Vers une généralisation des partenariats de données ?

Il sera intéressant de voir si d’autres plateformes emboîtent le pas à Reddit et si Google et d’autres seront contraints de conclure des accords de partage de données pour maintenir leur accès. La société qui détiendra les données les plus précieuses sera gagnante dans la course à l’IA.

Si cette tendance se confirme, de nombreux petits projets d’IA pourraient être exclus du marché, les grands acteurs sécurisant des partenariats de données exclusifs. Les autres seraient alors potentiellement contraints de former et reformer leurs modèles sur des données générées par l’IA, ce qui entraînerait une baisse de la qualité des résultats et une moindre utilisation.

En fin de compte, il semble que les plateformes comme Reddit, Meta et X, qui bénéficient d’un flux constant de contributions des utilisateurs, aient une longueur d’avance dans cette course. Reste à voir comment la situation va évoluer dans les mois à venir.