Selon certaines informations , les éditeurs ayant choisi de ne pas participer à la formation en IA pourraient néanmoins voir leurs contenus utilisés par les outils de recherche Google . L' information aurait été révélée par un dirigeant de Google DeepMind lors de son témoignage dans le cadre de l' action antitrust intentée par l' entreprise contre le ministère américain de la Justice . Le PDG aurait souligné que les algorithmes d' IA de DeepMind n'exploitaient pas ce type de contenu. Le géant de l'internet basé à Mountain View aurait précisé qu'un processus différent , utilisant la norme web robots.txt.
Eli Collins, vice- président des produits de Google DeepMind , a vérifié dans un article que les directives concernant le respect des choix des éditeurs de renoncer à la formation en IA diffèrent pour les modèles d'IA de DeepMind et les produits de recherche de l'entreprise .
Selon un document présenté par une avocate du ministère de la Justice dans le cadre du procès antitrust , 80 milliards des 160 milliards de jetons utilisés pour entraîner les modèles d'IA de Google provenaient de contenus que les éditeurs avaient choisi de ne pas utiliser pour l' entraînement de l'IA . Collins aurait rétorqué qu'après qu'un éditeur ait choisi de ne pas suivre l' entraînement de l'IA , les modèles de DeepMind n'utilisent pas ce contenu.
Cependant, Collins a affirmé que le cas d' utilisation restait dans la recherche , lorsqu'Aguilar aurait demandé si le modèle d'IA Gemini pouvait utiliser le même contenu s'il était intégré à la recherche . Cela inclurait notamment les modèles Gemini qui pilotent le nouveau mode IA et les aperçus IA de Google .
Cela indique que les techniques conventionnelles de désinscription ne suffisent pas à empêcher Google d' utiliser le contenu des éditeurs . En juin 2023, le géant technologique a révisé sa politique de confidentialité pour y inclure une déclaration stipulant qu'il entraînera ses modèles linguistiques en utilisant toutes les données Internet accessibles au public . Dans ce contexte , tout site web dépourvu de paywall ou de pages d'inscription obligatoires limitant l' accès public est considéré comme une donnée Internet librement accessible .
L' objectif du litige antitrust en cours est d' établir le monopole de Google sur les marchés de la recherche et de l'intelligence artificielle . Le ministère de la Justice exhorte le juge fédéral Amit Mehta, chargé de l' affaire , à contraindre le géant de l' internet à vendre Google Chrome et à divulguer les données utilisées pour générer les résultats de recherche .