Vue normale

Reçu avant avant-hier
  • ✇Dans les algorithmes
  • L’IA, un nouvel internet… sans condition
    Tous les grands acteurs des technologies ont entamé leur mue. Tous se mettent à intégrer l’IA à leurs outils et plateformes, massivement. Les Big Tech se transforment en IA Tech. Et l’histoire du web, telle qu’on l’a connue, touche à sa fin, prédit Thomas Germain pour la BBC. Nous entrons dans « le web des machines », le web synthétique, le web artificiel où tous les contenus sont appelés à être générés en permanence, à la volée, en s’appuyant sur l’ensemble des contenus disponibles, sans que ce
     

L’IA, un nouvel internet… sans condition

10 juillet 2025 à 00:40

Tous les grands acteurs des technologies ont entamé leur mue. Tous se mettent à intégrer l’IA à leurs outils et plateformes, massivement. Les Big Tech se transforment en IA Tech. Et l’histoire du web, telle qu’on l’a connue, touche à sa fin, prédit Thomas Germain pour la BBC. Nous entrons dans « le web des machines », le web synthétique, le web artificiel où tous les contenus sont appelés à être générés en permanence, à la volée, en s’appuyant sur l’ensemble des contenus disponibles, sans que ceux-ci soient encore disponibles voire accessibles. Un second web vient se superposer au premier, le recouvrir… avec le risque de faire disparaître le web que nous avons connu, construit, façonné. 

Jusqu’à présent, le web reposait sur un marché simple, rappelle Germain. Les sites laissaient les moteurs de recherche indexer leurs contenus et les moteurs de recherche redirigeaient les internautes vers les sites web référencés. « On estime que 68 % de l’activité Internet commence sur les moteurs de recherche et qu’environ 90 % des recherches se font sur Google. Si Internet est un jardin, Google est le soleil qui fait pousser les fleurs »

Ce système a été celui que nous avons connu depuis les origines du web. L’intégration de l’IA, pour le meilleur ou pour le pire, promet néanmoins de transformer radicalement cette expérience. Confronté à une nette dégradation des résultats de la recherche, notamment due à l’affiliation publicitaire et au spam, le PDG de Google, Sundar Pichai, a promis une « réinvention totale de la recherche » en lançant son nouveau « mode IA ». Contrairement aux aperçus IA disponibles jusqu’à présent, le mode IA va remplacer complètement les résultats de recherche traditionnels. Désormais, un chatbot va créer un article pour répondre aux questions. En cours de déploiement et facultatif pour l’instant, à terme, il sera « l’avenir de la recherche Google »

Un détournement massif de trafic

Les critiques ont montré que, les aperçus IA généraient déjà beaucoup moins de trafic vers le reste d’internet (de 30 % à 70 %, selon le type de recherche. Des analyses ont également révélé qu’environ 60 % des recherches Google depuis le lancement des aperçus sont désormais « zéro clic », se terminant sans que l’utilisateur ne clique sur un seul lien – voir les études respectives de SeerInteractive, Semrush, Bain et Sparktoro), et beaucoup craignent que le mode IA ne renforce encore cette tendance. Si cela se concrétise, cela pourrait anéantir le modèle économique du web tel que nous le connaissons. Google estime que ces inquiétudes sont exagérées, affirmant que le mode IA « rendra le web plus sain et plus utile ». L’IA dirigerait les utilisateurs vers « une plus grande diversité de sites web » et le trafic serait de « meilleure qualité » car les utilisateurs passent plus de temps sur les liens sur lesquels ils cliquent. Mais l’entreprise n’a fourni aucune donnée pour étayer ces affirmations. 

Google et ses détracteurs s’accordent cependant sur un point : internet est sur le point de prendre une toute autre tournure. C’est le principe même du web qui est menacé, celui où chacun peut créer un site librement accessible et référencé. 

L’article de la BBC remarque, très pertinemment, que cette menace de la mort du web a déjà été faite. En 2010, Wired annonçait « la mort du web ». A l’époque, l’essor des smartphones, des applications et des réseaux sociaux avaient déjà suscité des prédictions apocalyptiques qui ne se sont pas réalisées. Cela n’empêche pas les experts d’être soucieux face aux transformations qui s’annoncent. Pour les critiques, certes, les aperçus IA et le mode IA incluent tous deux des liens vers des sources, mais comme l’IA vous donne la réponse que vous cherchez, cliquer sur ceux-ci devient superflu. C’est comme demander un livre à un bibliothécaire et qu’il vous en parle plutôt que de vous le fournir, compare un expert. 

La chute du nombre de visiteurs annoncée pourrait faire la différence entre une entreprise d’édition viable… et la faillite. Pour beaucoup d’éditeurs, ce changement sera dramatique. Nombre d’entreprises constatent que Google affiche leurs liens plus souvent, mais que ceux-ci sont moins cliqués. Selon le cabinet d’analyse de données BrightEdge, les aperçus IA ont entraîné une augmentation de 49 % des impressions sur le web, mais les clics ont chuté de 30 %, car les utilisateurs obtiennent leurs réponses directement de l’IA. « Google a écrit les règles, créé le jeu et récompensé les joueurs », explique l’une des expertes interrogée par la BBC. « Maintenant, ils se retournent et disent : « C’est mon infrastructure, et le web se trouve juste dedans ». »

Demis Hassabis, directeur de Google DeepMind, le laboratoire de recherche en IA de l’entreprise, a déclaré qu’il pensait que demain, les éditeurs alimenteraient directement les modèles d’IA avec leurs contenus, sans plus avoir à se donner la peine de publier des informations sur des sites web accessibles aux humains. Mais, pour Matthew Prince, directeur général de Cloudflare, le problème dans ce web automatisé, c’est que « les robots ne cliquent pas sur les publicités ». « Si l’IA devient l’audience, comment les créateurs seront-ils rémunérés ? » La rémunération directe existe déjà, comme le montrent les licences de contenus que les plus grands éditeurs de presse négocient avec des systèmes d’IA pour qu’elles s’entraînent et exploitent leurs contenus, mais ces revenus là ne compenseront pas la chute d’audience à venir. Et ce modèle ne passera certainement pas l’échelle d’une rétribution généralisée. 

Si gagner de l’argent sur le web devient plus difficile, il est probable que nombre d’acteurs se tournent vers les réseaux sociaux pour tenter de compenser les pertes de revenus. Mais là aussi, les caprices algorithmiques et le développement de l’IA générative risquent de ne pas suffire à compenser les pertes. 

Un nouvel internet sans condition

Pour Google, les réactions aux aperçus IA laissent présager que le mode IA sera extrêmement populaire. « À mesure que les utilisateurs utilisent AI Overviews, nous constatons qu’ils sont plus satisfaits de leurs résultats et effectuent des recherches plus souvent », a déclaré Pichai lors de la conférence des développeurs de Google. Autrement dit, Google affirme que cela améliore la recherche et que c’est ce que veulent les utilisateurs. Mais pour Danielle Coffey, présidente de News/Media Alliance, un groupement professionnel représentant plus de 2 200 journalistes et médias, les réponses de l’IA vont remplacer les produits originaux : « les acteurs comme Google vont gagner de l’argent grâce à notre contenu et nous ne recevons rien en retour ». Le problème, c’est que Google n’a pas laissé beaucoup de choix aux éditeurs, comme le pointait Bloomberg. Soit Google vous indexe pour la recherche et peut utiliser les contenus pour ses IA, soit vous êtes désindexé des deux. La recherche est bien souvent l’une des premières utilisations de outils d’IA. Les inquiétudes sur les hallucinations, sur le renforcement des chambres d’échos dans les réponses que vont produire ces outils sont fortes (on parle même de « chambre de chat » pour évoquer la réverbération des mêmes idées et liens dans ces outils). Pour Cory Doctorow, « Google s’apprête à faire quelque chose qui va vraiment mettre les gens en colère »… et appelle les acteurs à capitaliser sur cette colère à venir. Matthew Prince de Cloudflare prône, lui, une intervention directe. Son projet est de faire en sorte que Cloudflare et un consortium d’éditeurs de toutes tailles bloquent collectivement les robots d’indexation IA, à moins que les entreprises technologiques ne paient pour le contenu. Il s’agit d’une tentative pour forcer la Silicon Valley à négocier. « Ma version très optimiste », explique Prince, « est celle où les humains obtiennent du contenu gratuitement et où les robots doivent payer une fortune pour l’obtenir ». Tim O’Reilly avait proposé l’année dernière quelque chose d’assez similaire : expliquant que les droits dérivés liés à l’exploitation des contenus par l’IA devraient donner lieu à rétribution – mais à nouveau, une rétribution qui restera par nature insuffisante, comme l’expliquait Frédéric Fillioux

Même constat pour le Washington Post, qui s’inquiète de l’effondrement de l’audience des sites d’actualité avec le déploiement des outils d’IA. « Le trafic de recherche organique vers ses sites web a diminué de 55 % entre avril 2022 et avril 2025, selon les données de Similarweb ». Dans la presse américaine, l’audience est en berne et les licenciements continuent.

Les erreurs seront dans la réponse

Pour la Technology Review, c’est la fin de la recherche par mots-clés et du tri des liens proposés. « Nous entrons dans l’ère de la recherche conversationnelle » dont la fonction même vise à « ignorer les liens », comme l’affirme Perplexity dans sa FAQ. La TR rappelle l’histoire de la recherche en ligne pour montrer que des annuaires aux moteurs de recherche, celle-ci a toujours proposé des améliorations, pour la rendre plus pertinente. Depuis 25 ans, Google domine la recherche en ligne et n’a cessé de s’améliorer pour fournir de meilleures réponses. Mais ce qui s’apprête à changer avec l’intégration de l’IA, c’est que les sources ne sont plus nécessairement accessibles et que les réponses sont générées à la volée, aucune n’étant identique à une autre. 

L’intégration de l’IA pose également la question de la fiabilité des réponses. L’IA de Google a par exemple expliqué que la Technology Review avait été mise en ligne en 2022… ce qui est bien sûr totalement faux, mais qu’en saurait une personne qui ne le sait pas ? Mais surtout, cet avenir génératif promet avant tout de fabriquer des réponses à la demande. Mat Honan de la TR donne un exemple : « Imaginons que je veuille voir une vidéo expliquant comment réparer un élément de mon vélo. La vidéo n’existe pas, mais l’information, elle, existe. La recherche générative assistée par l’IA pourrait théoriquement trouver cette information en ligne – dans un manuel d’utilisation caché sur le site web d’une entreprise, par exemple – et créer une vidéo pour me montrer exactement comment faire ce que je veux, tout comme elle pourrait me l’expliquer avec des mots aujourd’hui » – voire très mal nous l’expliquer. L’exemple permet de comprendre comment ce nouvel internet génératif pourrait se composer à la demande, quelque soit ses défaillances. 

Mêmes constats pour Matteo Wrong dans The Atlantic : avec la généralisation de l’IA, nous retournons dans un internet en mode bêta. Les services et produits numériques n’ont jamais été parfaits, rappelle-t-il, mais la généralisation de l’IA risque surtout d’amplifier les problèmes. Les chatbots sont très efficaces pour produire des textes convaincants, mais ils ne prennent pas de décisions en fonction de l’exactitude factuelle. Les erreurs sont en passe de devenir « une des caractéristiques de l’internet ». « La Silicon Valley mise l’avenir du web sur une technologie capable de dérailler de manière inattendue, de s’effondrer à la moindre tâche et d’être mal utilisée avec un minimum de frictions ». Les quelques réussites de l’IA n’ont que peu de rapport avec la façon dont de nombreuses personnes et entreprises comprennent et utilisent cette technologie, rappelle-t-il. Plutôt que des utilisations ciblées et prudentes, nombreux sont ceux qui utilisent l’IA générative pour toutes les tâches imaginables, encouragés par les géants de la tech. « Tout le monde utilise l’IA pour tout », titrait le New York Times. « C’est là que réside le problème : l’IA générative est une technologie suffisamment performante pour que les utilisateurs en deviennent dépendants, mais pas suffisamment fiable pour être véritablement fiable ». Nous allons vers un internet où chaque recherche, itinéraire, recommandation de restaurant, résumé d’événement, résumé de messagerie vocale et e-mail sera plus suspect qu’il n’est aujourd’hui. « Les erreurs d’aujourd’hui pourraient bien, demain, devenir la norme », rendant ses utilisateurs incapables de vérifier ses fonctionnements. Bienvenue dans « l’âge de la paranoïa », clame Wired.

Vers la publicité générative et au-delà !

Mais il n’y a pas que les « contenus » qui vont se recomposer, la publicité également. C’est ainsi qu’il faut entendre les déclarations de Mark Zuckerberg pour automatiser la création publicitaire, explique le Wall Street Journal. « La plateforme publicitaire de Meta propose déjà des outils d’IA capables de générer des variantes de publicités existantes et d’y apporter des modifications mineures avant de les diffuser aux utilisateurs sur Facebook et Instagram. L’entreprise souhaite désormais aider les marques à créer des concepts publicitaires de A à Z ». La publicité représente 97% du chiffre d’affaires de Meta, rappelle le journal (qui s’élève en 2024 à 164 milliards de dollars). Chez Meta les contenus génératifs produisent déjà ce qu’on attend d’eux. Meta a annoncé une augmentation de 8 % du temps passé sur Facebook et de 6 % du temps passé sur Instagram grâce aux contenus génératifs. 15 millions de publicités par mois sur les plateformes de Meta sont déjà générées automatiquement. « Grâce aux outils publicitaires développés par Meta, une marque pourrait demain fournir une image du produit qu’elle souhaite promouvoir, accompagnée d’un objectif budgétaire. L’IA créerait alors l’intégralité de la publicité, y compris les images, la vidéo et le texte. Le système déciderait ensuite quels utilisateurs Instagram et Facebook cibler et proposerait des suggestions en fonction du budget ». Selon la géolocalisation des utilisateurs, la publicité pourrait s’adapter en contexte, créant l’image d’une voiture circulant dans la neige ou sur une plage s’ils vivent en montagne ou au bord de la mer. « Dans un avenir proche, nous souhaitons que chaque entreprise puisse nous indiquer son objectif, comme vendre quelque chose ou acquérir un nouveau client, le montant qu’elle est prête à payer pour chaque résultat, et connecter son compte bancaire ; nous nous occuperons du reste », a déclaré Zuckerberg lors de l’assemblée générale annuelle des actionnaires de l’entreprise. 

Nilay Patel, le rédac chef de The Verge, parle de « créativité infinie ». C’est d’ailleurs la même idée que l’on retrouve dans les propos de Jensen Huang, le PDG de Nvidia, quand il promet de fabriquer les « usines à IA » qui généreront le web demain. Si toutes les grandes entreprises et les agences de publicité ne sont pas ravies de la proposition – qui leur est fondamentalement hostile, puisqu’elle vient directement les concurrencer -, d’autres s’y engouffrent déjà, à l’image d’Unilever qui explique sur Adweek que l’IA divise par deux ses budgets publicitaires grâce à son partenariat avec Nvidia. « Unilever a déclaré avoir réalisé jusqu’à 55 % d’économies sur ses campagnes IA, d’avoir réduit les délais de production de 65% tout en doublant le taux de clic et en retenant l’attention des consommateurs trois fois plus longtemps »

L’idée finalement très partagée par tous les géants de l’IA, c’est bien d’annoncer le remplacement du web que l’on connaît par un autre. Une sous-couche générative qu’il maîtriseraient, capable de produire un web à leur profit, qu’ils auraient avalé et digéré. 

Vers des revenus génératifs ?

Nilay Patel était l’année dernière l’invité du podcast d’Ezra Klein pour le New York Times qui se demandait si cette transformation du web allait le détruire ou le sauver. Dans cette discussion parfois un peu décousue, Klein rappelle que l’IA se développe d’abord là où les produits n’ont pas besoin d’être très performants. Des tâches de codage de bas niveau aux devoirs des étudiants, il est également très utilisé pour la diffusion de contenus médiocres sur l’internet. Beaucoup des contenus d’internet ne sont pas très performants, rappelle-t-il. Du spam au marketing en passant par les outils de recommandations des réseaux sociaux, internet est surtout un ensemble de contenus à indexer pour délivrer de la publicité elle-même bien peu performante. Et pour remplir cet « internet de vide », l’IA est assez efficace. Les plateformes sont désormais inondées de contenus sans intérêts, de spams, de slops, de contenus de remplissage à la recherche de revenus. Et Klein de se demander que se passera-t-il lorsque ces flots de contenu IA s’amélioreront ? Que se passera-t-il lorsque nous ne saurons plus s’il y a quelqu’un à l’autre bout du fil de ce que nous voyons, lisons ou entendons ? Y aura-t-il encore quelqu’un d’ailleurs, où n’aurons nous accès plus qu’à des contenus génératifs ?

Pour Patel, pour l’instant, l’IA inonde le web de contenus qui le détruisent. En augmentant à l’infini l’offre de contenu, le système s’apprête à s’effondrer sur lui-même : « Les algorithmes de recommandation s’effondrent, notre capacité à distinguer le vrai du faux s’effondre également, et, plus important encore, les modèles économiques d’Internet s’effondrent complètement ». Les contenus n’arrivent plus à trouver leurs publics, et inversement. L’exemple éclairant pour illustrer cela, c’est celui d’Amazon. Face à l’afflux de livres générés par l’IA, la seule réponse d’Amazon a été de limiter le nombre de livres déposables sur la plateforme à trois par jour. C’est une réponse parfaitement absurde qui montre que nos systèmes ne sont plus conçus pour organiser leurs publics et leur adresser les bons contenus. C’est à peine s’ils savent restreindre le flot

Avec l’IA générative, l’offre ne va pas cesser d’augmenter. Elle dépasse déjà ce que nous sommes capables d’absorber individuellement. Pas étonnant alors que toutes les plateformes se transforment de la même manière en devenant des plateformes de téléachats ne proposant plus rien d’autre que de courtes vidéos.

« Toutes les plateformes tendent vers le même objectif, puisqu’elles sont soumises aux mêmes pressions économiques ». Le produit des plateformes c’est la pub. Elles mêmes ne vendent rien. Ce sont des régies publicitaires que l’IA promet d’optimiser depuis les données personnelles collectées. Et demain, nos boîtes mails seront submergées de propositions marketing générées par l’IA… Pour Patel, les géants du net ont arrêté de faire leur travail. Aucun d’entre eux ne nous signale plus que les contenus qu’ils nous proposent sont des publicités. Google Actualités référence des articles écrits par des IA sans que cela ne soit un critère discriminant pour les référenceurs de Google, expliquait 404 média (voir également l’enquête de Next sur ce sujet qui montre que les sites générés par IA se démultiplient, « pour faire du fric »). Pour toute la chaîne, les revenus semblent être devenus le seul objectif.

Et Klein de suggérer que ces contenus vont certainement s’améliorer, comme la génération d’image et de texte n’a cessé de s’améliorer. Il est probable que l’article moyen d’ici trois ans sera meilleur que le contenu moyen produit par un humain aujourd’hui. « Je me suis vraiment rendu compte que je ne savais pas comment répondre à la question : est-ce un meilleur ou un pire internet qui s’annonce ? Pour répondre presque avec le point de vue de Google, est-ce important finalement que le contenu soit généré par un humain ou une IA, ou est-ce une sorte de sentimentalisme nostalgique de ma part ? » 

Il y en a certainement, répond Patel. Il n’y a certainement pas besoin d’aller sur une page web pour savoir combien de temps il faut pour cuire un œuf, l’IA de Google peut vous le dire… Mais, c’est oublier que cette IA générative ne sera pas plus neutre que les résultats de Google aujourd’hui. Elle sera elle aussi façonnée par la publicité. L’enjeu demain ne sera plus d’être dans les 3 premiers résultats d’une page de recherche, mais d’être citée par les réponses construites par les modèles de langages. « Votre client le plus important, désormais, c’est l’IA ! », explique le journaliste Scott Mulligan pour la Technology Review. « L’objectif ultime n’est pas seulement de comprendre comment votre marque est perçue par l’IA, mais de modifier cette perception ». Or, les biais marketing des LLM sont déjà nombreux. Une étude montre que les marques internationales sont souvent perçues comme étant de meilleures qualités que les marques locales. Si vous demandez à un chatbot de recommander des cadeaux aux personnes vivant dans des pays à revenu élevé, il suggérera des articles de marque de luxe, tandis que si vous lui demandez quoi offrir aux personnes vivant dans des pays à faible revenu, il recommandera des marques plus cheap.

L’IA s’annonce comme un nouveau public des marques, à dompter. Et la perception d’une marque par les IA aura certainement des impacts sur leurs résultats financiers. Le marketing a assurément trouvé un nouveau produit à vendre ! Les entreprises vont adorer !

Pour Klein, l’internet actuel est certes très affaibli, pollué de spams et de contenus sans intérêts. Google, Meta et Amazon n’ont pas créé un internet que les gens apprécient, mais bien plus un internet que les gens utilisent à leur profit. L’IA propose certainement non pas un internet que les gens vont plus apprécier, bien au contraire, mais un internet qui profite aux grands acteurs plutôt qu’aux utilisateurs. Pour Patel, il est possible qu’un internet sans IA subsiste, pour autant qu’il parvienne à se financer.

Pourra-t-on encore défendre le web que nous voulons ?

Les acteurs oligopolistiques du numérique devenus les acteurs oligopolistiques de l’IA semblent s’aligner pour transformer le web à leur seul profit, et c’est assurément la puissance (et surtout la puissance financière) qu’ils ont acquis qui le leur permet. La transformation du web en « web des machines » est assurément la conséquence de « notre longue dépossession », qu’évoquait Ben Tarnoff dans son livre, Internet for the People.

La promesse du web synthétique est là pour rester. Et la perspective qui se dessine, c’est que nous avons à nous y adapter, sans discussion. Ce n’est pas une situation très stimulante, bien au contraire. A mesure que les géants de l’IA conquièrent le numérique, c’est nos marges de manœuvres qui se réduisent. Ce sont elles que la régulation devrait chercher à réouvrir, dès à présent. Par exemple en mobilisant très tôt le droit à la concurrence et à l’interopérabilité, pour forcer les acteurs à proposer aux utilisateurs d’utiliser les IA de leurs choix ou en leur permettant, très facilement, de refuser leur implémentations dans les outils qu’ils utilisent, que ce soit leurs OS comme les services qu’ils utilisent. Bref, mobiliser le droit à la concurrence et à l’interopérabilité au plus tôt. Afin que défendre le web que nous voulons ne s’avère pas plus difficile demain qu’il n’était aujourd’hui.

Hubert Guillaud

Cet édito a été originellement publié dans la première lettre d’information de CaféIA le 27 juin 2025.

  • ✇Dans les algorithmes
  • L’IA, un nouvel internet… sans condition
    Tous les grands acteurs des technologies ont entamé leur mue. Tous se mettent à intégrer l’IA à leurs outils et plateformes, massivement. Les Big Tech se transforment en IA Tech. Et l’histoire du web, telle qu’on l’a connue, touche à sa fin, prédit Thomas Germain pour la BBC. Nous entrons dans « le web des machines », le web synthétique, le web artificiel où tous les contenus sont appelés à être générés en permanence, à la volée, en s’appuyant sur l’ensemble des contenus disponibles, sans que ce
     

L’IA, un nouvel internet… sans condition

10 juillet 2025 à 00:40

Tous les grands acteurs des technologies ont entamé leur mue. Tous se mettent à intégrer l’IA à leurs outils et plateformes, massivement. Les Big Tech se transforment en IA Tech. Et l’histoire du web, telle qu’on l’a connue, touche à sa fin, prédit Thomas Germain pour la BBC. Nous entrons dans « le web des machines », le web synthétique, le web artificiel où tous les contenus sont appelés à être générés en permanence, à la volée, en s’appuyant sur l’ensemble des contenus disponibles, sans que ceux-ci soient encore disponibles voire accessibles. Un second web vient se superposer au premier, le recouvrir… avec le risque de faire disparaître le web que nous avons connu, construit, façonné. 

Jusqu’à présent, le web reposait sur un marché simple, rappelle Germain. Les sites laissaient les moteurs de recherche indexer leurs contenus et les moteurs de recherche redirigeaient les internautes vers les sites web référencés. « On estime que 68 % de l’activité Internet commence sur les moteurs de recherche et qu’environ 90 % des recherches se font sur Google. Si Internet est un jardin, Google est le soleil qui fait pousser les fleurs »

Ce système a été celui que nous avons connu depuis les origines du web. L’intégration de l’IA, pour le meilleur ou pour le pire, promet néanmoins de transformer radicalement cette expérience. Confronté à une nette dégradation des résultats de la recherche, notamment due à l’affiliation publicitaire et au spam, le PDG de Google, Sundar Pichai, a promis une « réinvention totale de la recherche » en lançant son nouveau « mode IA ». Contrairement aux aperçus IA disponibles jusqu’à présent, le mode IA va remplacer complètement les résultats de recherche traditionnels. Désormais, un chatbot va créer un article pour répondre aux questions. En cours de déploiement et facultatif pour l’instant, à terme, il sera « l’avenir de la recherche Google »

Un détournement massif de trafic

Les critiques ont montré que, les aperçus IA généraient déjà beaucoup moins de trafic vers le reste d’internet (de 30 % à 70 %, selon le type de recherche. Des analyses ont également révélé qu’environ 60 % des recherches Google depuis le lancement des aperçus sont désormais « zéro clic », se terminant sans que l’utilisateur ne clique sur un seul lien – voir les études respectives de SeerInteractive, Semrush, Bain et Sparktoro), et beaucoup craignent que le mode IA ne renforce encore cette tendance. Si cela se concrétise, cela pourrait anéantir le modèle économique du web tel que nous le connaissons. Google estime que ces inquiétudes sont exagérées, affirmant que le mode IA « rendra le web plus sain et plus utile ». L’IA dirigerait les utilisateurs vers « une plus grande diversité de sites web » et le trafic serait de « meilleure qualité » car les utilisateurs passent plus de temps sur les liens sur lesquels ils cliquent. Mais l’entreprise n’a fourni aucune donnée pour étayer ces affirmations. 

Google et ses détracteurs s’accordent cependant sur un point : internet est sur le point de prendre une toute autre tournure. C’est le principe même du web qui est menacé, celui où chacun peut créer un site librement accessible et référencé. 

L’article de la BBC remarque, très pertinemment, que cette menace de la mort du web a déjà été faite. En 2010, Wired annonçait « la mort du web ». A l’époque, l’essor des smartphones, des applications et des réseaux sociaux avaient déjà suscité des prédictions apocalyptiques qui ne se sont pas réalisées. Cela n’empêche pas les experts d’être soucieux face aux transformations qui s’annoncent. Pour les critiques, certes, les aperçus IA et le mode IA incluent tous deux des liens vers des sources, mais comme l’IA vous donne la réponse que vous cherchez, cliquer sur ceux-ci devient superflu. C’est comme demander un livre à un bibliothécaire et qu’il vous en parle plutôt que de vous le fournir, compare un expert. 

La chute du nombre de visiteurs annoncée pourrait faire la différence entre une entreprise d’édition viable… et la faillite. Pour beaucoup d’éditeurs, ce changement sera dramatique. Nombre d’entreprises constatent que Google affiche leurs liens plus souvent, mais que ceux-ci sont moins cliqués. Selon le cabinet d’analyse de données BrightEdge, les aperçus IA ont entraîné une augmentation de 49 % des impressions sur le web, mais les clics ont chuté de 30 %, car les utilisateurs obtiennent leurs réponses directement de l’IA. « Google a écrit les règles, créé le jeu et récompensé les joueurs », explique l’une des expertes interrogée par la BBC. « Maintenant, ils se retournent et disent : « C’est mon infrastructure, et le web se trouve juste dedans ». »

Demis Hassabis, directeur de Google DeepMind, le laboratoire de recherche en IA de l’entreprise, a déclaré qu’il pensait que demain, les éditeurs alimenteraient directement les modèles d’IA avec leurs contenus, sans plus avoir à se donner la peine de publier des informations sur des sites web accessibles aux humains. Mais, pour Matthew Prince, directeur général de Cloudflare, le problème dans ce web automatisé, c’est que « les robots ne cliquent pas sur les publicités ». « Si l’IA devient l’audience, comment les créateurs seront-ils rémunérés ? » La rémunération directe existe déjà, comme le montrent les licences de contenus que les plus grands éditeurs de presse négocient avec des systèmes d’IA pour qu’elles s’entraînent et exploitent leurs contenus, mais ces revenus là ne compenseront pas la chute d’audience à venir. Et ce modèle ne passera certainement pas l’échelle d’une rétribution généralisée. 

Si gagner de l’argent sur le web devient plus difficile, il est probable que nombre d’acteurs se tournent vers les réseaux sociaux pour tenter de compenser les pertes de revenus. Mais là aussi, les caprices algorithmiques et le développement de l’IA générative risquent de ne pas suffire à compenser les pertes. 

Un nouvel internet sans condition

Pour Google, les réactions aux aperçus IA laissent présager que le mode IA sera extrêmement populaire. « À mesure que les utilisateurs utilisent AI Overviews, nous constatons qu’ils sont plus satisfaits de leurs résultats et effectuent des recherches plus souvent », a déclaré Pichai lors de la conférence des développeurs de Google. Autrement dit, Google affirme que cela améliore la recherche et que c’est ce que veulent les utilisateurs. Mais pour Danielle Coffey, présidente de News/Media Alliance, un groupement professionnel représentant plus de 2 200 journalistes et médias, les réponses de l’IA vont remplacer les produits originaux : « les acteurs comme Google vont gagner de l’argent grâce à notre contenu et nous ne recevons rien en retour ». Le problème, c’est que Google n’a pas laissé beaucoup de choix aux éditeurs, comme le pointait Bloomberg. Soit Google vous indexe pour la recherche et peut utiliser les contenus pour ses IA, soit vous êtes désindexé des deux. La recherche est bien souvent l’une des premières utilisations de outils d’IA. Les inquiétudes sur les hallucinations, sur le renforcement des chambres d’échos dans les réponses que vont produire ces outils sont fortes (on parle même de « chambre de chat » pour évoquer la réverbération des mêmes idées et liens dans ces outils). Pour Cory Doctorow, « Google s’apprête à faire quelque chose qui va vraiment mettre les gens en colère »… et appelle les acteurs à capitaliser sur cette colère à venir. Matthew Prince de Cloudflare prône, lui, une intervention directe. Son projet est de faire en sorte que Cloudflare et un consortium d’éditeurs de toutes tailles bloquent collectivement les robots d’indexation IA, à moins que les entreprises technologiques ne paient pour le contenu. Il s’agit d’une tentative pour forcer la Silicon Valley à négocier. « Ma version très optimiste », explique Prince, « est celle où les humains obtiennent du contenu gratuitement et où les robots doivent payer une fortune pour l’obtenir ». Tim O’Reilly avait proposé l’année dernière quelque chose d’assez similaire : expliquant que les droits dérivés liés à l’exploitation des contenus par l’IA devraient donner lieu à rétribution – mais à nouveau, une rétribution qui restera par nature insuffisante, comme l’expliquait Frédéric Fillioux

Même constat pour le Washington Post, qui s’inquiète de l’effondrement de l’audience des sites d’actualité avec le déploiement des outils d’IA. « Le trafic de recherche organique vers ses sites web a diminué de 55 % entre avril 2022 et avril 2025, selon les données de Similarweb ». Dans la presse américaine, l’audience est en berne et les licenciements continuent.

Les erreurs seront dans la réponse

Pour la Technology Review, c’est la fin de la recherche par mots-clés et du tri des liens proposés. « Nous entrons dans l’ère de la recherche conversationnelle » dont la fonction même vise à « ignorer les liens », comme l’affirme Perplexity dans sa FAQ. La TR rappelle l’histoire de la recherche en ligne pour montrer que des annuaires aux moteurs de recherche, celle-ci a toujours proposé des améliorations, pour la rendre plus pertinente. Depuis 25 ans, Google domine la recherche en ligne et n’a cessé de s’améliorer pour fournir de meilleures réponses. Mais ce qui s’apprête à changer avec l’intégration de l’IA, c’est que les sources ne sont plus nécessairement accessibles et que les réponses sont générées à la volée, aucune n’étant identique à une autre. 

L’intégration de l’IA pose également la question de la fiabilité des réponses. L’IA de Google a par exemple expliqué que la Technology Review avait été mise en ligne en 2022… ce qui est bien sûr totalement faux, mais qu’en saurait une personne qui ne le sait pas ? Mais surtout, cet avenir génératif promet avant tout de fabriquer des réponses à la demande. Mat Honan de la TR donne un exemple : « Imaginons que je veuille voir une vidéo expliquant comment réparer un élément de mon vélo. La vidéo n’existe pas, mais l’information, elle, existe. La recherche générative assistée par l’IA pourrait théoriquement trouver cette information en ligne – dans un manuel d’utilisation caché sur le site web d’une entreprise, par exemple – et créer une vidéo pour me montrer exactement comment faire ce que je veux, tout comme elle pourrait me l’expliquer avec des mots aujourd’hui » – voire très mal nous l’expliquer. L’exemple permet de comprendre comment ce nouvel internet génératif pourrait se composer à la demande, quelque soit ses défaillances. 

Mêmes constats pour Matteo Wrong dans The Atlantic : avec la généralisation de l’IA, nous retournons dans un internet en mode bêta. Les services et produits numériques n’ont jamais été parfaits, rappelle-t-il, mais la généralisation de l’IA risque surtout d’amplifier les problèmes. Les chatbots sont très efficaces pour produire des textes convaincants, mais ils ne prennent pas de décisions en fonction de l’exactitude factuelle. Les erreurs sont en passe de devenir « une des caractéristiques de l’internet ». « La Silicon Valley mise l’avenir du web sur une technologie capable de dérailler de manière inattendue, de s’effondrer à la moindre tâche et d’être mal utilisée avec un minimum de frictions ». Les quelques réussites de l’IA n’ont que peu de rapport avec la façon dont de nombreuses personnes et entreprises comprennent et utilisent cette technologie, rappelle-t-il. Plutôt que des utilisations ciblées et prudentes, nombreux sont ceux qui utilisent l’IA générative pour toutes les tâches imaginables, encouragés par les géants de la tech. « Tout le monde utilise l’IA pour tout », titrait le New York Times. « C’est là que réside le problème : l’IA générative est une technologie suffisamment performante pour que les utilisateurs en deviennent dépendants, mais pas suffisamment fiable pour être véritablement fiable ». Nous allons vers un internet où chaque recherche, itinéraire, recommandation de restaurant, résumé d’événement, résumé de messagerie vocale et e-mail sera plus suspect qu’il n’est aujourd’hui. « Les erreurs d’aujourd’hui pourraient bien, demain, devenir la norme », rendant ses utilisateurs incapables de vérifier ses fonctionnements. Bienvenue dans « l’âge de la paranoïa », clame Wired.

Vers la publicité générative et au-delà !

Mais il n’y a pas que les « contenus » qui vont se recomposer, la publicité également. C’est ainsi qu’il faut entendre les déclarations de Mark Zuckerberg pour automatiser la création publicitaire, explique le Wall Street Journal. « La plateforme publicitaire de Meta propose déjà des outils d’IA capables de générer des variantes de publicités existantes et d’y apporter des modifications mineures avant de les diffuser aux utilisateurs sur Facebook et Instagram. L’entreprise souhaite désormais aider les marques à créer des concepts publicitaires de A à Z ». La publicité représente 97% du chiffre d’affaires de Meta, rappelle le journal (qui s’élève en 2024 à 164 milliards de dollars). Chez Meta les contenus génératifs produisent déjà ce qu’on attend d’eux. Meta a annoncé une augmentation de 8 % du temps passé sur Facebook et de 6 % du temps passé sur Instagram grâce aux contenus génératifs. 15 millions de publicités par mois sur les plateformes de Meta sont déjà générées automatiquement. « Grâce aux outils publicitaires développés par Meta, une marque pourrait demain fournir une image du produit qu’elle souhaite promouvoir, accompagnée d’un objectif budgétaire. L’IA créerait alors l’intégralité de la publicité, y compris les images, la vidéo et le texte. Le système déciderait ensuite quels utilisateurs Instagram et Facebook cibler et proposerait des suggestions en fonction du budget ». Selon la géolocalisation des utilisateurs, la publicité pourrait s’adapter en contexte, créant l’image d’une voiture circulant dans la neige ou sur une plage s’ils vivent en montagne ou au bord de la mer. « Dans un avenir proche, nous souhaitons que chaque entreprise puisse nous indiquer son objectif, comme vendre quelque chose ou acquérir un nouveau client, le montant qu’elle est prête à payer pour chaque résultat, et connecter son compte bancaire ; nous nous occuperons du reste », a déclaré Zuckerberg lors de l’assemblée générale annuelle des actionnaires de l’entreprise. 

Nilay Patel, le rédac chef de The Verge, parle de « créativité infinie ». C’est d’ailleurs la même idée que l’on retrouve dans les propos de Jensen Huang, le PDG de Nvidia, quand il promet de fabriquer les « usines à IA » qui généreront le web demain. Si toutes les grandes entreprises et les agences de publicité ne sont pas ravies de la proposition – qui leur est fondamentalement hostile, puisqu’elle vient directement les concurrencer -, d’autres s’y engouffrent déjà, à l’image d’Unilever qui explique sur Adweek que l’IA divise par deux ses budgets publicitaires grâce à son partenariat avec Nvidia. « Unilever a déclaré avoir réalisé jusqu’à 55 % d’économies sur ses campagnes IA, d’avoir réduit les délais de production de 65% tout en doublant le taux de clic et en retenant l’attention des consommateurs trois fois plus longtemps »

L’idée finalement très partagée par tous les géants de l’IA, c’est bien d’annoncer le remplacement du web que l’on connaît par un autre. Une sous-couche générative qu’il maîtriseraient, capable de produire un web à leur profit, qu’ils auraient avalé et digéré. 

Vers des revenus génératifs ?

Nilay Patel était l’année dernière l’invité du podcast d’Ezra Klein pour le New York Times qui se demandait si cette transformation du web allait le détruire ou le sauver. Dans cette discussion parfois un peu décousue, Klein rappelle que l’IA se développe d’abord là où les produits n’ont pas besoin d’être très performants. Des tâches de codage de bas niveau aux devoirs des étudiants, il est également très utilisé pour la diffusion de contenus médiocres sur l’internet. Beaucoup des contenus d’internet ne sont pas très performants, rappelle-t-il. Du spam au marketing en passant par les outils de recommandations des réseaux sociaux, internet est surtout un ensemble de contenus à indexer pour délivrer de la publicité elle-même bien peu performante. Et pour remplir cet « internet de vide », l’IA est assez efficace. Les plateformes sont désormais inondées de contenus sans intérêts, de spams, de slops, de contenus de remplissage à la recherche de revenus. Et Klein de se demander que se passera-t-il lorsque ces flots de contenu IA s’amélioreront ? Que se passera-t-il lorsque nous ne saurons plus s’il y a quelqu’un à l’autre bout du fil de ce que nous voyons, lisons ou entendons ? Y aura-t-il encore quelqu’un d’ailleurs, où n’aurons nous accès plus qu’à des contenus génératifs ?

Pour Patel, pour l’instant, l’IA inonde le web de contenus qui le détruisent. En augmentant à l’infini l’offre de contenu, le système s’apprête à s’effondrer sur lui-même : « Les algorithmes de recommandation s’effondrent, notre capacité à distinguer le vrai du faux s’effondre également, et, plus important encore, les modèles économiques d’Internet s’effondrent complètement ». Les contenus n’arrivent plus à trouver leurs publics, et inversement. L’exemple éclairant pour illustrer cela, c’est celui d’Amazon. Face à l’afflux de livres générés par l’IA, la seule réponse d’Amazon a été de limiter le nombre de livres déposables sur la plateforme à trois par jour. C’est une réponse parfaitement absurde qui montre que nos systèmes ne sont plus conçus pour organiser leurs publics et leur adresser les bons contenus. C’est à peine s’ils savent restreindre le flot

Avec l’IA générative, l’offre ne va pas cesser d’augmenter. Elle dépasse déjà ce que nous sommes capables d’absorber individuellement. Pas étonnant alors que toutes les plateformes se transforment de la même manière en devenant des plateformes de téléachats ne proposant plus rien d’autre que de courtes vidéos.

« Toutes les plateformes tendent vers le même objectif, puisqu’elles sont soumises aux mêmes pressions économiques ». Le produit des plateformes c’est la pub. Elles mêmes ne vendent rien. Ce sont des régies publicitaires que l’IA promet d’optimiser depuis les données personnelles collectées. Et demain, nos boîtes mails seront submergées de propositions marketing générées par l’IA… Pour Patel, les géants du net ont arrêté de faire leur travail. Aucun d’entre eux ne nous signale plus que les contenus qu’ils nous proposent sont des publicités. Google Actualités référence des articles écrits par des IA sans que cela ne soit un critère discriminant pour les référenceurs de Google, expliquait 404 média (voir également l’enquête de Next sur ce sujet qui montre que les sites générés par IA se démultiplient, « pour faire du fric »). Pour toute la chaîne, les revenus semblent être devenus le seul objectif.

Et Klein de suggérer que ces contenus vont certainement s’améliorer, comme la génération d’image et de texte n’a cessé de s’améliorer. Il est probable que l’article moyen d’ici trois ans sera meilleur que le contenu moyen produit par un humain aujourd’hui. « Je me suis vraiment rendu compte que je ne savais pas comment répondre à la question : est-ce un meilleur ou un pire internet qui s’annonce ? Pour répondre presque avec le point de vue de Google, est-ce important finalement que le contenu soit généré par un humain ou une IA, ou est-ce une sorte de sentimentalisme nostalgique de ma part ? » 

Il y en a certainement, répond Patel. Il n’y a certainement pas besoin d’aller sur une page web pour savoir combien de temps il faut pour cuire un œuf, l’IA de Google peut vous le dire… Mais, c’est oublier que cette IA générative ne sera pas plus neutre que les résultats de Google aujourd’hui. Elle sera elle aussi façonnée par la publicité. L’enjeu demain ne sera plus d’être dans les 3 premiers résultats d’une page de recherche, mais d’être citée par les réponses construites par les modèles de langages. « Votre client le plus important, désormais, c’est l’IA ! », explique le journaliste Scott Mulligan pour la Technology Review. « L’objectif ultime n’est pas seulement de comprendre comment votre marque est perçue par l’IA, mais de modifier cette perception ». Or, les biais marketing des LLM sont déjà nombreux. Une étude montre que les marques internationales sont souvent perçues comme étant de meilleures qualités que les marques locales. Si vous demandez à un chatbot de recommander des cadeaux aux personnes vivant dans des pays à revenu élevé, il suggérera des articles de marque de luxe, tandis que si vous lui demandez quoi offrir aux personnes vivant dans des pays à faible revenu, il recommandera des marques plus cheap.

L’IA s’annonce comme un nouveau public des marques, à dompter. Et la perception d’une marque par les IA aura certainement des impacts sur leurs résultats financiers. Le marketing a assurément trouvé un nouveau produit à vendre ! Les entreprises vont adorer !

Pour Klein, l’internet actuel est certes très affaibli, pollué de spams et de contenus sans intérêts. Google, Meta et Amazon n’ont pas créé un internet que les gens apprécient, mais bien plus un internet que les gens utilisent à leur profit. L’IA propose certainement non pas un internet que les gens vont plus apprécier, bien au contraire, mais un internet qui profite aux grands acteurs plutôt qu’aux utilisateurs. Pour Patel, il est possible qu’un internet sans IA subsiste, pour autant qu’il parvienne à se financer.

Pourra-t-on encore défendre le web que nous voulons ?

Les acteurs oligopolistiques du numérique devenus les acteurs oligopolistiques de l’IA semblent s’aligner pour transformer le web à leur seul profit, et c’est assurément la puissance (et surtout la puissance financière) qu’ils ont acquis qui le leur permet. La transformation du web en « web des machines » est assurément la conséquence de « notre longue dépossession », qu’évoquait Ben Tarnoff dans son livre, Internet for the People.

La promesse du web synthétique est là pour rester. Et la perspective qui se dessine, c’est que nous avons à nous y adapter, sans discussion. Ce n’est pas une situation très stimulante, bien au contraire. A mesure que les géants de l’IA conquièrent le numérique, c’est nos marges de manœuvres qui se réduisent. Ce sont elles que la régulation devrait chercher à réouvrir, dès à présent. Par exemple en mobilisant très tôt le droit à la concurrence et à l’interopérabilité, pour forcer les acteurs à proposer aux utilisateurs d’utiliser les IA de leurs choix ou en leur permettant, très facilement, de refuser leur implémentations dans les outils qu’ils utilisent, que ce soit leurs OS comme les services qu’ils utilisent. Bref, mobiliser le droit à la concurrence et à l’interopérabilité au plus tôt. Afin que défendre le web que nous voulons ne s’avère pas plus difficile demain qu’il n’était aujourd’hui.

Hubert Guillaud

Cet édito a été originellement publié dans la première lettre d’information de CaféIA le 27 juin 2025.

  • ✇Dans les algorithmes
  • Qui est l’utilisateur des LLM ?
    Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit  Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette comp
     

Qui est l’utilisateur des LLM ?

10 juin 2025 à 00:24

Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit  Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette compréhension pour les améliorer, est pourtant essentiel, comme l’expliquait le PDG d’Anthropic. Anthropic a fait des efforts en ce sens, explique le juriste en identifiant des caractéristiques lui permettant de mieux cartographier son modèle. Meta, la société mère de Facebook, a publié des versions toujours plus sophistiquées de son grand modèle linguistique, Llama, avec des paramètres librement accessibles (on parle de “poids ouverts” permettant d’ajuster les paramètres des modèles). Transluce, un laboratoire de recherche à but non lucratif axé sur la compréhension des systèmes d’IA, a développé une méthode permettant de générer des descriptions automatisées des mécanismes de Llama 3.1. Celles-ci peuvent être explorées à l’aide d’un outil d’observabilité qui montre la nature du modèle et vise à produire une “interprétabilité automatisée” en produisant des descriptions lisibles par l’homme des composants du modèle. L’idée vise à montrer comment les modèles « pensent » lorsqu’ils discutent avec un utilisateur, et à permettre d’ajuster cette pensée en modifiant directement les calculs qui la sous-tendent. Le laboratoire Insight + Interaction du département d’informatique de Harvard, dirigé par Fernanda Viégas et Martin Wattenberg, ont exécuté Llama sur leur propre matériel et ont découverts que diverses fonctionnalités s’activent et se désactivent au cours d’une conversation. 

Des croyances du modèle sur son interlocuteur

Viégas est brésilienne. Elle conversait avec ChatGPT en portugais et a remarqué, lors d’une conversation sur sa tenue pour un dîner de travail, que ChatGPT utilisait systématiquement la déclinaison masculine. Cette grammaire, à son tour, semblait correspondre au contenu de la conversation : GPT a suggéré un costume pour le dîner. Lorsqu’elle a indiqué qu’elle envisageait plutôt une robe, le LLM a changé son utilisation du portugais pour la déclinaison féminine. Llama a montré des schémas de conversation similaires. En observant les fonctionnalités internes, les chercheurs ont pu observer des zones du modèle qui s’illuminent lorsqu’il utilise la forme féminine, contrairement à lorsqu’il s’adresse à quelqu’un. en utilisant la forme masculine. Viégas et ses collègues ont constaté des activations corrélées à ce que l’on pourrait anthropomorphiser comme les “croyances du modèle sur son interlocuteur”. Autrement dit, des suppositions et, semble-t-il, des stéréotypes corrélés selon que le modèle suppose qu’une personne est un homme ou une femme. Ces croyances se répercutent ensuite sur le contenu de la conversation, l’amenant à recommander des costumes pour certains et des robes pour d’autres. De plus, il semble que les modèles donnent des réponses plus longues à ceux qu’ils croient être des hommes qu’à ceux qu’ils pensent être des femmes. Viégas et Wattenberg ont non seulement trouvé des caractéristiques qui suivaient le sexe de l’utilisateur du modèle, mais aussi qu’elles s’adaptaient aux inférences du modèle selon ce qu’il pensait du statut socio-économique, de son niveau d’éducation ou de l’âge de son interlocuteur. Le LLM cherche à s’adapter en permanence à qui il pense converser, d’où l’importance à saisir ce qu’il infère de son interlocuteur en continue. 

Un tableau de bord pour comprendre comment l’IA s’adapte en continue à son interlocuteur 

Les deux chercheurs ont alors créé un tableau de bord en parallèle à l’interface de chat du LLM qui permet aux utilisateurs d’observer l’évolution des hypothèses que fait le modèle au fil de leurs échanges (ce tableau de bord n’est pas accessible en ligne). Ainsi, quand on propose une suggestion de cadeau pour une fête prénatale, il suppose que son interlocuteur est jeune, de sexe féminin et de classe moyenne. Il suggère alors des couches et des lingettes, ou un chèque-cadeau. Si on ajoute que la fête a lieu dans l’Upper East Side de Manhattan, le tableau de bord montre que le LLM modifie son estimation du statut économique de son interlocuteur pour qu’il corresponde à la classe supérieure et suggère alors d’acheter des produits de luxe pour bébé de marques haut de gamme.

Un article pour Harvard Magazine de 2023 rappelle comment est né ce projet de tableau de bord de l’IA, permettant d’observer son comportement en direct. Fernanda Viegas est professeur d’informatique et spécialiste de visualisation de données. Elle codirige Pair, un laboratoire de Google (voir le blog dédié). En 2009, elle a imaginé Web Seer est un outil de visualisation de données qui permet aux utilisateurs de comparer les suggestions de saisie semi-automatique pour différentes recherches Google, par exemple selon le genre. L’équipe a développé un outil permettant aux utilisateurs de saisir une phrase et de voir comment le modèle de langage BERT compléterait le mot manquant si un mot de cette phrase était supprimé. 

Pour Viegas, « l’enjeu de la visualisation consiste à mesurer et exposer le fonctionnement interne des modèles d’IA que nous utilisons ». Pour la chercheuse, nous avons besoin de tableaux de bord pour aider les utilisateurs à comprendre les facteurs qui façonnent le contenu qu’ils reçoivent des réponses des modèles d’IA générative. Car selon la façon dont les modèles nous perçoivent, leurs réponses ne sont pas les mêmes. Or, pour comprendre que leurs réponses ne sont pas objectives, il faut pouvoir doter les utilisateurs d’une compréhension de la perception que ces outils ont de leurs utilisateurs. Par exemple, si vous demandez les options de transport entre Boston et Hawaï, les réponses peuvent varier selon la perception de votre statut socio-économique « Il semble donc que ces systèmes aient internalisé une certaine notion de notre monde », explique Viégas. De même, nous voudrions savoir ce qui, dans leurs réponses, s’inspire de la réalité ou de la fiction. Sur le site de Pair, on trouve de nombreux exemples d’outils de visualisation interactifs qui permettent d’améliorer la compréhension des modèles (par exemple, pour mesurer l’équité d’un modèle ou les biais ou l’optimisation de la diversité – qui ne sont pas sans rappeler les travaux de Victor Bret et ses “explications à explorer” interactives

Ce qui est fascinant ici, c’est combien la réponse n’est pas tant corrélée à tout ce que le modèle a avalé, mais combien il tente de s’adapter en permanence à ce qu’il croit deviner de son interlocuteur. On savait déjà, via une étude menée par Valentin Hofmann que, selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses. 

“Les grands modèles linguistiques ne se contentent pas de décrire les relations entre les mots et les concepts”, pointe Zittrain : ils assimilent également des stéréotypes qu’ils recomposent à la volée. On comprend qu’un grand enjeu désormais soit qu’ils se souviennent des conversations passées pour ajuster leur compréhension de leur interlocuteur, comme l’a annoncé OpenAI, suivi de Google et Grok. Le problème n’est peut-être pas qu’ils nous identifient précisément, mais qu’ils puissent adapter leurs propositions, non pas à qui nous sommes, mais bien plus problématiquement, à qui ils pensent s’adresser, selon par exemple ce qu’ils évaluent de notre capacité à payer. Un autre problème consiste à savoir si cette “compréhension” de l’interlocuteur peut-être stabilisée où si elle se modifie sans cesse, comme c’est le cas des étiquettes publicitaires que nous accolent les sites sociaux. Devrons-nous demain batailler quand les modèles nous mécalculent ou nous renvoient une image, un profil, qui ne nous correspond pas ? Pourrons-nous même le faire, quand aujourd’hui, les plateformes ne nous offrent pas la main sur nos profils publicitaires pour les ajuster aux données qu’ils infèrent ? 

Ce qui est fascinant, c’est de constater que plus que d’halluciner, l’IA nous fait halluciner (c’est-à-dire nous fait croire en ses effets), mais plus encore, hallucine la personne avec laquelle elle interagit (c’est-à-dire, nous hallucine nous-mêmes). 

Les chercheurs de Harvard ont cherché à identifier les évolutions des suppositions des modèles selon l’origine ethnique dans les modèles qu’ils ont étudiés, sans pour l’instant y parvenir. Mais ils espèrent bien pouvoir contraindre leur modèle Llama à commencer à traiter un utilisateur comme riche ou pauvre, jeune ou vieux, homme ou femme. L’idée ici, serait d’orienter les réponses d’un modèle, par exemple, en lui faisant adopter un ton moins caustique ou plus pédagogique lorsqu’il identifie qu’il parle à un enfant. Pour Zittrain, l’enjeu ici est de mieux anticiper notre grande dépendance psychologique à l’égard de ces systèmes. Mais Zittrain en tire une autre conclusion : “Si nous considérons qu’il est moralement et sociétalement important de protéger les échanges entre les avocats et leurs clients, les médecins et leurs patients, les bibliothécaires et leurs usagers, et même les impôts et les contribuables, alors une sphère de protection claire devrait être instaurée entre les LLM et leurs utilisateurs. Une telle sphère ne devrait pas simplement servir à protéger la confidentialité afin que chacun puisse s’exprimer sur des sujets sensibles et recevoir des informations et des conseils qui l’aident à mieux comprendre des sujets autrement inaccessibles. Elle devrait nous inciter à exiger des créateurs et des opérateurs de modèles qu’ils s’engagent à être les amis inoffensifs, serviables et honnêtes qu’ils sont si soigneusement conçus pour paraître”.

Inoffensifs, serviables et honnêtes, voilà qui semble pour le moins naïf. Rendre visible les inférences des modèles, faire qu’ils nous reconnectent aux humains plutôt qu’ils ne nous en éloignent, semblerait bien préférable, tant la polyvalence et la puissance remarquables des LLM rendent impératifs de comprendre et d’anticiper la dépendance potentielle des individus à leur égard. En tout cas, obtenir des outils pour nous aider à saisir à qui ils croient s’adresser plutôt que de nous laisser seuls face à leur interface semble une piste riche en promesses. 

Hubert Guillaud

  • ✇Dans les algorithmes
  • Qui est l’utilisateur des LLM ?
    Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit  Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette comp
     

Qui est l’utilisateur des LLM ?

10 juin 2025 à 00:24

Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit  Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette compréhension pour les améliorer, est pourtant essentiel, comme l’expliquait le PDG d’Anthropic. Anthropic a fait des efforts en ce sens, explique le juriste en identifiant des caractéristiques lui permettant de mieux cartographier son modèle. Meta, la société mère de Facebook, a publié des versions toujours plus sophistiquées de son grand modèle linguistique, Llama, avec des paramètres librement accessibles (on parle de “poids ouverts” permettant d’ajuster les paramètres des modèles). Transluce, un laboratoire de recherche à but non lucratif axé sur la compréhension des systèmes d’IA, a développé une méthode permettant de générer des descriptions automatisées des mécanismes de Llama 3.1. Celles-ci peuvent être explorées à l’aide d’un outil d’observabilité qui montre la nature du modèle et vise à produire une “interprétabilité automatisée” en produisant des descriptions lisibles par l’homme des composants du modèle. L’idée vise à montrer comment les modèles « pensent » lorsqu’ils discutent avec un utilisateur, et à permettre d’ajuster cette pensée en modifiant directement les calculs qui la sous-tendent. Le laboratoire Insight + Interaction du département d’informatique de Harvard, dirigé par Fernanda Viégas et Martin Wattenberg, ont exécuté Llama sur leur propre matériel et ont découverts que diverses fonctionnalités s’activent et se désactivent au cours d’une conversation. 

Des croyances du modèle sur son interlocuteur

Viégas est brésilienne. Elle conversait avec ChatGPT en portugais et a remarqué, lors d’une conversation sur sa tenue pour un dîner de travail, que ChatGPT utilisait systématiquement la déclinaison masculine. Cette grammaire, à son tour, semblait correspondre au contenu de la conversation : GPT a suggéré un costume pour le dîner. Lorsqu’elle a indiqué qu’elle envisageait plutôt une robe, le LLM a changé son utilisation du portugais pour la déclinaison féminine. Llama a montré des schémas de conversation similaires. En observant les fonctionnalités internes, les chercheurs ont pu observer des zones du modèle qui s’illuminent lorsqu’il utilise la forme féminine, contrairement à lorsqu’il s’adresse à quelqu’un. en utilisant la forme masculine. Viégas et ses collègues ont constaté des activations corrélées à ce que l’on pourrait anthropomorphiser comme les “croyances du modèle sur son interlocuteur”. Autrement dit, des suppositions et, semble-t-il, des stéréotypes corrélés selon que le modèle suppose qu’une personne est un homme ou une femme. Ces croyances se répercutent ensuite sur le contenu de la conversation, l’amenant à recommander des costumes pour certains et des robes pour d’autres. De plus, il semble que les modèles donnent des réponses plus longues à ceux qu’ils croient être des hommes qu’à ceux qu’ils pensent être des femmes. Viégas et Wattenberg ont non seulement trouvé des caractéristiques qui suivaient le sexe de l’utilisateur du modèle, mais aussi qu’elles s’adaptaient aux inférences du modèle selon ce qu’il pensait du statut socio-économique, de son niveau d’éducation ou de l’âge de son interlocuteur. Le LLM cherche à s’adapter en permanence à qui il pense converser, d’où l’importance à saisir ce qu’il infère de son interlocuteur en continue. 

Un tableau de bord pour comprendre comment l’IA s’adapte en continue à son interlocuteur 

Les deux chercheurs ont alors créé un tableau de bord en parallèle à l’interface de chat du LLM qui permet aux utilisateurs d’observer l’évolution des hypothèses que fait le modèle au fil de leurs échanges (ce tableau de bord n’est pas accessible en ligne). Ainsi, quand on propose une suggestion de cadeau pour une fête prénatale, il suppose que son interlocuteur est jeune, de sexe féminin et de classe moyenne. Il suggère alors des couches et des lingettes, ou un chèque-cadeau. Si on ajoute que la fête a lieu dans l’Upper East Side de Manhattan, le tableau de bord montre que le LLM modifie son estimation du statut économique de son interlocuteur pour qu’il corresponde à la classe supérieure et suggère alors d’acheter des produits de luxe pour bébé de marques haut de gamme.

Un article pour Harvard Magazine de 2023 rappelle comment est né ce projet de tableau de bord de l’IA, permettant d’observer son comportement en direct. Fernanda Viegas est professeur d’informatique et spécialiste de visualisation de données. Elle codirige Pair, un laboratoire de Google (voir le blog dédié). En 2009, elle a imaginé Web Seer est un outil de visualisation de données qui permet aux utilisateurs de comparer les suggestions de saisie semi-automatique pour différentes recherches Google, par exemple selon le genre. L’équipe a développé un outil permettant aux utilisateurs de saisir une phrase et de voir comment le modèle de langage BERT compléterait le mot manquant si un mot de cette phrase était supprimé. 

Pour Viegas, « l’enjeu de la visualisation consiste à mesurer et exposer le fonctionnement interne des modèles d’IA que nous utilisons ». Pour la chercheuse, nous avons besoin de tableaux de bord pour aider les utilisateurs à comprendre les facteurs qui façonnent le contenu qu’ils reçoivent des réponses des modèles d’IA générative. Car selon la façon dont les modèles nous perçoivent, leurs réponses ne sont pas les mêmes. Or, pour comprendre que leurs réponses ne sont pas objectives, il faut pouvoir doter les utilisateurs d’une compréhension de la perception que ces outils ont de leurs utilisateurs. Par exemple, si vous demandez les options de transport entre Boston et Hawaï, les réponses peuvent varier selon la perception de votre statut socio-économique « Il semble donc que ces systèmes aient internalisé une certaine notion de notre monde », explique Viégas. De même, nous voudrions savoir ce qui, dans leurs réponses, s’inspire de la réalité ou de la fiction. Sur le site de Pair, on trouve de nombreux exemples d’outils de visualisation interactifs qui permettent d’améliorer la compréhension des modèles (par exemple, pour mesurer l’équité d’un modèle ou les biais ou l’optimisation de la diversité – qui ne sont pas sans rappeler les travaux de Victor Bret et ses “explications à explorer” interactives

Ce qui est fascinant ici, c’est combien la réponse n’est pas tant corrélée à tout ce que le modèle a avalé, mais combien il tente de s’adapter en permanence à ce qu’il croit deviner de son interlocuteur. On savait déjà, via une étude menée par Valentin Hofmann que, selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses. 

“Les grands modèles linguistiques ne se contentent pas de décrire les relations entre les mots et les concepts”, pointe Zittrain : ils assimilent également des stéréotypes qu’ils recomposent à la volée. On comprend qu’un grand enjeu désormais soit qu’ils se souviennent des conversations passées pour ajuster leur compréhension de leur interlocuteur, comme l’a annoncé OpenAI, suivi de Google et Grok. Le problème n’est peut-être pas qu’ils nous identifient précisément, mais qu’ils puissent adapter leurs propositions, non pas à qui nous sommes, mais bien plus problématiquement, à qui ils pensent s’adresser, selon par exemple ce qu’ils évaluent de notre capacité à payer. Un autre problème consiste à savoir si cette “compréhension” de l’interlocuteur peut-être stabilisée où si elle se modifie sans cesse, comme c’est le cas des étiquettes publicitaires que nous accolent les sites sociaux. Devrons-nous demain batailler quand les modèles nous mécalculent ou nous renvoient une image, un profil, qui ne nous correspond pas ? Pourrons-nous même le faire, quand aujourd’hui, les plateformes ne nous offrent pas la main sur nos profils publicitaires pour les ajuster aux données qu’ils infèrent ? 

Ce qui est fascinant, c’est de constater que plus que d’halluciner, l’IA nous fait halluciner (c’est-à-dire nous fait croire en ses effets), mais plus encore, hallucine la personne avec laquelle elle interagit (c’est-à-dire, nous hallucine nous-mêmes). 

Les chercheurs de Harvard ont cherché à identifier les évolutions des suppositions des modèles selon l’origine ethnique dans les modèles qu’ils ont étudiés, sans pour l’instant y parvenir. Mais ils espèrent bien pouvoir contraindre leur modèle Llama à commencer à traiter un utilisateur comme riche ou pauvre, jeune ou vieux, homme ou femme. L’idée ici, serait d’orienter les réponses d’un modèle, par exemple, en lui faisant adopter un ton moins caustique ou plus pédagogique lorsqu’il identifie qu’il parle à un enfant. Pour Zittrain, l’enjeu ici est de mieux anticiper notre grande dépendance psychologique à l’égard de ces systèmes. Mais Zittrain en tire une autre conclusion : “Si nous considérons qu’il est moralement et sociétalement important de protéger les échanges entre les avocats et leurs clients, les médecins et leurs patients, les bibliothécaires et leurs usagers, et même les impôts et les contribuables, alors une sphère de protection claire devrait être instaurée entre les LLM et leurs utilisateurs. Une telle sphère ne devrait pas simplement servir à protéger la confidentialité afin que chacun puisse s’exprimer sur des sujets sensibles et recevoir des informations et des conseils qui l’aident à mieux comprendre des sujets autrement inaccessibles. Elle devrait nous inciter à exiger des créateurs et des opérateurs de modèles qu’ils s’engagent à être les amis inoffensifs, serviables et honnêtes qu’ils sont si soigneusement conçus pour paraître”.

Inoffensifs, serviables et honnêtes, voilà qui semble pour le moins naïf. Rendre visible les inférences des modèles, faire qu’ils nous reconnectent aux humains plutôt qu’ils ne nous en éloignent, semblerait bien préférable, tant la polyvalence et la puissance remarquables des LLM rendent impératifs de comprendre et d’anticiper la dépendance potentielle des individus à leur égard. En tout cas, obtenir des outils pour nous aider à saisir à qui ils croient s’adresser plutôt que de nous laisser seuls face à leur interface semble une piste riche en promesses. 

Hubert Guillaud

  • ✇Dans les algorithmes
  • Dans les défaillances des décisions automatisées
    Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action.  Opacité et défaillance généralisée En 2020 déjà, la grande associat
     

Dans les défaillances des décisions automatisées

9 avril 2025 à 01:00

Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action. 

Opacité et défaillance généralisée

En 2020 déjà, la grande association européenne de défense des droits numériques, Algorithm Watch, expliquait dans un rapport que ces systèmes se généralisaient dans la plus grande opacité. Alors que le calcul est partout, l’association soulignait que si ces déploiements pouvaient être utiles, très peu de cas montraient de « manière convaincante un impact positif ». La plupart des systèmes de décision automatisés mettent les gens en danger plus qu’ils ne les protègent, disait déjà l’association.

Dans son inventaire des algorithmes publics, l’Observatoire des algorithmes publics montre, très concrètement, combien le déploiement des systèmes de prise de décision automatisée reste opaque, malgré les obligations de transparence qui incombent aux systèmes.

Avec son initiative France Contrôle, la Quadrature du Net, accompagnée de collectifs de lutte contre la précarité, documente elle aussi le déploiement des algorithmes de contrôle social et leurs défaillances. Dès 2018, les travaux pionniers de la politiste Virginia Eubanks, nous ont appris que les systèmes électroniques mis en place pour calculer, distribuer et contrôler l’aide sociale sont bien souvent particulièrement défaillants, et notamment les systèmes automatisés censés lutter contre la fraude, devenus l’alpha et l’oméga des politiques publiques austéritaires.

Malgré la Loi pour une République numérique (2016), la transparence de ces calculs, seule à même de dévoiler et corriger leurs défaillances, ne progresse pas. On peut donc se demander, assez légitimement, ce qu’il y a cacher. 

A mesure que ces systèmes se déploient, ce sont donc les enquêtes des syndicats, des militants, des chercheurs, des journalistes qui documentent les défaillances des décisions automatisées dans tous les secteurs de la société où elles sont présentes.

Ces enquêtes sont rendues partout difficiles, d’abord et avant tout parce qu’on ne peut saisir les paramètres des systèmes de décision automatisée sans y accéder. 

3 problèmes récurrents

S’il est difficile de faire un constat global sur les défaillances spécifiques de tous les systèmes automatisés, qu’ils s’appliquent à la santé, l’éducation, le social ou l’économie, on peut néanmoins noter 3 problèmes récurrents. 

Les erreurs ne sont pas un problème pour les structures qui calculent. Pour le dire techniquement, la plupart des acteurs qui produisent des systèmes de décision automatisée produisent des faux positifs importants, c’est-à-dire catégorisent des personnes indûment. Dans les systèmes bancaires par exemple, comme l’a montré une belle enquête de l’AFP et d’Algorithm Watch, certaines activités déclenchent des alertes et conduisent à qualifier les profils des clients comme problématiques voire à suspendre les possibilités bancaires d’individus ou d’organisations, sans qu’elles n’aient à rendre de compte sur ces suspensions.

Au contraire, parce qu’elles sont invitées à la vigilance face aux activités de fraude, de blanchiment d’argent ou le financement du terrorisme, elles sont encouragées à produire des faux positifs pour montrer qu’elles agissent, tout comme les organismes sociaux sont poussés à détecter de la fraude pour atteindre leurs objectifs de contrôle.

Selon les données de l’autorité qui contrôle les banques et les marchés financiers au Royaume-Uni, 170 000 personnes ont vu leur compte en banque fermé en 2021-2022 en lien avec la lutte anti-blanchiment, alors que seulement 1083 personnes ont été condamnées pour ce délit. 

Le problème, c’est que les organismes de calculs n’ont pas d’intérêt à corriger ces faux positifs pour les atténuer. Alors que, si ces erreurs ne sont pas un problème pour les structures qui les produisent, elles le sont pour les individus qui voient leurs comptes clôturés, sans raison et avec peu de possibilités de recours. Il est nécessaire pourtant que les taux de risques détectés restent proportionnels aux taux effectifs de condamnation, afin que les niveaux de réduction des risques ne soient pas portés par les individus.

Le même phénomène est à l’œuvre quand la CAF reconnaît que son algorithme de contrôle de fraude produit bien plus de contrôle sur certaines catégories sociales de la population, comme le montrait l’enquête du Monde et de Lighthouse reports et les travaux de l’association Changer de Cap. Mais, pour les banques, comme pour la CAF, ce surciblage, ce surdiagnostic, n’a pas d’incidence directe, au contraire…

Pour les organismes publics le taux de détection automatisée est un objectif à atteindre explique le syndicat Solidaires Finances Publiques dans son enquête sur L’IA aux impôts, qu’importe si cet objectif est défaillant pour les personnes ciblées. D’où l’importance de mettre en place un ratio d’impact sur les différents groupes démographiques et des taux de faux positifs pour limiter leur explosion. La justesse des calculs doit être améliorée.

Pour cela, il est nécessaire de mieux contrôler le taux de détection des outils et de trouver les modalités pour que ces taux ne soient pas disproportionnés. Sans cela, on le comprend, la maltraitance institutionnelle que dénonce ATD Quart Monde est en roue libre dans les systèmes, quels qu’ils soient.

Dans les difficultés, les recours sont rendus plus compliqués. Quand ces systèmes mé-calculent les gens, quand ils signalent leurs profils comme problématiques ou quand les dossiers sont mis en traitement, les possibilités de recours sont bien souvent automatiquement réduites. Le fait d’être soupçonné de problème bancaire diminue vos possibilités de recours plutôt qu’elle ne les augmente.

A la CAF, quand l’accusation de fraude est déclenchée, la procédure de recours pour les bénéficiaires devient plus complexe. Dans la plateforme dématérialisée pour les demandes de titres de séjour dont le Défenseur des droits pointait les lacunes dans un récent rapport, les usagers ne peuvent pas signaler un changement de lieu de résidence quand une demande est en cours.

Or, c’est justement quand les usagers sont confrontés à des difficultés, que la discussion devrait être rendue plus fluide, plus accessible. En réalité, c’est bien souvent l’inverse que l’on constate. Outre les explications lacunaires des services, les possibilités de recours sont réduites quand elles devraient être augmentées. L’alerte réduit les droits alors qu’elle devrait plutôt les ouvrir. 

Enfin, l’interconnexion des systèmes crée des boucles de défaillances dont les effets s’amplifient très rapidement. Les boucles d’empêchements se multiplient sans issue. Les alertes et les faux positifs se répandent. L’automatisation des droits conduit à des évictions en cascade dans des systèmes où les organismes se renvoient les responsabilités sans être toujours capables d’agir sur les systèmes de calcul. Ces difficultés nécessitent de mieux faire valoir les droits d’opposition des calculés. La prise en compte d’innombrables données pour produire des calculs toujours plus granulaires, pour atténuer les risques, produit surtout des faux positifs et une complexité de plus en plus problématique pour les usagers. 

Responsabiliser les calculs du social

Nous avons besoin de diminuer les données utilisées pour les calculs du social, explique le chercheur Arvind Narayanan, notamment parce que cette complexité, au prétexte de mieux calculer le social, bien souvent, n’améliore pas les calculs, mais renforce leur opacité et les rend moins contestables. Les calculs du social doivent n’utiliser que peu de données, doivent rester compréhensibles, transparents, vérifiables et surtout opposables… Collecter peu de données cause moins de problèmes de vie privée, moins de problèmes légaux comme éthiques… et moins de discriminations. 

Renforcer le contrôle des systèmes, notamment mesurer leur ratio d’impact et les taux de faux positifs. Améliorer les droits de recours des usagers, notamment quand ces systèmes les ciblent et les désignent. Et surtout, améliorer la participation des publics aux calculs, comme nous y invitent le récent rapport du Défenseur des droits sur la dématérialisation et les algorithmes publics. 

A mesure qu’ils se répandent, à mesure qu’ils accèdent à de plus en plus de données, les risques de défaillances des calculs s’accumulent. Derrière ces défaillances, c’est la question même de la justice qui est en cause. On ne peut pas accepter que les banques ferment chaque année des centaines de milliers de comptes bancaires, quand seulement un millier de personnes sont condamnées.

On ne peut pas accepter que la CAF détermine qu’il y aurait des centaines de milliers de fraudeurs, quand dans les faits, très peu sont condamnés pour fraude. La justice nécessite que les calculs du social soient raccords avec la réalité. Nous n’y sommes pas. 

Hubert Guillaud

Cet édito a été publié originellement sous forme de tribune pour le Club de Mediapart, le 4 avril 2025 à l’occasion de la publication du livre, Les algorithmes contre la société aux éditions La Fabrique.

  • ✇Dans les algorithmes
  • Dans les défaillances des décisions automatisées
    Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action.  Opacité et défaillance généralisée En 2020 déjà, la grande associat
     

Dans les défaillances des décisions automatisées

9 avril 2025 à 01:00

Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action. 

Opacité et défaillance généralisée

En 2020 déjà, la grande association européenne de défense des droits numériques, Algorithm Watch, expliquait dans un rapport que ces systèmes se généralisaient dans la plus grande opacité. Alors que le calcul est partout, l’association soulignait que si ces déploiements pouvaient être utiles, très peu de cas montraient de « manière convaincante un impact positif ». La plupart des systèmes de décision automatisés mettent les gens en danger plus qu’ils ne les protègent, disait déjà l’association.

Dans son inventaire des algorithmes publics, l’Observatoire des algorithmes publics montre, très concrètement, combien le déploiement des systèmes de prise de décision automatisée reste opaque, malgré les obligations de transparence qui incombent aux systèmes.

Avec son initiative France Contrôle, la Quadrature du Net, accompagnée de collectifs de lutte contre la précarité, documente elle aussi le déploiement des algorithmes de contrôle social et leurs défaillances. Dès 2018, les travaux pionniers de la politiste Virginia Eubanks, nous ont appris que les systèmes électroniques mis en place pour calculer, distribuer et contrôler l’aide sociale sont bien souvent particulièrement défaillants, et notamment les systèmes automatisés censés lutter contre la fraude, devenus l’alpha et l’oméga des politiques publiques austéritaires.

Malgré la Loi pour une République numérique (2016), la transparence de ces calculs, seule à même de dévoiler et corriger leurs défaillances, ne progresse pas. On peut donc se demander, assez légitimement, ce qu’il y a cacher. 

A mesure que ces systèmes se déploient, ce sont donc les enquêtes des syndicats, des militants, des chercheurs, des journalistes qui documentent les défaillances des décisions automatisées dans tous les secteurs de la société où elles sont présentes.

Ces enquêtes sont rendues partout difficiles, d’abord et avant tout parce qu’on ne peut saisir les paramètres des systèmes de décision automatisée sans y accéder. 

3 problèmes récurrents

S’il est difficile de faire un constat global sur les défaillances spécifiques de tous les systèmes automatisés, qu’ils s’appliquent à la santé, l’éducation, le social ou l’économie, on peut néanmoins noter 3 problèmes récurrents. 

Les erreurs ne sont pas un problème pour les structures qui calculent. Pour le dire techniquement, la plupart des acteurs qui produisent des systèmes de décision automatisée produisent des faux positifs importants, c’est-à-dire catégorisent des personnes indûment. Dans les systèmes bancaires par exemple, comme l’a montré une belle enquête de l’AFP et d’Algorithm Watch, certaines activités déclenchent des alertes et conduisent à qualifier les profils des clients comme problématiques voire à suspendre les possibilités bancaires d’individus ou d’organisations, sans qu’elles n’aient à rendre de compte sur ces suspensions.

Au contraire, parce qu’elles sont invitées à la vigilance face aux activités de fraude, de blanchiment d’argent ou le financement du terrorisme, elles sont encouragées à produire des faux positifs pour montrer qu’elles agissent, tout comme les organismes sociaux sont poussés à détecter de la fraude pour atteindre leurs objectifs de contrôle.

Selon les données de l’autorité qui contrôle les banques et les marchés financiers au Royaume-Uni, 170 000 personnes ont vu leur compte en banque fermé en 2021-2022 en lien avec la lutte anti-blanchiment, alors que seulement 1083 personnes ont été condamnées pour ce délit. 

Le problème, c’est que les organismes de calculs n’ont pas d’intérêt à corriger ces faux positifs pour les atténuer. Alors que, si ces erreurs ne sont pas un problème pour les structures qui les produisent, elles le sont pour les individus qui voient leurs comptes clôturés, sans raison et avec peu de possibilités de recours. Il est nécessaire pourtant que les taux de risques détectés restent proportionnels aux taux effectifs de condamnation, afin que les niveaux de réduction des risques ne soient pas portés par les individus.

Le même phénomène est à l’œuvre quand la CAF reconnaît que son algorithme de contrôle de fraude produit bien plus de contrôle sur certaines catégories sociales de la population, comme le montrait l’enquête du Monde et de Lighthouse reports et les travaux de l’association Changer de Cap. Mais, pour les banques, comme pour la CAF, ce surciblage, ce surdiagnostic, n’a pas d’incidence directe, au contraire…

Pour les organismes publics le taux de détection automatisée est un objectif à atteindre explique le syndicat Solidaires Finances Publiques dans son enquête sur L’IA aux impôts, qu’importe si cet objectif est défaillant pour les personnes ciblées. D’où l’importance de mettre en place un ratio d’impact sur les différents groupes démographiques et des taux de faux positifs pour limiter leur explosion. La justesse des calculs doit être améliorée.

Pour cela, il est nécessaire de mieux contrôler le taux de détection des outils et de trouver les modalités pour que ces taux ne soient pas disproportionnés. Sans cela, on le comprend, la maltraitance institutionnelle que dénonce ATD Quart Monde est en roue libre dans les systèmes, quels qu’ils soient.

Dans les difficultés, les recours sont rendus plus compliqués. Quand ces systèmes mé-calculent les gens, quand ils signalent leurs profils comme problématiques ou quand les dossiers sont mis en traitement, les possibilités de recours sont bien souvent automatiquement réduites. Le fait d’être soupçonné de problème bancaire diminue vos possibilités de recours plutôt qu’elle ne les augmente.

A la CAF, quand l’accusation de fraude est déclenchée, la procédure de recours pour les bénéficiaires devient plus complexe. Dans la plateforme dématérialisée pour les demandes de titres de séjour dont le Défenseur des droits pointait les lacunes dans un récent rapport, les usagers ne peuvent pas signaler un changement de lieu de résidence quand une demande est en cours.

Or, c’est justement quand les usagers sont confrontés à des difficultés, que la discussion devrait être rendue plus fluide, plus accessible. En réalité, c’est bien souvent l’inverse que l’on constate. Outre les explications lacunaires des services, les possibilités de recours sont réduites quand elles devraient être augmentées. L’alerte réduit les droits alors qu’elle devrait plutôt les ouvrir. 

Enfin, l’interconnexion des systèmes crée des boucles de défaillances dont les effets s’amplifient très rapidement. Les boucles d’empêchements se multiplient sans issue. Les alertes et les faux positifs se répandent. L’automatisation des droits conduit à des évictions en cascade dans des systèmes où les organismes se renvoient les responsabilités sans être toujours capables d’agir sur les systèmes de calcul. Ces difficultés nécessitent de mieux faire valoir les droits d’opposition des calculés. La prise en compte d’innombrables données pour produire des calculs toujours plus granulaires, pour atténuer les risques, produit surtout des faux positifs et une complexité de plus en plus problématique pour les usagers. 

Responsabiliser les calculs du social

Nous avons besoin de diminuer les données utilisées pour les calculs du social, explique le chercheur Arvind Narayanan, notamment parce que cette complexité, au prétexte de mieux calculer le social, bien souvent, n’améliore pas les calculs, mais renforce leur opacité et les rend moins contestables. Les calculs du social doivent n’utiliser que peu de données, doivent rester compréhensibles, transparents, vérifiables et surtout opposables… Collecter peu de données cause moins de problèmes de vie privée, moins de problèmes légaux comme éthiques… et moins de discriminations. 

Renforcer le contrôle des systèmes, notamment mesurer leur ratio d’impact et les taux de faux positifs. Améliorer les droits de recours des usagers, notamment quand ces systèmes les ciblent et les désignent. Et surtout, améliorer la participation des publics aux calculs, comme nous y invitent le récent rapport du Défenseur des droits sur la dématérialisation et les algorithmes publics. 

A mesure qu’ils se répandent, à mesure qu’ils accèdent à de plus en plus de données, les risques de défaillances des calculs s’accumulent. Derrière ces défaillances, c’est la question même de la justice qui est en cause. On ne peut pas accepter que les banques ferment chaque année des centaines de milliers de comptes bancaires, quand seulement un millier de personnes sont condamnées.

On ne peut pas accepter que la CAF détermine qu’il y aurait des centaines de milliers de fraudeurs, quand dans les faits, très peu sont condamnés pour fraude. La justice nécessite que les calculs du social soient raccords avec la réalité. Nous n’y sommes pas. 

Hubert Guillaud

Cet édito a été publié originellement sous forme de tribune pour le Club de Mediapart, le 4 avril 2025 à l’occasion de la publication du livre, Les algorithmes contre la société aux éditions La Fabrique.

❌