Vue normale
-
NYT > U.S. News
-
L.A. Students Graduating Amid ICE Raids Experience Joy and Fear
Nearly three-fourths of the students in L.A. public schools are Latino. Some families, and a few graduates, stayed away from graduation ceremonies out of fear of federal raids.
-
NYT > U.S. News
-
How Amy Coney Barrett Is Confounding the Right and the Left
President Trump appointed her to clinch a conservative legal revolution. But soon after arriving at the Supreme Court, she began surprising her colleagues.
How Amy Coney Barrett Is Confounding the Right and the Left
-
Dans les algorithmes
-
Qui est l’utilisateur des LLM ?
Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette comp
Qui est l’utilisateur des LLM ?
Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette compréhension pour les améliorer, est pourtant essentiel, comme l’expliquait le PDG d’Anthropic. Anthropic a fait des efforts en ce sens, explique le juriste en identifiant des caractéristiques lui permettant de mieux cartographier son modèle. Meta, la société mère de Facebook, a publié des versions toujours plus sophistiquées de son grand modèle linguistique, Llama, avec des paramètres librement accessibles (on parle de “poids ouverts” permettant d’ajuster les paramètres des modèles). Transluce, un laboratoire de recherche à but non lucratif axé sur la compréhension des systèmes d’IA, a développé une méthode permettant de générer des descriptions automatisées des mécanismes de Llama 3.1. Celles-ci peuvent être explorées à l’aide d’un outil d’observabilité qui montre la nature du modèle et vise à produire une “interprétabilité automatisée” en produisant des descriptions lisibles par l’homme des composants du modèle. L’idée vise à montrer comment les modèles « pensent » lorsqu’ils discutent avec un utilisateur, et à permettre d’ajuster cette pensée en modifiant directement les calculs qui la sous-tendent. Le laboratoire Insight + Interaction du département d’informatique de Harvard, dirigé par Fernanda Viégas et Martin Wattenberg, ont exécuté Llama sur leur propre matériel et ont découverts que diverses fonctionnalités s’activent et se désactivent au cours d’une conversation.
Des croyances du modèle sur son interlocuteur
Viégas est brésilienne. Elle conversait avec ChatGPT en portugais et a remarqué, lors d’une conversation sur sa tenue pour un dîner de travail, que ChatGPT utilisait systématiquement la déclinaison masculine. Cette grammaire, à son tour, semblait correspondre au contenu de la conversation : GPT a suggéré un costume pour le dîner. Lorsqu’elle a indiqué qu’elle envisageait plutôt une robe, le LLM a changé son utilisation du portugais pour la déclinaison féminine. Llama a montré des schémas de conversation similaires. En observant les fonctionnalités internes, les chercheurs ont pu observer des zones du modèle qui s’illuminent lorsqu’il utilise la forme féminine, contrairement à lorsqu’il s’adresse à quelqu’un. en utilisant la forme masculine. Viégas et ses collègues ont constaté des activations corrélées à ce que l’on pourrait anthropomorphiser comme les “croyances du modèle sur son interlocuteur”. Autrement dit, des suppositions et, semble-t-il, des stéréotypes corrélés selon que le modèle suppose qu’une personne est un homme ou une femme. Ces croyances se répercutent ensuite sur le contenu de la conversation, l’amenant à recommander des costumes pour certains et des robes pour d’autres. De plus, il semble que les modèles donnent des réponses plus longues à ceux qu’ils croient être des hommes qu’à ceux qu’ils pensent être des femmes. Viégas et Wattenberg ont non seulement trouvé des caractéristiques qui suivaient le sexe de l’utilisateur du modèle, mais aussi qu’elles s’adaptaient aux inférences du modèle selon ce qu’il pensait du statut socio-économique, de son niveau d’éducation ou de l’âge de son interlocuteur. Le LLM cherche à s’adapter en permanence à qui il pense converser, d’où l’importance à saisir ce qu’il infère de son interlocuteur en continue.
Un tableau de bord pour comprendre comment l’IA s’adapte en continue à son interlocuteur
Les deux chercheurs ont alors créé un tableau de bord en parallèle à l’interface de chat du LLM qui permet aux utilisateurs d’observer l’évolution des hypothèses que fait le modèle au fil de leurs échanges (ce tableau de bord n’est pas accessible en ligne). Ainsi, quand on propose une suggestion de cadeau pour une fête prénatale, il suppose que son interlocuteur est jeune, de sexe féminin et de classe moyenne. Il suggère alors des couches et des lingettes, ou un chèque-cadeau. Si on ajoute que la fête a lieu dans l’Upper East Side de Manhattan, le tableau de bord montre que le LLM modifie son estimation du statut économique de son interlocuteur pour qu’il corresponde à la classe supérieure et suggère alors d’acheter des produits de luxe pour bébé de marques haut de gamme.
Un article pour Harvard Magazine de 2023 rappelle comment est né ce projet de tableau de bord de l’IA, permettant d’observer son comportement en direct. Fernanda Viegas est professeur d’informatique et spécialiste de visualisation de données. Elle codirige Pair, un laboratoire de Google (voir le blog dédié). En 2009, elle a imaginé Web Seer est un outil de visualisation de données qui permet aux utilisateurs de comparer les suggestions de saisie semi-automatique pour différentes recherches Google, par exemple selon le genre. L’équipe a développé un outil permettant aux utilisateurs de saisir une phrase et de voir comment le modèle de langage BERT compléterait le mot manquant si un mot de cette phrase était supprimé.
Pour Viegas, « l’enjeu de la visualisation consiste à mesurer et exposer le fonctionnement interne des modèles d’IA que nous utilisons ». Pour la chercheuse, nous avons besoin de tableaux de bord pour aider les utilisateurs à comprendre les facteurs qui façonnent le contenu qu’ils reçoivent des réponses des modèles d’IA générative. Car selon la façon dont les modèles nous perçoivent, leurs réponses ne sont pas les mêmes. Or, pour comprendre que leurs réponses ne sont pas objectives, il faut pouvoir doter les utilisateurs d’une compréhension de la perception que ces outils ont de leurs utilisateurs. Par exemple, si vous demandez les options de transport entre Boston et Hawaï, les réponses peuvent varier selon la perception de votre statut socio-économique « Il semble donc que ces systèmes aient internalisé une certaine notion de notre monde », explique Viégas. De même, nous voudrions savoir ce qui, dans leurs réponses, s’inspire de la réalité ou de la fiction. Sur le site de Pair, on trouve de nombreux exemples d’outils de visualisation interactifs qui permettent d’améliorer la compréhension des modèles (par exemple, pour mesurer l’équité d’un modèle ou les biais ou l’optimisation de la diversité – qui ne sont pas sans rappeler les travaux de Victor Bret et ses “explications à explorer” interactives.
Ce qui est fascinant ici, c’est combien la réponse n’est pas tant corrélée à tout ce que le modèle a avalé, mais combien il tente de s’adapter en permanence à ce qu’il croit deviner de son interlocuteur. On savait déjà, via une étude menée par Valentin Hofmann que, selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses.
“Les grands modèles linguistiques ne se contentent pas de décrire les relations entre les mots et les concepts”, pointe Zittrain : ils assimilent également des stéréotypes qu’ils recomposent à la volée. On comprend qu’un grand enjeu désormais soit qu’ils se souviennent des conversations passées pour ajuster leur compréhension de leur interlocuteur, comme l’a annoncé OpenAI, suivi de Google et Grok. Le problème n’est peut-être pas qu’ils nous identifient précisément, mais qu’ils puissent adapter leurs propositions, non pas à qui nous sommes, mais bien plus problématiquement, à qui ils pensent s’adresser, selon par exemple ce qu’ils évaluent de notre capacité à payer. Un autre problème consiste à savoir si cette “compréhension” de l’interlocuteur peut-être stabilisée où si elle se modifie sans cesse, comme c’est le cas des étiquettes publicitaires que nous accolent les sites sociaux. Devrons-nous demain batailler quand les modèles nous mécalculent ou nous renvoient une image, un profil, qui ne nous correspond pas ? Pourrons-nous même le faire, quand aujourd’hui, les plateformes ne nous offrent pas la main sur nos profils publicitaires pour les ajuster aux données qu’ils infèrent ?
Ce qui est fascinant, c’est de constater que plus que d’halluciner, l’IA nous fait halluciner (c’est-à-dire nous fait croire en ses effets), mais plus encore, hallucine la personne avec laquelle elle interagit (c’est-à-dire, nous hallucine nous-mêmes).
Les chercheurs de Harvard ont cherché à identifier les évolutions des suppositions des modèles selon l’origine ethnique dans les modèles qu’ils ont étudiés, sans pour l’instant y parvenir. Mais ils espèrent bien pouvoir contraindre leur modèle Llama à commencer à traiter un utilisateur comme riche ou pauvre, jeune ou vieux, homme ou femme. L’idée ici, serait d’orienter les réponses d’un modèle, par exemple, en lui faisant adopter un ton moins caustique ou plus pédagogique lorsqu’il identifie qu’il parle à un enfant. Pour Zittrain, l’enjeu ici est de mieux anticiper notre grande dépendance psychologique à l’égard de ces systèmes. Mais Zittrain en tire une autre conclusion : “Si nous considérons qu’il est moralement et sociétalement important de protéger les échanges entre les avocats et leurs clients, les médecins et leurs patients, les bibliothécaires et leurs usagers, et même les impôts et les contribuables, alors une sphère de protection claire devrait être instaurée entre les LLM et leurs utilisateurs. Une telle sphère ne devrait pas simplement servir à protéger la confidentialité afin que chacun puisse s’exprimer sur des sujets sensibles et recevoir des informations et des conseils qui l’aident à mieux comprendre des sujets autrement inaccessibles. Elle devrait nous inciter à exiger des créateurs et des opérateurs de modèles qu’ils s’engagent à être les amis inoffensifs, serviables et honnêtes qu’ils sont si soigneusement conçus pour paraître”.
Inoffensifs, serviables et honnêtes, voilà qui semble pour le moins naïf. Rendre visible les inférences des modèles, faire qu’ils nous reconnectent aux humains plutôt qu’ils ne nous en éloignent, semblerait bien préférable, tant la polyvalence et la puissance remarquables des LLM rendent impératifs de comprendre et d’anticiper la dépendance potentielle des individus à leur égard. En tout cas, obtenir des outils pour nous aider à saisir à qui ils croient s’adresser plutôt que de nous laisser seuls face à leur interface semble une piste riche en promesses.
Hubert Guillaud
-
Dans les algorithmes
-
Qui est l’utilisateur des LLM ?
Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette comp
Qui est l’utilisateur des LLM ?
Les grands modèles de langage ne sont pas interprétables, rappelle le professeur de droit Jonathan Zittrain dans une tribune pour le New York Times, en préfiguration d’un nouveau livre à paraître. Ils demeurent des boîtes noires, dont on ne parvient pas à comprendre pourquoi ces modèles peuvent parfois dialoguer si intelligemment et pourquoi ils commettent à d’autres moments des erreurs si étranges. Mieux comprendre certains des mécanismes de fonctionnement de ces modèles et utiliser cette compréhension pour les améliorer, est pourtant essentiel, comme l’expliquait le PDG d’Anthropic. Anthropic a fait des efforts en ce sens, explique le juriste en identifiant des caractéristiques lui permettant de mieux cartographier son modèle. Meta, la société mère de Facebook, a publié des versions toujours plus sophistiquées de son grand modèle linguistique, Llama, avec des paramètres librement accessibles (on parle de “poids ouverts” permettant d’ajuster les paramètres des modèles). Transluce, un laboratoire de recherche à but non lucratif axé sur la compréhension des systèmes d’IA, a développé une méthode permettant de générer des descriptions automatisées des mécanismes de Llama 3.1. Celles-ci peuvent être explorées à l’aide d’un outil d’observabilité qui montre la nature du modèle et vise à produire une “interprétabilité automatisée” en produisant des descriptions lisibles par l’homme des composants du modèle. L’idée vise à montrer comment les modèles « pensent » lorsqu’ils discutent avec un utilisateur, et à permettre d’ajuster cette pensée en modifiant directement les calculs qui la sous-tendent. Le laboratoire Insight + Interaction du département d’informatique de Harvard, dirigé par Fernanda Viégas et Martin Wattenberg, ont exécuté Llama sur leur propre matériel et ont découverts que diverses fonctionnalités s’activent et se désactivent au cours d’une conversation.
Des croyances du modèle sur son interlocuteur
Viégas est brésilienne. Elle conversait avec ChatGPT en portugais et a remarqué, lors d’une conversation sur sa tenue pour un dîner de travail, que ChatGPT utilisait systématiquement la déclinaison masculine. Cette grammaire, à son tour, semblait correspondre au contenu de la conversation : GPT a suggéré un costume pour le dîner. Lorsqu’elle a indiqué qu’elle envisageait plutôt une robe, le LLM a changé son utilisation du portugais pour la déclinaison féminine. Llama a montré des schémas de conversation similaires. En observant les fonctionnalités internes, les chercheurs ont pu observer des zones du modèle qui s’illuminent lorsqu’il utilise la forme féminine, contrairement à lorsqu’il s’adresse à quelqu’un. en utilisant la forme masculine. Viégas et ses collègues ont constaté des activations corrélées à ce que l’on pourrait anthropomorphiser comme les “croyances du modèle sur son interlocuteur”. Autrement dit, des suppositions et, semble-t-il, des stéréotypes corrélés selon que le modèle suppose qu’une personne est un homme ou une femme. Ces croyances se répercutent ensuite sur le contenu de la conversation, l’amenant à recommander des costumes pour certains et des robes pour d’autres. De plus, il semble que les modèles donnent des réponses plus longues à ceux qu’ils croient être des hommes qu’à ceux qu’ils pensent être des femmes. Viégas et Wattenberg ont non seulement trouvé des caractéristiques qui suivaient le sexe de l’utilisateur du modèle, mais aussi qu’elles s’adaptaient aux inférences du modèle selon ce qu’il pensait du statut socio-économique, de son niveau d’éducation ou de l’âge de son interlocuteur. Le LLM cherche à s’adapter en permanence à qui il pense converser, d’où l’importance à saisir ce qu’il infère de son interlocuteur en continue.
Un tableau de bord pour comprendre comment l’IA s’adapte en continue à son interlocuteur
Les deux chercheurs ont alors créé un tableau de bord en parallèle à l’interface de chat du LLM qui permet aux utilisateurs d’observer l’évolution des hypothèses que fait le modèle au fil de leurs échanges (ce tableau de bord n’est pas accessible en ligne). Ainsi, quand on propose une suggestion de cadeau pour une fête prénatale, il suppose que son interlocuteur est jeune, de sexe féminin et de classe moyenne. Il suggère alors des couches et des lingettes, ou un chèque-cadeau. Si on ajoute que la fête a lieu dans l’Upper East Side de Manhattan, le tableau de bord montre que le LLM modifie son estimation du statut économique de son interlocuteur pour qu’il corresponde à la classe supérieure et suggère alors d’acheter des produits de luxe pour bébé de marques haut de gamme.
Un article pour Harvard Magazine de 2023 rappelle comment est né ce projet de tableau de bord de l’IA, permettant d’observer son comportement en direct. Fernanda Viegas est professeur d’informatique et spécialiste de visualisation de données. Elle codirige Pair, un laboratoire de Google (voir le blog dédié). En 2009, elle a imaginé Web Seer est un outil de visualisation de données qui permet aux utilisateurs de comparer les suggestions de saisie semi-automatique pour différentes recherches Google, par exemple selon le genre. L’équipe a développé un outil permettant aux utilisateurs de saisir une phrase et de voir comment le modèle de langage BERT compléterait le mot manquant si un mot de cette phrase était supprimé.
Pour Viegas, « l’enjeu de la visualisation consiste à mesurer et exposer le fonctionnement interne des modèles d’IA que nous utilisons ». Pour la chercheuse, nous avons besoin de tableaux de bord pour aider les utilisateurs à comprendre les facteurs qui façonnent le contenu qu’ils reçoivent des réponses des modèles d’IA générative. Car selon la façon dont les modèles nous perçoivent, leurs réponses ne sont pas les mêmes. Or, pour comprendre que leurs réponses ne sont pas objectives, il faut pouvoir doter les utilisateurs d’une compréhension de la perception que ces outils ont de leurs utilisateurs. Par exemple, si vous demandez les options de transport entre Boston et Hawaï, les réponses peuvent varier selon la perception de votre statut socio-économique « Il semble donc que ces systèmes aient internalisé une certaine notion de notre monde », explique Viégas. De même, nous voudrions savoir ce qui, dans leurs réponses, s’inspire de la réalité ou de la fiction. Sur le site de Pair, on trouve de nombreux exemples d’outils de visualisation interactifs qui permettent d’améliorer la compréhension des modèles (par exemple, pour mesurer l’équité d’un modèle ou les biais ou l’optimisation de la diversité – qui ne sont pas sans rappeler les travaux de Victor Bret et ses “explications à explorer” interactives.
Ce qui est fascinant ici, c’est combien la réponse n’est pas tant corrélée à tout ce que le modèle a avalé, mais combien il tente de s’adapter en permanence à ce qu’il croit deviner de son interlocuteur. On savait déjà, via une étude menée par Valentin Hofmann que, selon la manière dont on leur parle, les grands modèles de langage ne font pas les mêmes réponses.
“Les grands modèles linguistiques ne se contentent pas de décrire les relations entre les mots et les concepts”, pointe Zittrain : ils assimilent également des stéréotypes qu’ils recomposent à la volée. On comprend qu’un grand enjeu désormais soit qu’ils se souviennent des conversations passées pour ajuster leur compréhension de leur interlocuteur, comme l’a annoncé OpenAI, suivi de Google et Grok. Le problème n’est peut-être pas qu’ils nous identifient précisément, mais qu’ils puissent adapter leurs propositions, non pas à qui nous sommes, mais bien plus problématiquement, à qui ils pensent s’adresser, selon par exemple ce qu’ils évaluent de notre capacité à payer. Un autre problème consiste à savoir si cette “compréhension” de l’interlocuteur peut-être stabilisée où si elle se modifie sans cesse, comme c’est le cas des étiquettes publicitaires que nous accolent les sites sociaux. Devrons-nous demain batailler quand les modèles nous mécalculent ou nous renvoient une image, un profil, qui ne nous correspond pas ? Pourrons-nous même le faire, quand aujourd’hui, les plateformes ne nous offrent pas la main sur nos profils publicitaires pour les ajuster aux données qu’ils infèrent ?
Ce qui est fascinant, c’est de constater que plus que d’halluciner, l’IA nous fait halluciner (c’est-à-dire nous fait croire en ses effets), mais plus encore, hallucine la personne avec laquelle elle interagit (c’est-à-dire, nous hallucine nous-mêmes).
Les chercheurs de Harvard ont cherché à identifier les évolutions des suppositions des modèles selon l’origine ethnique dans les modèles qu’ils ont étudiés, sans pour l’instant y parvenir. Mais ils espèrent bien pouvoir contraindre leur modèle Llama à commencer à traiter un utilisateur comme riche ou pauvre, jeune ou vieux, homme ou femme. L’idée ici, serait d’orienter les réponses d’un modèle, par exemple, en lui faisant adopter un ton moins caustique ou plus pédagogique lorsqu’il identifie qu’il parle à un enfant. Pour Zittrain, l’enjeu ici est de mieux anticiper notre grande dépendance psychologique à l’égard de ces systèmes. Mais Zittrain en tire une autre conclusion : “Si nous considérons qu’il est moralement et sociétalement important de protéger les échanges entre les avocats et leurs clients, les médecins et leurs patients, les bibliothécaires et leurs usagers, et même les impôts et les contribuables, alors une sphère de protection claire devrait être instaurée entre les LLM et leurs utilisateurs. Une telle sphère ne devrait pas simplement servir à protéger la confidentialité afin que chacun puisse s’exprimer sur des sujets sensibles et recevoir des informations et des conseils qui l’aident à mieux comprendre des sujets autrement inaccessibles. Elle devrait nous inciter à exiger des créateurs et des opérateurs de modèles qu’ils s’engagent à être les amis inoffensifs, serviables et honnêtes qu’ils sont si soigneusement conçus pour paraître”.
Inoffensifs, serviables et honnêtes, voilà qui semble pour le moins naïf. Rendre visible les inférences des modèles, faire qu’ils nous reconnectent aux humains plutôt qu’ils ne nous en éloignent, semblerait bien préférable, tant la polyvalence et la puissance remarquables des LLM rendent impératifs de comprendre et d’anticiper la dépendance potentielle des individus à leur égard. En tout cas, obtenir des outils pour nous aider à saisir à qui ils croient s’adresser plutôt que de nous laisser seuls face à leur interface semble une piste riche en promesses.
Hubert Guillaud
-
Dans les algorithmes
-
Dans les défaillances des décisions automatisées
Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action. Opacité et défaillance généralisée En 2020 déjà, la grande associat
Dans les défaillances des décisions automatisées
Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action.
Opacité et défaillance généralisée
En 2020 déjà, la grande association européenne de défense des droits numériques, Algorithm Watch, expliquait dans un rapport que ces systèmes se généralisaient dans la plus grande opacité. Alors que le calcul est partout, l’association soulignait que si ces déploiements pouvaient être utiles, très peu de cas montraient de « manière convaincante un impact positif ». La plupart des systèmes de décision automatisés mettent les gens en danger plus qu’ils ne les protègent, disait déjà l’association.
Dans son inventaire des algorithmes publics, l’Observatoire des algorithmes publics montre, très concrètement, combien le déploiement des systèmes de prise de décision automatisée reste opaque, malgré les obligations de transparence qui incombent aux systèmes.
Avec son initiative France Contrôle, la Quadrature du Net, accompagnée de collectifs de lutte contre la précarité, documente elle aussi le déploiement des algorithmes de contrôle social et leurs défaillances. Dès 2018, les travaux pionniers de la politiste Virginia Eubanks, nous ont appris que les systèmes électroniques mis en place pour calculer, distribuer et contrôler l’aide sociale sont bien souvent particulièrement défaillants, et notamment les systèmes automatisés censés lutter contre la fraude, devenus l’alpha et l’oméga des politiques publiques austéritaires.
Malgré la Loi pour une République numérique (2016), la transparence de ces calculs, seule à même de dévoiler et corriger leurs défaillances, ne progresse pas. On peut donc se demander, assez légitimement, ce qu’il y a cacher.
A mesure que ces systèmes se déploient, ce sont donc les enquêtes des syndicats, des militants, des chercheurs, des journalistes qui documentent les défaillances des décisions automatisées dans tous les secteurs de la société où elles sont présentes.
Ces enquêtes sont rendues partout difficiles, d’abord et avant tout parce qu’on ne peut saisir les paramètres des systèmes de décision automatisée sans y accéder.
3 problèmes récurrents
S’il est difficile de faire un constat global sur les défaillances spécifiques de tous les systèmes automatisés, qu’ils s’appliquent à la santé, l’éducation, le social ou l’économie, on peut néanmoins noter 3 problèmes récurrents.
Les erreurs ne sont pas un problème pour les structures qui calculent. Pour le dire techniquement, la plupart des acteurs qui produisent des systèmes de décision automatisée produisent des faux positifs importants, c’est-à-dire catégorisent des personnes indûment. Dans les systèmes bancaires par exemple, comme l’a montré une belle enquête de l’AFP et d’Algorithm Watch, certaines activités déclenchent des alertes et conduisent à qualifier les profils des clients comme problématiques voire à suspendre les possibilités bancaires d’individus ou d’organisations, sans qu’elles n’aient à rendre de compte sur ces suspensions.
Au contraire, parce qu’elles sont invitées à la vigilance face aux activités de fraude, de blanchiment d’argent ou le financement du terrorisme, elles sont encouragées à produire des faux positifs pour montrer qu’elles agissent, tout comme les organismes sociaux sont poussés à détecter de la fraude pour atteindre leurs objectifs de contrôle.
Selon les données de l’autorité qui contrôle les banques et les marchés financiers au Royaume-Uni, 170 000 personnes ont vu leur compte en banque fermé en 2021-2022 en lien avec la lutte anti-blanchiment, alors que seulement 1083 personnes ont été condamnées pour ce délit.
Le problème, c’est que les organismes de calculs n’ont pas d’intérêt à corriger ces faux positifs pour les atténuer. Alors que, si ces erreurs ne sont pas un problème pour les structures qui les produisent, elles le sont pour les individus qui voient leurs comptes clôturés, sans raison et avec peu de possibilités de recours. Il est nécessaire pourtant que les taux de risques détectés restent proportionnels aux taux effectifs de condamnation, afin que les niveaux de réduction des risques ne soient pas portés par les individus.
Le même phénomène est à l’œuvre quand la CAF reconnaît que son algorithme de contrôle de fraude produit bien plus de contrôle sur certaines catégories sociales de la population, comme le montrait l’enquête du Monde et de Lighthouse reports et les travaux de l’association Changer de Cap. Mais, pour les banques, comme pour la CAF, ce surciblage, ce surdiagnostic, n’a pas d’incidence directe, au contraire…
Pour les organismes publics le taux de détection automatisée est un objectif à atteindre explique le syndicat Solidaires Finances Publiques dans son enquête sur L’IA aux impôts, qu’importe si cet objectif est défaillant pour les personnes ciblées. D’où l’importance de mettre en place un ratio d’impact sur les différents groupes démographiques et des taux de faux positifs pour limiter leur explosion. La justesse des calculs doit être améliorée.
Pour cela, il est nécessaire de mieux contrôler le taux de détection des outils et de trouver les modalités pour que ces taux ne soient pas disproportionnés. Sans cela, on le comprend, la maltraitance institutionnelle que dénonce ATD Quart Monde est en roue libre dans les systèmes, quels qu’ils soient.
Dans les difficultés, les recours sont rendus plus compliqués. Quand ces systèmes mé-calculent les gens, quand ils signalent leurs profils comme problématiques ou quand les dossiers sont mis en traitement, les possibilités de recours sont bien souvent automatiquement réduites. Le fait d’être soupçonné de problème bancaire diminue vos possibilités de recours plutôt qu’elle ne les augmente.
A la CAF, quand l’accusation de fraude est déclenchée, la procédure de recours pour les bénéficiaires devient plus complexe. Dans la plateforme dématérialisée pour les demandes de titres de séjour dont le Défenseur des droits pointait les lacunes dans un récent rapport, les usagers ne peuvent pas signaler un changement de lieu de résidence quand une demande est en cours.
Or, c’est justement quand les usagers sont confrontés à des difficultés, que la discussion devrait être rendue plus fluide, plus accessible. En réalité, c’est bien souvent l’inverse que l’on constate. Outre les explications lacunaires des services, les possibilités de recours sont réduites quand elles devraient être augmentées. L’alerte réduit les droits alors qu’elle devrait plutôt les ouvrir.
Enfin, l’interconnexion des systèmes crée des boucles de défaillances dont les effets s’amplifient très rapidement. Les boucles d’empêchements se multiplient sans issue. Les alertes et les faux positifs se répandent. L’automatisation des droits conduit à des évictions en cascade dans des systèmes où les organismes se renvoient les responsabilités sans être toujours capables d’agir sur les systèmes de calcul. Ces difficultés nécessitent de mieux faire valoir les droits d’opposition des calculés. La prise en compte d’innombrables données pour produire des calculs toujours plus granulaires, pour atténuer les risques, produit surtout des faux positifs et une complexité de plus en plus problématique pour les usagers.
Responsabiliser les calculs du social
Nous avons besoin de diminuer les données utilisées pour les calculs du social, explique le chercheur Arvind Narayanan, notamment parce que cette complexité, au prétexte de mieux calculer le social, bien souvent, n’améliore pas les calculs, mais renforce leur opacité et les rend moins contestables. Les calculs du social doivent n’utiliser que peu de données, doivent rester compréhensibles, transparents, vérifiables et surtout opposables… Collecter peu de données cause moins de problèmes de vie privée, moins de problèmes légaux comme éthiques… et moins de discriminations.
Renforcer le contrôle des systèmes, notamment mesurer leur ratio d’impact et les taux de faux positifs. Améliorer les droits de recours des usagers, notamment quand ces systèmes les ciblent et les désignent. Et surtout, améliorer la participation des publics aux calculs, comme nous y invitent le récent rapport du Défenseur des droits sur la dématérialisation et les algorithmes publics.
A mesure qu’ils se répandent, à mesure qu’ils accèdent à de plus en plus de données, les risques de défaillances des calculs s’accumulent. Derrière ces défaillances, c’est la question même de la justice qui est en cause. On ne peut pas accepter que les banques ferment chaque année des centaines de milliers de comptes bancaires, quand seulement un millier de personnes sont condamnées.
On ne peut pas accepter que la CAF détermine qu’il y aurait des centaines de milliers de fraudeurs, quand dans les faits, très peu sont condamnés pour fraude. La justice nécessite que les calculs du social soient raccords avec la réalité. Nous n’y sommes pas.
Hubert Guillaud
Cet édito a été publié originellement sous forme de tribune pour le Club de Mediapart, le 4 avril 2025 à l’occasion de la publication du livre, Les algorithmes contre la société aux éditions La Fabrique.
-
Dans les algorithmes
-
Dans les défaillances des décisions automatisées
Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action. Opacité et défaillance généralisée En 2020 déjà, la grande associat
Dans les défaillances des décisions automatisées
Les systèmes de prise de décision automatisée (ADM, pour automated decision-making) sont partout. Ils touchent tous les types d’activités humaines et notamment la distribution de services publics à des millions de citoyens européens mais également nombre de services privés essentiels, comme la banque, la fixation des prix ou l’assurance. Partout, les systèmes contrôlent l’accès à nos droits et à nos possibilités d’action.
Opacité et défaillance généralisée
En 2020 déjà, la grande association européenne de défense des droits numériques, Algorithm Watch, expliquait dans un rapport que ces systèmes se généralisaient dans la plus grande opacité. Alors que le calcul est partout, l’association soulignait que si ces déploiements pouvaient être utiles, très peu de cas montraient de « manière convaincante un impact positif ». La plupart des systèmes de décision automatisés mettent les gens en danger plus qu’ils ne les protègent, disait déjà l’association.
Dans son inventaire des algorithmes publics, l’Observatoire des algorithmes publics montre, très concrètement, combien le déploiement des systèmes de prise de décision automatisée reste opaque, malgré les obligations de transparence qui incombent aux systèmes.
Avec son initiative France Contrôle, la Quadrature du Net, accompagnée de collectifs de lutte contre la précarité, documente elle aussi le déploiement des algorithmes de contrôle social et leurs défaillances. Dès 2018, les travaux pionniers de la politiste Virginia Eubanks, nous ont appris que les systèmes électroniques mis en place pour calculer, distribuer et contrôler l’aide sociale sont bien souvent particulièrement défaillants, et notamment les systèmes automatisés censés lutter contre la fraude, devenus l’alpha et l’oméga des politiques publiques austéritaires.
Malgré la Loi pour une République numérique (2016), la transparence de ces calculs, seule à même de dévoiler et corriger leurs défaillances, ne progresse pas. On peut donc se demander, assez légitimement, ce qu’il y a cacher.
A mesure que ces systèmes se déploient, ce sont donc les enquêtes des syndicats, des militants, des chercheurs, des journalistes qui documentent les défaillances des décisions automatisées dans tous les secteurs de la société où elles sont présentes.
Ces enquêtes sont rendues partout difficiles, d’abord et avant tout parce qu’on ne peut saisir les paramètres des systèmes de décision automatisée sans y accéder.
3 problèmes récurrents
S’il est difficile de faire un constat global sur les défaillances spécifiques de tous les systèmes automatisés, qu’ils s’appliquent à la santé, l’éducation, le social ou l’économie, on peut néanmoins noter 3 problèmes récurrents.
Les erreurs ne sont pas un problème pour les structures qui calculent. Pour le dire techniquement, la plupart des acteurs qui produisent des systèmes de décision automatisée produisent des faux positifs importants, c’est-à-dire catégorisent des personnes indûment. Dans les systèmes bancaires par exemple, comme l’a montré une belle enquête de l’AFP et d’Algorithm Watch, certaines activités déclenchent des alertes et conduisent à qualifier les profils des clients comme problématiques voire à suspendre les possibilités bancaires d’individus ou d’organisations, sans qu’elles n’aient à rendre de compte sur ces suspensions.
Au contraire, parce qu’elles sont invitées à la vigilance face aux activités de fraude, de blanchiment d’argent ou le financement du terrorisme, elles sont encouragées à produire des faux positifs pour montrer qu’elles agissent, tout comme les organismes sociaux sont poussés à détecter de la fraude pour atteindre leurs objectifs de contrôle.
Selon les données de l’autorité qui contrôle les banques et les marchés financiers au Royaume-Uni, 170 000 personnes ont vu leur compte en banque fermé en 2021-2022 en lien avec la lutte anti-blanchiment, alors que seulement 1083 personnes ont été condamnées pour ce délit.
Le problème, c’est que les organismes de calculs n’ont pas d’intérêt à corriger ces faux positifs pour les atténuer. Alors que, si ces erreurs ne sont pas un problème pour les structures qui les produisent, elles le sont pour les individus qui voient leurs comptes clôturés, sans raison et avec peu de possibilités de recours. Il est nécessaire pourtant que les taux de risques détectés restent proportionnels aux taux effectifs de condamnation, afin que les niveaux de réduction des risques ne soient pas portés par les individus.
Le même phénomène est à l’œuvre quand la CAF reconnaît que son algorithme de contrôle de fraude produit bien plus de contrôle sur certaines catégories sociales de la population, comme le montrait l’enquête du Monde et de Lighthouse reports et les travaux de l’association Changer de Cap. Mais, pour les banques, comme pour la CAF, ce surciblage, ce surdiagnostic, n’a pas d’incidence directe, au contraire…
Pour les organismes publics le taux de détection automatisée est un objectif à atteindre explique le syndicat Solidaires Finances Publiques dans son enquête sur L’IA aux impôts, qu’importe si cet objectif est défaillant pour les personnes ciblées. D’où l’importance de mettre en place un ratio d’impact sur les différents groupes démographiques et des taux de faux positifs pour limiter leur explosion. La justesse des calculs doit être améliorée.
Pour cela, il est nécessaire de mieux contrôler le taux de détection des outils et de trouver les modalités pour que ces taux ne soient pas disproportionnés. Sans cela, on le comprend, la maltraitance institutionnelle que dénonce ATD Quart Monde est en roue libre dans les systèmes, quels qu’ils soient.
Dans les difficultés, les recours sont rendus plus compliqués. Quand ces systèmes mé-calculent les gens, quand ils signalent leurs profils comme problématiques ou quand les dossiers sont mis en traitement, les possibilités de recours sont bien souvent automatiquement réduites. Le fait d’être soupçonné de problème bancaire diminue vos possibilités de recours plutôt qu’elle ne les augmente.
A la CAF, quand l’accusation de fraude est déclenchée, la procédure de recours pour les bénéficiaires devient plus complexe. Dans la plateforme dématérialisée pour les demandes de titres de séjour dont le Défenseur des droits pointait les lacunes dans un récent rapport, les usagers ne peuvent pas signaler un changement de lieu de résidence quand une demande est en cours.
Or, c’est justement quand les usagers sont confrontés à des difficultés, que la discussion devrait être rendue plus fluide, plus accessible. En réalité, c’est bien souvent l’inverse que l’on constate. Outre les explications lacunaires des services, les possibilités de recours sont réduites quand elles devraient être augmentées. L’alerte réduit les droits alors qu’elle devrait plutôt les ouvrir.
Enfin, l’interconnexion des systèmes crée des boucles de défaillances dont les effets s’amplifient très rapidement. Les boucles d’empêchements se multiplient sans issue. Les alertes et les faux positifs se répandent. L’automatisation des droits conduit à des évictions en cascade dans des systèmes où les organismes se renvoient les responsabilités sans être toujours capables d’agir sur les systèmes de calcul. Ces difficultés nécessitent de mieux faire valoir les droits d’opposition des calculés. La prise en compte d’innombrables données pour produire des calculs toujours plus granulaires, pour atténuer les risques, produit surtout des faux positifs et une complexité de plus en plus problématique pour les usagers.
Responsabiliser les calculs du social
Nous avons besoin de diminuer les données utilisées pour les calculs du social, explique le chercheur Arvind Narayanan, notamment parce que cette complexité, au prétexte de mieux calculer le social, bien souvent, n’améliore pas les calculs, mais renforce leur opacité et les rend moins contestables. Les calculs du social doivent n’utiliser que peu de données, doivent rester compréhensibles, transparents, vérifiables et surtout opposables… Collecter peu de données cause moins de problèmes de vie privée, moins de problèmes légaux comme éthiques… et moins de discriminations.
Renforcer le contrôle des systèmes, notamment mesurer leur ratio d’impact et les taux de faux positifs. Améliorer les droits de recours des usagers, notamment quand ces systèmes les ciblent et les désignent. Et surtout, améliorer la participation des publics aux calculs, comme nous y invitent le récent rapport du Défenseur des droits sur la dématérialisation et les algorithmes publics.
A mesure qu’ils se répandent, à mesure qu’ils accèdent à de plus en plus de données, les risques de défaillances des calculs s’accumulent. Derrière ces défaillances, c’est la question même de la justice qui est en cause. On ne peut pas accepter que les banques ferment chaque année des centaines de milliers de comptes bancaires, quand seulement un millier de personnes sont condamnées.
On ne peut pas accepter que la CAF détermine qu’il y aurait des centaines de milliers de fraudeurs, quand dans les faits, très peu sont condamnés pour fraude. La justice nécessite que les calculs du social soient raccords avec la réalité. Nous n’y sommes pas.
Hubert Guillaud
Cet édito a été publié originellement sous forme de tribune pour le Club de Mediapart, le 4 avril 2025 à l’occasion de la publication du livre, Les algorithmes contre la société aux éditions La Fabrique.