« On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 »

Je vous propose un fil lecture et résumé de cet article de @emilymbender, @timnitGebru, @mcmillan_majora et @mmitchell_ai, qui expose avec clarté les enjeux actuels autour de l'IA appliquée au langage.
Les autrices s'intéressent en particulier aux enjeux liés aux modèles de langage. Il s'agit de modèles d'IA dont la fonction est de produire des phrases, du texte.

Il peut s'agir de traduction, de sous-titrage automatique, de légender des photographies, etc...
Les enjeux développés s'articulent autour de trois grands axes : l'impact environnemental de ces modèles, leur tendance à amplifier les biais, et notre tendance à percevoir du sens dans leurs propos alors qu'il n'y en a pas.

Mais on va voir que ces trois aspects sont liés.
L'impact environnemental de ces modèles est lié à leur consommation énergétique.

Les modèles de langages récents deviennent très gros, et sont entraînés sur des bases de données gigantesques, ce qui requiert de grands temps de calcul sur des serveurs de calcul.
Pour donner un ordre de grandeur, la quantité de CO2 indirectement émise pour l'entraînement un de ces modèles peut se comparer aux émissions annuelles d'une soixantaine de personnes, ou à un vol en avion trans-américain.
Chaque tentative d'améliorer, même marginalement, la performance de ces modèles, s'accompagne généralement d'une augmentation des émissions de CO2 liées à leur entraînement et leur utilisation.

La question écologique de cela pose est évidente.
Mais également, les autrices soulignent un aspect trop souvent oublié de la question : les gains associés à l'amélioration des modèles bénéficient à des personnes très différentes de celles qui vont devoir en payer les coûts écologiques.
En effet, les modèles de langages sont principalement développés pour l'anglais, et servent surtout des personnes vivant dans des pays riches, qui sont les pays qui souffrent et souffriront le moins des conséquences du réchauffement climatiques.
Compte tenu des effets déjà présents et prédits du réchauffement climatique, la course énergivore aux modèles toujours plus gros apparaît donc comme profondément irresponsable.
Les autrices appellent donc à recentrer la recherche sur l'efficacité énergétique des modèles, et notamment à ce que soit explicité le coût d'entraînement des nouveaux modèles proposés dans les articles scientifiques, plutôt que seulement leur performance sur les benchmarks.
La partie suivante de l'article est centrée sur la question des données d'entraînement utilisées pour ces modèles.

Il s'agit en pratique de corpus de textes extraits depuis internet, en épluchant les réseaux sociaux et les articles qui y sont partagés.
Se pose la question d'à quel point ces corpus sont représentatifs de la diversité réelle du monde.

Et il apparaît que les procédés de conception de corpus aboutissent à une sur-représentation de visions du monde qui sont déjà hégémoniques dans la société.
Ce déséquilibre se joue sur plusieurs niveaux.

Tout d'abord, certaines populations sont sur-représentées sur internet.

Par exemple, les 2/3 des personnes inscrites sur reddit sont des hommes. Ou encore, moins de 15% des personnes contribuant à wikipédia sont des femmes.
Par ailleurs les dynamiques au sein de ces plateformes font que certains points de vues y sont plus visibles. Twitter par exemple s'illustre par sa tendance à plus facilement bannir les personnes cibles de harcèlement que les personnes qui les harcèlent.
Ceci crée donc un environnement qui est hostile à de nombreuses personnes, qui les rend moins propices à s'y exprimer librement, et donc à contribuer aux corpus qui servent ensuite à entraîner les modèles du langage. [..] le harcèlement sur Twitter est subi par "un large
Ces personnes marginalisées ont tendance à créer leurs propres communautés, sous la forme de forums ou de groupes alternatifs.

Mais les contenus produits sur ces communautés ont moins de chances d'être inclus dans les corpus qui serviront d'entraînement aux modèles de langage.
En effet, ces contenus sont plus rarement partagés sur les gros réseaux sociaux publics (Twitter / reddit / ...) qui servent de point de départ à la construction des corpus d'entraînement.
Et finalement, il y a une tendance au filtrage de contenus inappropriés sur la base de mots-clefs.

L'objectif est de retirer des corpus d'entraînement les textes haineux, pornographiques, illégaux, etc... Et cet objectif est plutôt atteint.
Mais faire ce filtrage sur la base de mot-clefs participe également à renforcer l'invisibilisation des personnes déjà marginalisées, au sein de communautés qui se sont réapproprié ce vocabulaire par exemple. Le "Colossal Clean Crawled Corpus" [...] est netto
Tout le processus visant à construire les corpus d'entraînement de ces modèles, à chaque étape, participe donc à un peu plus invisibiliser les voix des personnes déjà marginalisées.

Une démonstration claire du fait que les « données » ne sont pas « données », mais construites.
Cette construction de corpus et leur cristallisation dans les modèles entraînés dessus tendent de plus à figer le langage. Or les évolutions et les luttes sociales passent largement par la création langagière : le langage peut sur ces points beaucoup évoluer en quelques années.
Mais il est peu probable que les grandes entreprises utilisant ce type de modèles du langage fassent l'effort de mettre à jour leurs corpus et ré-entraîner leurs modèles tous les ans.

Ces modèles vont donc participer à freiner les évolutions du langage, et donc des mentalités.
Toutes ces conditions font que ces modèles de langage ont une forte tendance à apprendre des associations de mots très biaisées en faveur ou défaveur de certaines visions du monde.
Ces biais se présentent même de manière intersectionnelle : on a constaté que les modèles pouvaient être encore plus biaisés contre des populations marginalisées selon plusieurs dimensions que simplement la somme des biais de chaque dimension.
Identifier et lutter contre ces biais est un problème complexe, qui ne peut pas être traité sans être couplé à une analyse des dynamiques de pouvoir dans la société, le caractère toxique d'un propos dépendant notamment de son contexte socio-culturel.
Face à ces risques, les autrices mettent en garde contre ce qu'elles nomment la « dette de documentation » : quand sont créés des corpus tellement gigantesques qu'on ne sait pas vraiment ce qu'ils contiennent et qu'il est impossible de revenir les étudier a-posteriori.
Plutôt que de continuer à entraîner des modèles sur ce type de corpus, elles encouragent plutôt à la création de corpus plus petits mais de meilleure qualité, et documentés avec précision.
Ceci implique donc d'allouer clairement des moyens à la constitution de tels corpus de qualité, et non de traiter cet aspect comme un détail qu'on va confier aux stagiaires.
Finalement, le troisième aspect du problème est sur une tendance humaine à donner du sens à des textes et propos qui n'en ont pas.
La communication se joue à deux niveaux : il y a la forme (l'enchaînement des mots dans les phrases), mais également le contexte, souvent implicite, supposé partagé entre les personnes qui communiquent.
Pour donner du sens à un propos, nous combinons son contenu explicite (les mots), avec le contexte que nous supposons être celui de la personne qui a produit ces mots.

C'est la fusion de ces deux information qui crée notre compréhension dudit propos.
Cependant les modèles de langage n'ont pas accès à ce contexte, et ne travaillent pas dessus. Ils se content d'associer des mots ensemble, d'une manière problématiquement cohérente avec leur corpus d'entraînement.
C'est nous qui, à la lecture des textes générés par ces modèles, supposons (sans nous en rendre compte), un contexte implicite qui donne du sens et de la cohérence à ces phrases.
Mais ce contexte implicite supposé ne peut pas être correct dans ce cas, car le modèle ne s'appuie pas sur un tel contexte.

La cohérence que nous percevons dans les textes produits par le modèle est donc une illusion, produite par notre cerveau qui comble les trous.
Comme quand on croit déceler une intention de communication dans les phrases répétées par un perroquet.

Ces modèles se comportent comme des perroquets probabilistes.
Cette illusion nous pousse ensuite à donner une trop grande confiance en ces modèles, qui nous donnent l'impression de réellement comprendre ce qu'ils disent ou écrivent.

Cet abus de confiance affecte autant la recherche que l'utilisation de ces modèles.
De ce point de vue, les efforts gargantuesques mis dans la conception de modèles toujours plus gros pour battre des benchmarks toujours plus complexes ne nous approchent donc pas réellement d'une véritable compréhension du langage par des systèmes automatisés.
Enfin, ces différentes problématiques se combinent entre elles lorsqu'il s'agit de déployer de tels modèles de manière large.

Les textes produits par ces modèles vont interagir avec des personnes qui vont les interpréter, et y voir des intentions.
Ces textes vont influer les personnes en renforçant l'utilisation de certains termes ou associations de termes qui, en contexte, vont renforcer des positions hégémoniques, contribuant à marginaliser plus les personnes qui le sont déjà. Par exemple, décrire une femme décrivant son expérience d
Et ça peut produire une boucle de rétroaction sur les IA elles-mêmes : les textes produits par des modèles peuvent plus tard, volontairement ou non, être intégrés à de nouveaux corpus d'entraînement de nouveaux modèles, renforçant encore un peu plus les biais déjà évoqués.
Il y a également de risques à un niveau individuel.

Du texte produit par un de ces modèles peut mettre une personne face à une violence verbale, perpétuant des micro-agressions.

Il peut également renforcer des stéréotypes déjà existants.
De manière plus pernicieuse, si le modèle est utilisé de manière interne pour prendre de décisions ou allouer des ressources, il peut perpétuer des préjugés et de la discrimination sans que ça soit clairement visible par qui que ce soit.
De manière malveillante, certaines personnes pourront trouver comment influer ces modèles (en jouant sur les textes auxquels on leur demande de répondre), pour exacerber leur tendance à produire des textes stéréotypés ou blessants envers d'autres personnes.
Appliqués à la traduction automatique, la qualité apparente de ces modèles peut nous donner une confiance non légitime dans leur capacité à effectivement traduire correctement les textes.
Les autrices citent notamment cet exemple où une mauvaise traduction automatique par Facebook a causé l'arrestation d'un palestinien qui avait simplement écrit "bonjour" sur mon mur, que l'algorithme a traduit par "faites leur du mal".

theguardian.com/technology/201…
Et enfin, les modèles aussi larges ont une forte tendance à apprendre par cœur une partie de leurs donnée d'entraînement, et il est souvent possible de les faire régurgiter une partie de ces données, de manière relativement fidèle.
Ceci pourrait être exploité pour obtenir des informations personnelles qui aurait été engrangées dans le corpus d'entraînement, ou pour obtenir des informations dangereuses ou illégales....
Pour aller de l'avant et mitiger ces risques et problèmes précédemment développés, les autrices ont plusieurs recommandations.

Dans l'ensemble, elles poussent pour une planification méticuleuse des modèles à l'avance.
Elles suggèrent de bien analyser l'objectif du modèle, et d'attribuer des ressources à la construction de corpus d’entraînement de manière pensée et prudente, plutôt que de simplement télécharger les grands réseaux sociaux.
Je garde notamment cette magnifique citation :

« Nourrir les systèmes d'IA avec la beauté, saleté et cruauté du monde, mais s'attendre à ce qu'ils ne reflettent que la beauté est fantaisiste. » [..] se tourner simplement vers des bases de données de tai
Les autrices invites également la communauté de la recherche sur les modèles de langage à réévaluer leurs objectifs.
Plutôt que simplement chercher à faire des modèles toujours plus gros, il faut s'atteler à anticiper l'interaction de ces modèles avec l'environnement socio-technique dans lequel ils sont plongés.
Elles invitent donc à réfléchir et anticiper ces question dès les premières étapes de la conception de ces modèles, et d'y allouer suffisamment de ressources pour faire cette tâche correctement.
L'article reconnaît par ailleurs que les gros modèles on également eu des impacts positifs sur des personnes marginalisées, en citant par exemple le sous-titrage automatique, qui augmente l'accessibilité des vidéos aux personnes malentendantes.
Mais dans ces cas, elles invitent à se poser la question : est-ce que d'énormes modèles entraînés sur des corpus gigantesques et de piètre qualité sont vraiment la seule manière d'arriver à ces effets positifs ?
Et si ces modèles sont effectivement indispensables, comment peut-on encadrer leur utilisation, tant d'un point de vue technique que légal, pour contrôler et maîtriser ces risques ?
Et nous voilà au bout de ce passionnant article. J'espère que mon résumé vous a plu !

SI vous lisez l'anglais, je vous invite à lire l'article directement, il est en accès libre, et est très peu technique.

Bonne soirée !
Précision a-posteriori : l'utilisation malveillante des biais appris par les modèles peut en fait s'étendre en fait au delà des seuls actes de production de textes, selon comment le modèle est intégré à un système plus large.

Et bien sûr, j'ai réussi à oublier le lien vers la version en accès libre de l'article. 🤦

Le voici :

faculty.washington.edu/ebender/papers…

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Cortex Nihilo

Cortex Nihilo Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @CortexNihilo

1 Mar
Hello Twitter,

Je suis d'humeur bavarde ce matin, donc un petit fil au croisement de la philosophie des probabilités et de la physique : l'entropie thermodynamique est-elle réelle ?

⬇️
Bien sûr, cette question est mal posée, notamment parce qu'il s'agit de bien définir ce que veut dire « être réel » dans ce contexte. Suivez-moi jusqu'au bout de ce fil, on va clarifier ça petit à petit.

⬇️
L'entropie est une fonction d'état connue et étudiée en thermodynamique depuis plus de 150 ans.

Mais déjà, qu'est-ce qu'une fonction d'état au juste ?
Read 46 tweets
14 Jan
J'ai vraiment l'impression qu'il y a une mécompréhension profonde sur la « critique de l'apolitisme » en lien avec la #zététique.

Le propos n'est pas de dire « on veut savoir pour qui tu votes avant que tu aies le droit de t'exprimer », loin de là.

1/14
Le propos, c'est de souligner que certains sujets ont des conséquences sur les personnes et sur la société dans son ensemble, et qu'ils sont reliés à des intérêts opposés au travers de la société.

Et a fortiori, qu'il est impossible de traiter ces sujets de manière neutre.

2/14
C'est ça que ces critiques désignent par « un sujet politique ».

Un sujet qui affecte la société, qui est à la rencontre de plusieurs intérêts différents, qui touche à nos valeurs, et sur lequel personne ne peut être neutre.

3/14
Read 14 tweets
19 Aug 20
Un sujet intéressant à l'intersection entre les mathématiques et la philosophie, c'est le débat Fréquentisme vs. Bayésianisme.

Les deux approches aboutissent au même formalisme mathématique, mais diffèrent dans ce que représente une probabilité, et à quoi on peut en assigner.
Le débat est donc philosophique, pas mathématique.

Mais cette différence philosophique affecte le choix de quels outils mathématiques seront utilisés dans quelles situations.

Regardons un peu les bases philosophiques de ces deux approches. ⬇️
⚠️ Je précise que ce que je vais décrire là est la version "puriste" de ces deux interprétations des probabilités.

La plupart des personnes concernées par l'utilisation des probabilités et statistiques ont une vision plus nuancée.
Read 25 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!