Casilli Profile picture
Oct 8, 2022 19 tweets 8 min read Read on X
Dernièrement, il y a pas mal de buzz autour de Whisper, nouvel outil de speech-to-text publié par @OpenAI. Énième IA magique? Peut-être, mais celle-ci est intéressante pour son approche “humble” et pour ce qu’elle révèle—en creux—des autres solutions. openai.com/blog/whisper/
Avant de lire le reste de ce thread, jetez un œil sur le papier de présentation. Et oui parce qu’aujourd’hui Whisper n’est pas une API ni une démo. Pour l’instant c’est juste du code et un pdf. C’est pourquoi elle ne fait pas la une, comme Dall-E 2 ou GPT3.cdn.openai.com/papers/whisper…
A la différence d’autres modèles de speech-to-text, qui sont des assemblages de composants divers, Whisper est un seul modèle qui traite la parole de bout en bout. Face à un input audio il est censé exécuter de nombreuses tâches: transcrire, traduire, identifier une langue…
À plusieurs égards, Whisper intrigue. D’abord, il n’est *pas* un modèle non-supervisé. L’apprentissage non-supervisé est à la mode car il permet de manier—genre—un million d’heures d’audio, ce qui stimule la libido (“libido sciendi”= désir de savoir, bien sûr) des informaticiens.
Les IA non-supervisées sont parfois robustes (la robustesse étant corrélée à l’égo des data scientists) mais elles sont “peu généralisables”—euphémisme pour dire qu’elles ne marchent que sur la data pour laquelle elles sont optimisées. Sur d’autres données elles pigent que dalle.
Ce phénomène est connu comme surapprentissage. C’est comme des chiens entraînés à faire un truc, mais seulement dans de conditions très précises et au bout d’un million de tentatives. Quand la presse dit qu’une IA “dépasse les êtres humains à la tâche X” c’est de ça qu’il s’agit.
Whisper, lui, fait de “l’apprentissage faiblement supervisé”: des microtravailleurs vérifient les transcriptions d’enregistrements, mais sans trop se soucier des détails (ponctuation, majuscules…) voire des points clé (comprendre ce qui est dit, combien de personnes parlent…).
En sacrifiant la qualité des annotations, Whisper peut se permettre de payer beaucoup moins cher ses annotateurs, et donc de superviser un nombre pharamineux d’enregistrements: 680k heures d’audio. L’équivalent d’un être humain qui parlerait pendant 78 ans, sans jamais se taire🙉
Bien sûr c’est surtout de l’anglais, mais si ça marche il voudrait dire que l’apprentissage supervisé est “scalable”, adjectif qui désigne une IA compatible avec
1. l’envie des informaticiens de publier dans des revues à impact factor ≥25
2. l'avidité sans fond des industriels
Mais les choses se gâtent dès qu’on demande “pourquoi s’appelle Whisper au juste ce machin?” Et OpenAI de répondre qu’en fait il s’appelle WSPSR—Web-scale Supervised Pretraining for Speech Recognition. Donc l’IA est préentraînée à reconnaître la parole—à l’échelle de tout le web?
N’exagérons pas. Pas tout—mais assurément la data est récupérée un peu partout sur le Web. “Nous avons suivi”, admettent candidement les auteur•es de Whisper, “la tendance actuelle des travaux qui exploitent les textes d’internet pour entraîner des systèmes de machine learning.”
Bref, ils ont ramassé 680k de parlotte sur internet sans rien demander à personne. C’était des podcast? Des streams Twitch? Des vidéos d’élus de différents pays? Les auteur•es se gardent bien de le préciser, mais iels mentionnent “des appels téléphoniques et des réunions”😧
Cela a été possible en économisant encore plus sur la rémunération des annotateurs. 680k heures d’audio peuvent avoir formats et qualités disparates. Whisper s’en fout de les harmoniser. Elle file à chaque annotateurs des fichiers audio de 30 sec. Tant pis si c’est inaudible.
C’est le triomphe de la tacheronnisation: “microtravaille et tais-toi, t’es pas micropayé pour comprendre”. Et on est face au continuum du #digitallabor: des personnes payées presque rien vérifient les transcripts d’enregistrements générés par des personnes payées rien du tout.
Peu importe du moment que cette IA marche superbien, right? Pas exactement. Les auteur•es de Whisper s’époumonent à dire que sa performance est comparable avec celle de solutions actuellement sur le marché. Mais Whisper est super-lent et demande une puissance de calcul énorme…
Pour conclure la question qui nous tient tous à cœur: est-ce que Whisper dépasse la performance humaine, et va “remplacer” les transcripteurs professionnels? Les auteur•es commencent par admettre qu’“il existe différents d'erreur irréductible dans chaque ensemble de données”…
Alors iels ont cherrypick…hem, “sélectionné” 25 enregistrements et comparé Whisper à 4 autres modèles speech-to-text, à 1 transcripteur assisté par un logiciel et aux services de 4 transcripteurs professionnels. La figure montre les taux d’erreurs. Pas superbillants🤔
Les auteur•es admettent que l’humain assisté par ordinateur affiche le meilleur score (1,15%>celui de l’IA). Mais les transcripteurs professionnels, eux, “ne se démarquent que d’une fraction de point de %”. Nb. Pas un mot sur le temps employé par Whisper pour retranscrire…
Bref, en matière de reconnaissance automatique
-de fragments de 30 secondes
-en anglais
-si on dispose d’un centre de calcul genre Google
-si on ne regarde pas la montre
…l’IA faiblement supervisée Whisper “n'est pas parfaite mais très proche de la précision humaine.”

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Casilli

Casilli Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @AntonioCasilli

Apr 9
Mini-revue de presse du 9.4.24—perso, mais ces liens pourront intéresser plus d'un🧵

1/ Belle enquête de @RomaricGodin pour @Mediapart. Échec des supermarchés "sans caissiers" Amazon: le masque de la fausse automatisation à base de main-d'œuvre bon marché du Sud global, tombe.
2/ J'ai échangé avec @ManuRionde lors du colloque du projet TraPlaNum, où j'ai assuré la synthèse finale. 4 ans et plus de 25 juristes, psychologues, sociologues=de nombreux résultats et à un important travail d'accompagnement des décideurs publics en vue.
3/ Justement, donnons la parole aux travailleur•ses qui dressent les IA, annotent les données et modèrent les algorithmes. C'est ce que fait @Luc_Chagn0n sur @franceinfo, à travers un reportage incluant des extraits d'une récente conversation avec bibi.
Read 4 tweets
Mar 21
🚨In today's @libe, I speak about an important aspect of the research we've conducted with #DiPLab over the last few years: what are the career prospects for AI workers? Let's stop calling them "unskilled" and acknowledge their qualifications.🧵 liberation.fr/societe/petite…
The production of artificial intelligence today is driven by the mobilization of long supply chains. Its workforce spans the globe, from the North to the South. Yet, high-income countries and low-income countries have very different sociological profiles for these AI workers. Image
Jobs in AI are often beacons of hope for career advancement in the South, attracting techies and non-techies alike, mostly men. However, these highly-educated workers get low-paying jobs. Read @ptubaro's article about this: inria.hal.science/hal-03787017
Read 7 tweets
Dec 17, 2022
Salut les terriens, depuis deux décennies je travaille dans l'enseignement supérieur, et j'ai vu arriver plusieurs vagues de panique technologique: google, wikipédia, facebook, zoom, et maintenant chatgpt. Toujours basées sur une compréhension limitée des usages de ces nouveaux…
…dispositifs et services, ces inquiétudes sont aussi fondées sur un présupposé pédagogique fautif : que les étudiants *trichent pour ne pas apprendre* et que *notre rôle en tant qu'enseignants serait de réprimer* tout usage de nouvelles ressources.
Mais parfois les étudiants apprennent en "trichant". Du moins, ils apprennent à se servir des outils à leur disposition. Ma démarche est alors toujours la même => intégrer la prétendue menace dans le dispositif pédagogique de mes cours.
Read 8 tweets
Dec 9, 2022
Les chercheurs #DiPLab font la une de l'@humanite_fr aujourd'hui : un long article ft. Maxime Cornet et @CLeLudec (et aussi @ibalilebali) sur les microtravailleur•ses qui entrainent les IA françaises à Madagascar + une interview avec votre dévoué.humanite.fr/social-eco/int…
Je vais vous raconter le contenu de l'article, et puis celui de l'entretien. En avril-mai 2022, nous sommes partis à Tananarive pour partager le quotidien des gens qui microtravaillent depuis des open space, depuis des cybercafés, voire depuis leur chambre.
Les travailleur•ses de la data interviewé•es ont une formation universitaires mais gagnent approx. €100/mois (plus que le salaire minimum à Mada, mais en dessous du coût de la vie dans la capitale). Ils entraînent, vérifient et parfois font semblant d'être des IA.
Read 10 tweets
Dec 8, 2022
Children's book author Roald Dahl is best known for the novel "Charlie and the Chocolate Factory". However in 1953 he published the short story "The Great Automatic Grammatizator". Its protagonist is Adolph Knipe, a nerdy scientist who is also a failed and resentful writer.
Knipe invents a machine that can write stories and novels. He presents it to his employer, Mr. Bohlen. By simply selecting a few parameters and typing in a plot (today we would call it a "prompt"), the machine can write the most complex works of fiction.
Using this early AI, Knipe and Bohlen mass-produce stories, corner the fiction market, and buy out human authors. At the end of the story, we discover that one of those authors wrote it. He swears that he won't sell out—while his children cry and starve in the next room…
Read 5 tweets
Mar 14, 2022
Today, ⁦@Le1hebdo⁩ published my op-ed arguing that now more than ever, while we face a war in Ukraine, we should aim to abolish power technologies like atomic weapons and face recognition. What’s war got to do with face recognition? The answer here👇 reuters.com/article/ukrain…
And the op-ed (in French) is here 👉 le1hebdo.fr/journal/quotid…
Here's a translation (and adaptation to Twitter format) of the op-ed:

ABOLITION
What do the fight against slavery, against the proliferation of nuclear weapons, and against the lack of human control over algorithms have in common? The desire to abolish disciplinary institutions.
Read 21 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us!

:(