Casilli Profile picture
Oct 8 19 tweets 8 min read
Dernièrement, il y a pas mal de buzz autour de Whisper, nouvel outil de speech-to-text publié par @OpenAI. Énième IA magique? Peut-être, mais celle-ci est intéressante pour son approche “humble” et pour ce qu’elle révèle—en creux—des autres solutions. openai.com/blog/whisper/
Avant de lire le reste de ce thread, jetez un œil sur le papier de présentation. Et oui parce qu’aujourd’hui Whisper n’est pas une API ni une démo. Pour l’instant c’est juste du code et un pdf. C’est pourquoi elle ne fait pas la une, comme Dall-E 2 ou GPT3.cdn.openai.com/papers/whisper…
A la différence d’autres modèles de speech-to-text, qui sont des assemblages de composants divers, Whisper est un seul modèle qui traite la parole de bout en bout. Face à un input audio il est censé exécuter de nombreuses tâches: transcrire, traduire, identifier une langue…
À plusieurs égards, Whisper intrigue. D’abord, il n’est *pas* un modèle non-supervisé. L’apprentissage non-supervisé est à la mode car il permet de manier—genre—un million d’heures d’audio, ce qui stimule la libido (“libido sciendi”= désir de savoir, bien sûr) des informaticiens.
Les IA non-supervisées sont parfois robustes (la robustesse étant corrélée à l’égo des data scientists) mais elles sont “peu généralisables”—euphémisme pour dire qu’elles ne marchent que sur la data pour laquelle elles sont optimisées. Sur d’autres données elles pigent que dalle.
Ce phénomène est connu comme surapprentissage. C’est comme des chiens entraînés à faire un truc, mais seulement dans de conditions très précises et au bout d’un million de tentatives. Quand la presse dit qu’une IA “dépasse les êtres humains à la tâche X” c’est de ça qu’il s’agit.
Whisper, lui, fait de “l’apprentissage faiblement supervisé”: des microtravailleurs vérifient les transcriptions d’enregistrements, mais sans trop se soucier des détails (ponctuation, majuscules…) voire des points clé (comprendre ce qui est dit, combien de personnes parlent…).
En sacrifiant la qualité des annotations, Whisper peut se permettre de payer beaucoup moins cher ses annotateurs, et donc de superviser un nombre pharamineux d’enregistrements: 680k heures d’audio. L’équivalent d’un être humain qui parlerait pendant 78 ans, sans jamais se taire🙉
Bien sûr c’est surtout de l’anglais, mais si ça marche il voudrait dire que l’apprentissage supervisé est “scalable”, adjectif qui désigne une IA compatible avec
1. l’envie des informaticiens de publier dans des revues à impact factor ≥25
2. l'avidité sans fond des industriels
Mais les choses se gâtent dès qu’on demande “pourquoi s’appelle Whisper au juste ce machin?” Et OpenAI de répondre qu’en fait il s’appelle WSPSR—Web-scale Supervised Pretraining for Speech Recognition. Donc l’IA est préentraînée à reconnaître la parole—à l’échelle de tout le web?
N’exagérons pas. Pas tout—mais assurément la data est récupérée un peu partout sur le Web. “Nous avons suivi”, admettent candidement les auteur•es de Whisper, “la tendance actuelle des travaux qui exploitent les textes d’internet pour entraîner des systèmes de machine learning.”
Bref, ils ont ramassé 680k de parlotte sur internet sans rien demander à personne. C’était des podcast? Des streams Twitch? Des vidéos d’élus de différents pays? Les auteur•es se gardent bien de le préciser, mais iels mentionnent “des appels téléphoniques et des réunions”😧
Cela a été possible en économisant encore plus sur la rémunération des annotateurs. 680k heures d’audio peuvent avoir formats et qualités disparates. Whisper s’en fout de les harmoniser. Elle file à chaque annotateurs des fichiers audio de 30 sec. Tant pis si c’est inaudible.
C’est le triomphe de la tacheronnisation: “microtravaille et tais-toi, t’es pas micropayé pour comprendre”. Et on est face au continuum du #digitallabor: des personnes payées presque rien vérifient les transcripts d’enregistrements générés par des personnes payées rien du tout.
Peu importe du moment que cette IA marche superbien, right? Pas exactement. Les auteur•es de Whisper s’époumonent à dire que sa performance est comparable avec celle de solutions actuellement sur le marché. Mais Whisper est super-lent et demande une puissance de calcul énorme…
Pour conclure la question qui nous tient tous à cœur: est-ce que Whisper dépasse la performance humaine, et va “remplacer” les transcripteurs professionnels? Les auteur•es commencent par admettre qu’“il existe différents d'erreur irréductible dans chaque ensemble de données”…
Alors iels ont cherrypick…hem, “sélectionné” 25 enregistrements et comparé Whisper à 4 autres modèles speech-to-text, à 1 transcripteur assisté par un logiciel et aux services de 4 transcripteurs professionnels. La figure montre les taux d’erreurs. Pas superbillants🤔
Les auteur•es admettent que l’humain assisté par ordinateur affiche le meilleur score (1,15%>celui de l’IA). Mais les transcripteurs professionnels, eux, “ne se démarquent que d’une fraction de point de %”. Nb. Pas un mot sur le temps employé par Whisper pour retranscrire…
Bref, en matière de reconnaissance automatique
-de fragments de 30 secondes
-en anglais
-si on dispose d’un centre de calcul genre Google
-si on ne regarde pas la montre
…l’IA faiblement supervisée Whisper “n'est pas parfaite mais très proche de la précision humaine.”

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Casilli

Casilli Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

More from @AntonioCasilli

Mar 14
Today, ⁦@Le1hebdo⁩ published my op-ed arguing that now more than ever, while we face a war in Ukraine, we should aim to abolish power technologies like atomic weapons and face recognition. What’s war got to do with face recognition? The answer here👇 reuters.com/article/ukrain…
And the op-ed (in French) is here 👉 le1hebdo.fr/journal/quotid…
Here's a translation (and adaptation to Twitter format) of the op-ed:

ABOLITION
What do the fight against slavery, against the proliferation of nuclear weapons, and against the lack of human control over algorithms have in common? The desire to abolish disciplinary institutions.
Read 21 tweets
Jan 17
Whose police is using the (supposedly private by design) data coming from government-sponsored anti-COVID technologies? In Jan 2022, German police comes under fire for misusing logs from contact tracing app "Luca". dw.com/en/german-poli…
Before that, in September 2021, Australian law enforcement agencies were criticized for gaining access to information from Check In Qld, a QR code check-in application. smh.com.au/politics/feder…
And before that, in June 2021 Italian police admitted they used data from the contact tracing app Immuni to follow the movements of the user of a stolen credit card. lanazione.it/pisa/cronaca/r…
Read 5 tweets
Jan 17
Dans le traitement du langage ou dans la reconnaissance d'images, on ne jure désormais que par les grands modèles avec des centaines de milliards de paramètres. Mais plus vous agrandissez votre IA, plus vous augmentez ses résultats négatifs en même temps que les positifs... 1/7
Par exemple, si votre modèle linguistique excelle dans la génération de texte (v. GPT-3), il sera aussi un excellent producteur de textes "toxiques" (cf. towardsdatascience.com/toxicity-in-ai…). 2/7
C'est aussi vrai dans le RL (reinforcement learning), saint graal de scientifiques & Big Tech. Plus on augmente la taille des modèles plus la "fonction de récompense approximative" (proxy reward) augmente, tandis que la "vraie récompense" diminue. (v. arxiv.org/abs/2201.03544) 3/7
Read 7 tweets
Jan 23, 2021
Comme Tay de Microsoft avant lui, le chatbot coréen Luda déconne et donne des réponses racistes. Son problème ? Il a été entrainé sur des données captées à partir de messages d'usagers d'une app—qui n'en savaient rien. #digitallabor #privacy #ethicsofAI vice.com/amp/en/article…
Que ce soit clair, ma position ne consiste pas à dire que l'IA déconne parce que la data est mauvaise. Accuser les données d'être la cause des malheurs de l'IA est une stratégie rhétorique des entreprises qui d'un côté survalorisent le travail des "sublimes du code"…
…de l'autre invisibilisent le travail nécessaire pour générer/annoter les données (AI preparation)+vérifier les résultats (AI verification)+suivi des processus automatisés (AI impersonation). Avec @ptubaro et @Moossye on a écrit un article en OA sur ça: journals.sagepub.com/doi/full/10.11…
Read 4 tweets
Aug 31, 2019
À la une de @Mediapart👉révélations depuis l’usine à "intelligence artificielle artificielle" de Siri. @JeromeHourdeaux donne la parole aux microtravailleurs traumatisés par les écoutes+met la main sur les documents qui attestent l’étendue des abus d’Apple mediapart.fr/journal/intern…
Par-delà les risques psychosociaux qu’encourent les micro-travailleurs (isolement, TSPT, perte de sens), il y a un problème évident en termes de violation systématique de la #privacy des usagers. Apple a promis de mettre fin à ces pratiques. Crédible ? Pas vraiment, à mon avis.
Mais la partie vraiment passionnante de l’enquête de Mediapart est la plongée dans le fonctionnement concret du microtravail. Ça rassemble à quoi une micro-tâche de retranscription et d’annotation de conversations captées par une IA ? Comment se structure le workflow de Siri ?
Read 6 tweets
Jan 9, 2018
Réquiem pour une connerie.

wired.com/story/facebook…
Facebook’s Virtual Assistant M Is Dead. So Are Chatbots
So, FB "discontinue" son assistant virtuel, M, présenté comme une IA "mue par des humains" (human powered). C'est parce que la plupart des tâches réalisées par M nécessitaient des personnes pour assister, entraîner, vérifier ses réponses--parfois se faire carrément passer pour M.
Avec cet agent conversationnel, l'objectif de FB était de développer une technologie d'intelligence artificielle capable d'automatiser presque n'importe quelle tâche ("Facebook put no bounds on what M could be asked to do").
Read 10 tweets

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Follow Us on Twitter!

:(