Dernièrement, il y a pas mal de buzz autour de Whisper, nouvel outil de speech-to-text publié par @OpenAI. Énième IA magique? Peut-être, mais celle-ci est intéressante pour son approche “humble” et pour ce qu’elle révèle—en creux—des autres solutions. openai.com/blog/whisper/
Avant de lire le reste de ce thread, jetez un œil sur le papier de présentation. Et oui parce qu’aujourd’hui Whisper n’est pas une API ni une démo. Pour l’instant c’est juste du code et un pdf. C’est pourquoi elle ne fait pas la une, comme Dall-E 2 ou GPT3.cdn.openai.com/papers/whisper…
A la différence d’autres modèles de speech-to-text, qui sont des assemblages de composants divers, Whisper est un seul modèle qui traite la parole de bout en bout. Face à un input audio il est censé exécuter de nombreuses tâches: transcrire, traduire, identifier une langue…
À plusieurs égards, Whisper intrigue. D’abord, il n’est *pas* un modèle non-supervisé. L’apprentissage non-supervisé est à la mode car il permet de manier—genre—un million d’heures d’audio, ce qui stimule la libido (“libido sciendi”= désir de savoir, bien sûr) des informaticiens.
Les IA non-supervisées sont parfois robustes (la robustesse étant corrélée à l’égo des data scientists) mais elles sont “peu généralisables”—euphémisme pour dire qu’elles ne marchent que sur la data pour laquelle elles sont optimisées. Sur d’autres données elles pigent que dalle.
Ce phénomène est connu comme surapprentissage. C’est comme des chiens entraînés à faire un truc, mais seulement dans de conditions très précises et au bout d’un million de tentatives. Quand la presse dit qu’une IA “dépasse les êtres humains à la tâche X” c’est de ça qu’il s’agit.
Whisper, lui, fait de “l’apprentissage faiblement supervisé”: des microtravailleurs vérifient les transcriptions d’enregistrements, mais sans trop se soucier des détails (ponctuation, majuscules…) voire des points clé (comprendre ce qui est dit, combien de personnes parlent…).
En sacrifiant la qualité des annotations, Whisper peut se permettre de payer beaucoup moins cher ses annotateurs, et donc de superviser un nombre pharamineux d’enregistrements: 680k heures d’audio. L’équivalent d’un être humain qui parlerait pendant 78 ans, sans jamais se taire🙉
Bien sûr c’est surtout de l’anglais, mais si ça marche il voudrait dire que l’apprentissage supervisé est “scalable”, adjectif qui désigne une IA compatible avec
1. l’envie des informaticiens de publier dans des revues à impact factor ≥25
2. l'avidité sans fond des industriels
Mais les choses se gâtent dès qu’on demande “pourquoi s’appelle Whisper au juste ce machin?” Et OpenAI de répondre qu’en fait il s’appelle WSPSR—Web-scale Supervised Pretraining for Speech Recognition. Donc l’IA est préentraînée à reconnaître la parole—à l’échelle de tout le web?
N’exagérons pas. Pas tout—mais assurément la data est récupérée un peu partout sur le Web. “Nous avons suivi”, admettent candidement les auteur•es de Whisper, “la tendance actuelle des travaux qui exploitent les textes d’internet pour entraîner des systèmes de machine learning.”
Bref, ils ont ramassé 680k de parlotte sur internet sans rien demander à personne. C’était des podcast? Des streams Twitch? Des vidéos d’élus de différents pays? Les auteur•es se gardent bien de le préciser, mais iels mentionnent “des appels téléphoniques et des réunions”😧
Cela a été possible en économisant encore plus sur la rémunération des annotateurs. 680k heures d’audio peuvent avoir formats et qualités disparates. Whisper s’en fout de les harmoniser. Elle file à chaque annotateurs des fichiers audio de 30 sec. Tant pis si c’est inaudible.
C’est le triomphe de la tacheronnisation: “microtravaille et tais-toi, t’es pas micropayé pour comprendre”. Et on est face au continuum du #digitallabor: des personnes payées presque rien vérifient les transcripts d’enregistrements générés par des personnes payées rien du tout.
Peu importe du moment que cette IA marche superbien, right? Pas exactement. Les auteur•es de Whisper s’époumonent à dire que sa performance est comparable avec celle de solutions actuellement sur le marché. Mais Whisper est super-lent et demande une puissance de calcul énorme…
Pour conclure la question qui nous tient tous à cœur: est-ce que Whisper dépasse la performance humaine, et va “remplacer” les transcripteurs professionnels? Les auteur•es commencent par admettre qu’“il existe différents d'erreur irréductible dans chaque ensemble de données”…
Alors iels ont cherrypick…hem, “sélectionné” 25 enregistrements et comparé Whisper à 4 autres modèles speech-to-text, à 1 transcripteur assisté par un logiciel et aux services de 4 transcripteurs professionnels. La figure montre les taux d’erreurs. Pas superbillants🤔
Les auteur•es admettent que l’humain assisté par ordinateur affiche le meilleur score (1,15%>celui de l’IA). Mais les transcripteurs professionnels, eux, “ne se démarquent que d’une fraction de point de %”. Nb. Pas un mot sur le temps employé par Whisper pour retranscrire…
Bref, en matière de reconnaissance automatique
-de fragments de 30 secondes
-en anglais
-si on dispose d’un centre de calcul genre Google
-si on ne regarde pas la montre
…l’IA faiblement supervisée Whisper “n'est pas parfaite mais très proche de la précision humaine.”
Share this Scrolly Tale with your friends.
A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.