Les chercheurs #DiPLab font la une de l'@humanite_fr aujourd'hui : un long article ft. Maxime Cornet et @CLeLudec (et aussi @ibalilebali) sur les microtravailleur•ses qui entrainent les IA françaises à Madagascar + une interview avec votre dévoué.humanite.fr/social-eco/int…
Je vais vous raconter le contenu de l'article, et puis celui de l'entretien. En avril-mai 2022, nous sommes partis à Tananarive pour partager le quotidien des gens qui microtravaillent depuis des open space, depuis des cybercafés, voire depuis leur chambre.
Les travailleur•ses de la data interviewé•es ont une formation universitaires mais gagnent approx. €100/mois (plus que le salaire minimum à Mada, mais en dessous du coût de la vie dans la capitale). Ils entraînent, vérifient et parfois font semblant d'être des IA.
Dans l'article signé par Pierric Marissal, Clément et Maxime expliquent que
1—on estime à 100k les personnes qui microtravaillent pour l'IA françaises à Mada
2—que de grandes surfaces déploient des caméras "intelligentes", en fait controlées en temps réel par des jeunes malagasy
3—que même l'administration française a eu recours à ce type de microtravail, pour numériser les actes d'état civil ou le cadastre, voire pour détourer à la main des images satellites pour entraîner l'algorithme qui détecte "automatiquement" des piscines non déclarées…
L'article se termine par une analyse de @ibalilebali qui, lors de notre colloque "Intelligence artificielle et mondialisation" (27 oct. 2022), rappelait que cette structure de sous-traitance du travail du clic est issue de l'histoire coloniale.diplab.eu/diplab-worksho…
Ce qui nous fait une belle transition vers mon interview, où je m'efforce de préciser que ce phénomène est bien plus qu'un simple héritage colonial. Nous sommes face à un système techno-politique qui crée des subjectivités liées au travail de la donnée.humanite.fr/social-eco/int…
Voilà un extrait : "La colonialité, c'est le pouvoir de façonner l'identité des citoyens d'une autre nation. Jadis, elle les réduisait à des sujets coloniaux, aujourd'hui à des 'data subjects'."
Ps. les enquêtes présentées aujourd'hui dans l'@humanite_fr sont conduites par des chercheur•ses #DiPLab et financées par @AgenceRecherche (projet HuSh qui porte principalement sur l'Afrique) et par le @CNRS (projet TrIA, sur l'Amérique Latine).diplab.eu/projects-2/
Children's book author Roald Dahl is best known for the novel "Charlie and the Chocolate Factory". However in 1953 he published the short story "The Great Automatic Grammatizator". Its protagonist is Adolph Knipe, a nerdy scientist who is also a failed and resentful writer.
Knipe invents a machine that can write stories and novels. He presents it to his employer, Mr. Bohlen. By simply selecting a few parameters and typing in a plot (today we would call it a "prompt"), the machine can write the most complex works of fiction.
Using this early AI, Knipe and Bohlen mass-produce stories, corner the fiction market, and buy out human authors. At the end of the story, we discover that one of those authors wrote it. He swears that he won't sell out—while his children cry and starve in the next room…
Dernièrement, il y a pas mal de buzz autour de Whisper, nouvel outil de speech-to-text publié par @OpenAI. Énième IA magique? Peut-être, mais celle-ci est intéressante pour son approche “humble” et pour ce qu’elle révèle—en creux—des autres solutions. openai.com/blog/whisper/
Avant de lire le reste de ce thread, jetez un œil sur le papier de présentation. Et oui parce qu’aujourd’hui Whisper n’est pas une API ni une démo. Pour l’instant c’est juste du code et un pdf. C’est pourquoi elle ne fait pas la une, comme Dall-E 2 ou GPT3.cdn.openai.com/papers/whisper…
A la différence d’autres modèles de speech-to-text, qui sont des assemblages de composants divers, Whisper est un seul modèle qui traite la parole de bout en bout. Face à un input audio il est censé exécuter de nombreuses tâches: transcrire, traduire, identifier une langue…
Today, @Le1hebdo published my op-ed arguing that now more than ever, while we face a war in Ukraine, we should aim to abolish power technologies like atomic weapons and face recognition. What’s war got to do with face recognition? The answer here👇 reuters.com/article/ukrain…
Here's a translation (and adaptation to Twitter format) of the op-ed:
ABOLITION
What do the fight against slavery, against the proliferation of nuclear weapons, and against the lack of human control over algorithms have in common? The desire to abolish disciplinary institutions.
Whose police is using the (supposedly private by design) data coming from government-sponsored anti-COVID technologies? In Jan 2022, German police comes under fire for misusing logs from contact tracing app "Luca". dw.com/en/german-poli…
Before that, in September 2021, Australian law enforcement agencies were criticized for gaining access to information from Check In Qld, a QR code check-in application. smh.com.au/politics/feder…
And before that, in June 2021 Italian police admitted they used data from the contact tracing app Immuni to follow the movements of the user of a stolen credit card. lanazione.it/pisa/cronaca/r…
Dans le traitement du langage ou dans la reconnaissance d'images, on ne jure désormais que par les grands modèles avec des centaines de milliards de paramètres. Mais plus vous agrandissez votre IA, plus vous augmentez ses résultats négatifs en même temps que les positifs... 1/7
Par exemple, si votre modèle linguistique excelle dans la génération de texte (v. GPT-3), il sera aussi un excellent producteur de textes "toxiques" (cf. towardsdatascience.com/toxicity-in-ai…). 2/7
C'est aussi vrai dans le RL (reinforcement learning), saint graal de scientifiques & Big Tech. Plus on augmente la taille des modèles plus la "fonction de récompense approximative" (proxy reward) augmente, tandis que la "vraie récompense" diminue. (v. arxiv.org/abs/2201.03544) 3/7
Comme Tay de Microsoft avant lui, le chatbot coréen Luda déconne et donne des réponses racistes. Son problème ? Il a été entrainé sur des données captées à partir de messages d'usagers d'une app—qui n'en savaient rien. #digitallabor#privacy#ethicsofAIvice.com/amp/en/article…
Que ce soit clair, ma position ne consiste pas à dire que l'IA déconne parce que la data est mauvaise. Accuser les données d'être la cause des malheurs de l'IA est une stratégie rhétorique des entreprises qui d'un côté survalorisent le travail des "sublimes du code"…
…de l'autre invisibilisent le travail nécessaire pour générer/annoter les données (AI preparation)+vérifier les résultats (AI verification)+suivi des processus automatisés (AI impersonation). Avec @ptubaro et @Moossye on a écrit un article en OA sur ça: journals.sagepub.com/doi/full/10.11…