Können wir statistisch herausfinden, ob Exxpress generative KI wie ChatGPT zum Schreiben von Artikeln verwendet?
Wie könnten wir das feststellen? Eine Annäherung :) 🧵
Dazu müssen wir uns zuerst die Texte der Artikel von Exxpress holen. Als Computerhawi und mit Hilfe von Leuten wie @bemayr ist das ziemlich einfach. Es sind ein bissl über 50.000 seit 2021.
Für jeden Artikel bekommen wir den Text, die Kategorie und ein Publikationsdatum.
Als nächstes berechnen wir sogenannte stilometrische Eigenschaften jedes Texts. Darunter versteht man Dinge wie durchschnittliche Wort oder Satzlänge, oder komplexeres wie "lexical diversity". Das ist die Zahl einzigartiger dividiert durch die Zahl aller Wörter im Text.
Normalerweise verwendet man solche stilometrischen Eigenschaften von Text, um den Schreibstil einer Autorin statistisch zu beziffern.
In diesem Fall verwenden wir sie, um herauszufinden, ob nach Einführung von ChatGPT sich etwas am Schreibstil des Exxpress geändert hat.
Wir haben also alle Text mit Kategorie und Datum und eine Reihe an maschinell einfach zu erhebender Stilmerkmale.
Jetzt können wir für jeden Text diese Merkmale berechnen.
Dann nehmen wir alle Texte für eine Kategorie, z.B. Economy. Für die berechnen wir für jeden Monat die durschnittlichen Wortlängen, Satzlängen, Zahl der Sätze, und "lexical diversity".
Diese monatlichen Durchschnittswerte können wir dann graphisch darstellen.
Und genau das sieht man im ersten Tweet. Die naive Annahme hier ist, dass man in den Daten eine Änderung des Schreibstils sehen sollte, so man von Mensch auf Maschine, sprich ChatGPT, umgestiegen ist.
Und guess what :D
Beginnen wir mit der Kategorie "Economy". Hier sind die meisten stilometrischen Eigenschaften unauffällig. Bis auf die lexical diversity (dargestellt mit log scale, um kleine Unterschiede stärker sichtbar zu machen).
Ab Ende 2024/Anfang 2024 wurden die Wörter diverser. Huch.
Die nächste Kategorie ist Sport. Auch hier sehen wir beim Übergang von 2023 auf 2024 eine plötzliche Schwankung mehrer stilometrischer Eigenschaften.
Die Anzahl der Wörter und Sätze pro Artikel hat merklich abgenommen. Die Diversität der Wörter hat zugenommen. Whoopsies.
Als nächstes schauen wir uns die Kategorie "Meinung" an. Man würde annehmen, dass hier Frau und Herr Meinungsschreiberin selbst in die Tasten hauen.
Aber auch hier sieht man am Übergang zu 2024 eine Änderung in der Wort- und Satzlänge und Wortdiversität. Aber...
Das Pendel schwang hier wieder etwas zurück. Mögliche Erklärung, so ChatGPT eingesetzt wurde: es war zu viel des guten und man wollte wieder mehr selbst Hand anlegen.
Als Gegenprobe können wir die Kategorie News nehmen. Diese Texte stammen soweit ich weiss idR nicht von Exxpress
Hier sehen wir keinerlei Auffälligkeiten in den Features. Die Wortdiversität schwankt stark, was wohl den verschiedenen aktuellen Themen in dieser Kategorie geschuldet ist. Man sieht jedenfalls keinen starken Ausschlag nach oben oder unten am Übergang zu 2024.
Ist das der eindeutige Beweis, dass Exxpress ChatGPT und Co. verwendet? Nein. Es ist eine Korrelation. MMn eine starke.
Zum Einen, wegen der Gleichzeitigkeit um die Jahreswende herum. Zum Anderen, weil die Gegenprobe mit der "News" Kategorie Fehlerquellen ausschließt.
Ein alternatives Erklärungsmodell wäre, dass Exxpress per Jahreswechsel neue Redakteurinnen eingestellt hat, die halt einfach signifikant anders schreiben.
Eine andere, dass meine Datenverarbeitung fehlerhaft ist. Die Gegenprobe mit Kategorie "News" macht das unwahrscheinlich.
Können wir uns sicherer sein? Auch nein. Es gibt noch einige, bessere stilometrische Eigenschaften, die wir hier anwenden könnten. Die sind aber in der Berechnung aufwändiger. Und sie können die Alternative "Neue Redaktion" nicht ausschließen.
Python Code + Anleitung um das alles selbst lokal laufen zu lassen, zwecks Verifikation: github.com/badlogic/expre…
Tatsächlich ist das das erste Projekt, bei dem ich alles ChatGPT machen hab lassen (bis auf die Charts im Google Sheet). Wer wissen will, wie, siehe hier (inkl. Link zum Chatverlauf mit ChatGPT).
cc @florianklenk weil Exxpress Klamauk verbindet :D
@luis_paulitsch @florianklenk Und wie immer, wer sich unterhalten fühlt und hat, bitte hier einwerfen. €50 Lebensmittelgutscheine für 🇺🇦 Familien in 🇦🇹. Über 5000 haben wir seit Mai 2022 verschicken können.
Zero-overhead, jeder Cent geht in Gutscheine. Rest zahlen wir.cards-for-ukraine.at
@luis_paulitsch @florianklenk Alle Bestellungen, Rechnungen, Zahlungsbelege hier:
Da sind einige Begriffe drinnen, die wir erst einmal behirnen müssen. Dazu müssen wir ein gemeinsames Verständnis haben, was LLMs sind und wie sie (sehr, sehr grob) funktionieren.
Verwendet es bitte auch nicht, um euch wissenschaftliche Studien zusammenfassen zu lassen, oder nich schlimmer, Studien so miteinander zu vergleichen oder gar auf diesen Weg konkrete Zahlen zu extrahieren.
Just don't.
Gab dazu auch eine Folge. Mein BS dazu soll nicht auf Herrn Sator abfärben. Die Gastwahl war da wohl eher unglücklich.
OK, schnelles Tutorial, wie man KI generierte Bilder erkennen kann (oft, nicht immer, speziell wenn sie nachbearbeitet sind).
Heute: FPÖ KI "Blue Harry" und die RFJ "Heimat Games" Kampagenen Poster.
Fangen wir mit den Hitler-Jugend-Cosplayern an.
🧵
Erlaub ich mir zu sagen, weil es sind ja keine echten FPÖ Jugendliche. Soviele blonde Kinder auf einem Haufen gibts in Salzburg gar net.
Erster Hint: die Hauttexture schaut ein bissl seltsam aus. Auch ein wenig zu rein. Bei allen.
Noch keine smoking gun, aber smoke.
Der "wie erkenne ich KI Bilder" Klassiker: die Finger sind anatomisch "kreativ". Gibt technische Gründe dafür warum das (noch immer) schwer ist für die KI Modelle. Ist aber wurscht für die Analyse.
- Finger zählen
- "Schmelzfinger" finden
- Physikalisch unmögliche Posen finden
- Getestet wurden Mistral und Llama, welches Modell gewählt wurde, sagen sie nicht. Tippe auf Mistral, weil größeres Kontextfenster iirc.facebook.com/landkaernten/v…
3 Phasen, ersten 2 machen Sinn. Dritte Phase will Agents in Prozesse einziehen, die dann die 40% abgang an Personal kompensieren helfen soll.
Ja, eher nicht...
Auch angedacht: telefonische Beantwortung von oft gestellten Fragen. Sportlich, bei starkem Dialekt.
Haben bei NVIDIA tatsächlich ordentlich eingekauft. Leider nix über welche Hardware konkret. budgetmässig eher nicht A100/H100?