Post

How to get URL link on X (Twitter) App

On the Twitter thread, click on or icon on the bottom
Click again on or Share Via icon
Click on Copy Link to Tweet
Paste it above and click "Unroll Thread"!
More info at Twitter Help

Mario Zechner

@badlogicgames

Nov 2 • 21 tweets • 6 min read • Read on X

Die Frage der wir heute Nacht nachgingen:

Können wir statistisch herausfinden, ob Exxpress generative KI wie ChatGPT zum Schreiben von Artikeln verwendet?

Wie könnten wir das feststellen? Eine Annäherung :) 🧵

Dazu müssen wir uns zuerst die Texte der Artikel von Exxpress holen. Als Computerhawi und mit Hilfe von Leuten wie @bemayr ist das ziemlich einfach. Es sind ein bissl über 50.000 seit 2021.

Für jeden Artikel bekommen wir den Text, die Kategorie und ein Publikationsdatum.

Als nächstes berechnen wir sogenannte stilometrische Eigenschaften jedes Texts. Darunter versteht man Dinge wie durchschnittliche Wort oder Satzlänge, oder komplexeres wie "lexical diversity". Das ist die Zahl einzigartiger dividiert durch die Zahl aller Wörter im Text.

Normalerweise verwendet man solche stilometrischen Eigenschaften von Text, um den Schreibstil einer Autorin statistisch zu beziffern.

In diesem Fall verwenden wir sie, um herauszufinden, ob nach Einführung von ChatGPT sich etwas am Schreibstil des Exxpress geändert hat.

Wir haben also alle Text mit Kategorie und Datum und eine Reihe an maschinell einfach zu erhebender Stilmerkmale.

Jetzt können wir für jeden Text diese Merkmale berechnen.

Dann nehmen wir alle Texte für eine Kategorie, z.B. Economy. Für die berechnen wir für jeden Monat die durschnittlichen Wortlängen, Satzlängen, Zahl der Sätze, und "lexical diversity".

Diese monatlichen Durchschnittswerte können wir dann graphisch darstellen.

Und genau das sieht man im ersten Tweet. Die naive Annahme hier ist, dass man in den Daten eine Änderung des Schreibstils sehen sollte, so man von Mensch auf Maschine, sprich ChatGPT, umgestiegen ist.

Und guess what :D

Beginnen wir mit der Kategorie "Economy". Hier sind die meisten stilometrischen Eigenschaften unauffällig. Bis auf die lexical diversity (dargestellt mit log scale, um kleine Unterschiede stärker sichtbar zu machen).

Ab Ende 2024/Anfang 2024 wurden die Wörter diverser. Huch.

Die nächste Kategorie ist Sport. Auch hier sehen wir beim Übergang von 2023 auf 2024 eine plötzliche Schwankung mehrer stilometrischer Eigenschaften.

Die Anzahl der Wörter und Sätze pro Artikel hat merklich abgenommen. Die Diversität der Wörter hat zugenommen. Whoopsies.

Als nächstes schauen wir uns die Kategorie "Meinung" an. Man würde annehmen, dass hier Frau und Herr Meinungsschreiberin selbst in die Tasten hauen.

Aber auch hier sieht man am Übergang zu 2024 eine Änderung in der Wort- und Satzlänge und Wortdiversität. Aber...

Das Pendel schwang hier wieder etwas zurück. Mögliche Erklärung, so ChatGPT eingesetzt wurde: es war zu viel des guten und man wollte wieder mehr selbst Hand anlegen.

Als Gegenprobe können wir die Kategorie News nehmen. Diese Texte stammen soweit ich weiss idR nicht von Exxpress

Hier sehen wir keinerlei Auffälligkeiten in den Features. Die Wortdiversität schwankt stark, was wohl den verschiedenen aktuellen Themen in dieser Kategorie geschuldet ist. Man sieht jedenfalls keinen starken Ausschlag nach oben oder unten am Übergang zu 2024.

Ist das der eindeutige Beweis, dass Exxpress ChatGPT und Co. verwendet? Nein. Es ist eine Korrelation. MMn eine starke.

Zum Einen, wegen der Gleichzeitigkeit um die Jahreswende herum. Zum Anderen, weil die Gegenprobe mit der "News" Kategorie Fehlerquellen ausschließt.

Ein alternatives Erklärungsmodell wäre, dass Exxpress per Jahreswechsel neue Redakteurinnen eingestellt hat, die halt einfach signifikant anders schreiben.

Eine andere, dass meine Datenverarbeitung fehlerhaft ist. Die Gegenprobe mit Kategorie "News" macht das unwahrscheinlich.

Können wir uns sicherer sein? Auch nein. Es gibt noch einige, bessere stilometrische Eigenschaften, die wir hier anwenden könnten. Die sind aber in der Berechnung aufwändiger. Und sie können die Alternative "Neue Redaktion" nicht ausschließen.

Es ist trotzdem lustig :D

Wer sich selbst damit herumspielen will:

Excel Sheet mit den extrahierten Statistiken:
docs.google.com/spreadsheets/d…

Python Code + Anleitung um das alles selbst lokal laufen zu lassen, zwecks Verifikation:
github.com/badlogic/expre…

https://x.com/badlogicgames/status/1852460300592611635

Tatsächlich ist das das erste Projekt, bei dem ich alles ChatGPT machen hab lassen (bis auf die Charts im Google Sheet). Wer wissen will, wie, siehe hier (inkl. Link zum Chatverlauf mit ChatGPT).

https://x.com/badlogicgames/status/1852460300592611635

https://x.com/badlogicgames/status/1852468863512043553

Als Abfallprodukt auch noch eine Minirundschau über die Native Ads im Express:

https://x.com/badlogicgames/status/1852468863512043553

cc @luis_paulitsch weil du gfragt hast

cc @florianklenk weil Exxpress Klamauk verbindet :D

@luis_paulitsch @florianklenk Und wie immer, wer sich unterhalten fühlt und hat, bitte hier einwerfen. €50 Lebensmittelgutscheine für 🇺🇦 Familien in 🇦🇹. Über 5000 haben wir seit Mai 2022 verschicken können.

Zero-overhead, jeder Cent geht in Gutscheine. Rest zahlen wir.cards-for-ukraine.at

@luis_paulitsch @florianklenk Alle Bestellungen, Rechnungen, Zahlungsbelege hier:

drive.google.com/drive/folders/…

• • •

Missing some Tweet in this thread? You can try to force a refresh

This Thread may be Removed Anytime!

Twitter may remove this content at anytime! Save it as PDF for later use!

More from @badlogicgames

Mario Zechner

@badlogicgames

May 31

https://twitter.com/random_walker/status/1796557544241901712

Erklärbar Thread zum Thema "Wie gut können 'ChatGPT' und co. Antworten aus (eigenen) Dokumenten geben?"

Der Parade-Anwendungsfall für die Nützlichkeit von sog. Large Language Models (LLM), einer Art KI Modell.

Ist ja super, wenn die "KI" was für mich lesen kann, oder? Extrem 🧵

https://twitter.com/random_walker/status/1796557544241901712

Konkreter Anlassfall: eine Studie einer Forschergruppe von Stanford:

Die haben untersucht, wie gut Software-Systeme auf Basis von LLMs zur juristischen Recherche funktionieren.

Das Abstrakt, also die Zusammenfassung, der Studie is a lot! dho.stanford.edu/wp-content/upl…

Da sind einige Begriffe drinnen, die wir erst einmal behirnen müssen. Dazu müssen wir ein gemeinsames Verständnis haben, was LLMs sind und wie sie (sehr, sehr grob) funktionieren.

Was ist also ein LLM wie ChatGPT?

Read 102 tweets

Mario Zechner

@badlogicgames

Apr 30

Pünktlich zur Wahl in Vösendorf gibts einen Prüfbericht über die Gebarung der Gemeinde. 169 Seiten PDF.

Aus Spass in GPT reingeworfen. Hat die Analyse lustigerweise per Keyword Suche gemacht.

So wird das nix mit der KI-Revolution.

(Ja, das kann man besser machen, trotzdem)

Zumindest der Hinweis auf die Gutscheine ist ein guter.

Hat Koza da einen Anzengruber gerissen oder anders herum? Scheint eine beliebte ÖVP Methode zu sein.

Read 21 tweets

Mario Zechner

@badlogicgames

Apr 21

https://twitter.com/media_wall/status/1782126087595556915

Ich find es sehr super, wie Herr Sator seinen Podcast aufgesetzt hat, speziell auch die Transparenz dazu.

Aber bitte, liebe Journalist:innen, verwendet ChatGPT (und nicht "Chat GPT") nicht zur Recherche.

Bitte, bitte, really (nein, auch nicht GPT 4, ja, Google auch crap).

https://twitter.com/media_wall/status/1782126087595556915

Verwendet es bitte auch nicht, um euch wissenschaftliche Studien zusammenfassen zu lassen, oder nich schlimmer, Studien so miteinander zu vergleichen oder gar auf diesen Weg konkrete Zahlen zu extrahieren.

Just don't.

Gab dazu auch eine Folge. Mein BS dazu soll nicht auf Herrn Sator abfärben. Die Gastwahl war da wohl eher unglücklich.

https://twitter.com/badlogicgames/status/1775994354634551646?t=bve_uYUHiyBRQ8NUsZZYrg&s=19

Read 27 tweets

Mario Zechner

@badlogicgames

Apr 10

OK, schnelles Tutorial, wie man KI generierte Bilder erkennen kann (oft, nicht immer, speziell wenn sie nachbearbeitet sind).

Heute: FPÖ KI "Blue Harry" und die RFJ "Heimat Games" Kampagenen Poster.

Fangen wir mit den Hitler-Jugend-Cosplayern an.

🧵

Erlaub ich mir zu sagen, weil es sind ja keine echten FPÖ Jugendliche. Soviele blonde Kinder auf einem Haufen gibts in Salzburg gar net.

Erster Hint: die Hauttexture schaut ein bissl seltsam aus. Auch ein wenig zu rein. Bei allen.

Noch keine smoking gun, aber smoke.

Der "wie erkenne ich KI Bilder" Klassiker: die Finger sind anatomisch "kreativ". Gibt technische Gründe dafür warum das (noch immer) schwer ist für die KI Modelle. Ist aber wurscht für die Analyse.

- Finger zählen
- "Schmelzfinger" finden
- Physikalisch unmögliche Posen finden

Read 20 tweets

Mario Zechner

@badlogicgames

Mar 27

Video zur KärntenGPT Pressekonferenz.

Wir erfahren ein paar Dinge.

- Getestet wurden Mistral und Llama, welches Modell gewählt wurde, sagen sie nicht. Tippe auf Mistral, weil größeres Kontextfenster iirc.facebook.com/landkaernten/v…

3 Phasen, ersten 2 machen Sinn. Dritte Phase will Agents in Prozesse einziehen, die dann die 40% abgang an Personal kompensieren helfen soll.

Ja, eher nicht...

Auch angedacht: telefonische Beantwortung von oft gestellten Fragen. Sportlich, bei starkem Dialekt.

Haben bei NVIDIA tatsächlich ordentlich eingekauft. Leider nix über welche Hardware konkret. budgetmässig eher nicht A100/H100?

Read 16 tweets

Mario Zechner

@badlogicgames

Mar 26

https://twitter.com/PeterKaiserSP/status/1772223082616246555

So, noch einmal, weil dass Vogerl und ich vergessen haben, dem Vogerl seine PII zu schwärzen.

Also, wir wissen wer das umsetzt: INTRANET GmbH. Sitz: Wörthersee.

Nicht verwerflich. Kauft lokal :)

Volumen groß genug für Ausschreibung?

Follow me down this rabbit hole 🧵

https://twitter.com/PeterKaiserSP/status/1772223082616246555

Eine eigene Website scheint INTRANET GmbH nicht zu haben. Man findet nur den Eintrag auf der SIC Seite.

Dort gibt es einen Hinweis zu BubbleExplorer.

Let's see.

Hier:

Zweimal der Hinweis "Silicon Valley Start-up" ist lieb :)

Einer der zwei Founder war halt bei Google und lebt wohl noch in SF. Hat dort jetzt ein kleines Büro.

INTRANET slapt halt Silicon Valley aufs Branding. Schauts Google Maps.

Geschenkt. bubbleexplorer.com

Read 24 tweets

Support us! We are indie developers!

This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Don't want to be a Premium member but still want to support us?

Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal

Or Donate anonymously using crypto!

Ethereum

0xfe58350B80634f60Fa6Dc149a72b4DFbc17D341E copy

Bitcoin

3ATGMxNzCUFzxpMCHL5sWSt4DVtS8UqXpi copy

Thank you for your support!

Share this page!

Enter URL or ID to Unroll

Mario Zechner

Try unrolling a thread yourself!

More from @badlogicgames

Mario Zechner

Mario Zechner

Mario Zechner

Mario Zechner

Mario Zechner

Mario Zechner

Did Thread Reader help you today?

Don't want to be a Premium member but still want to support us?

Send Email!