, 11 tweets, 4 min read Read on Twitter
Dieser neue Bot von @mkilg_ und @unfugluke generiert Tweets im Stil von F.J. Wagner, basierend auf einer Markovkette, die auf Texten aus der Bild-Zeitung trainiert wurde. Will jemand wissen, warum die Tweets des Bots so furchtbar klingen?
Markovketten sind so mittelgut im Generieren von Text, weil sie mit sprachlichen Fernabhängigkeiten nicht gut umgehen können: Es wird immer nur das nächste Wort bestimmt, eine Markovkette weiß aber z.B. nicht, dass noch ein Verb ans Ende des Satzes gehört.
Beim Wagner-Bot fallen die Probleme mit Markovketten besonders auf. Das liegt daran, dass auch die Originaltexte von Wagner oft Satzfragmente ohne Verben enthalten. Ich finde den Schreibstil auffallend assoziativ, das Wort "kohärent" wäre eher unpassend.
Allein im hier diskutierten Text (bildblog.de/111062/franz-j…) finden wir jede Menge Fragmente: "Und auch alle Muttis, die keine Gurken mit Plastikverpackungen kaufen." "Jeder." "Kerzen, kein elektrisches Licht, keine Autos, keine Mondfahrt, keine Herztransplantation."
Solche Fragmente machen isoliert kaum Sinn (ich finde sie auch im Kontext der jeweils vorherigen Sätze nicht besonders gut). Auch der Zusammenhang zwischen einem Satz und dem jeweils darauf folgenden ist in Original-Wagnertexten oft schwer zu erkennen.
Daher fällt es der Markovkette genauso schwer wie einem Menschen, Vorhersagen über den nächsten Satz zu machen. Die Sprache der Originaltexte ist so seltsam, dass die Statistik keine Chance hat, irgendwas verallgemeinerbares über Sprache daraus zu lernen.
Es gibt zwei Strategien, um markovgenerierte Texte besser zu machen. Erstens kann man die Menge der Trainingsdaten (der Texte, aus denen die Statistik gelernt wird) erhöhen - das ist hier eher keine Option. Die Texte von Wagner sind zu kurz und sicher nur in geringer Zahl online.
Die zweite Option für bessere Markovketten ist es, die Ordnung der Markovkette zu erhöhen. Das bedeutet, dass man für die Vorhersage des nächsten Elements mehr vorhergehende Elemente mit einbezieht. de.wikipedia.org/wiki/Markow-Ke…
Grundsätzlich sind generierte Texte auf Basis von Markovketten höherer Ordnung dem Vorbild (den Trainingsdaten) ähnlicher, weil längere Sequenzen aus den Trainingsdaten wortwörtlich wiederverwendet werden.
Aber weil Wagners Texte so zufällig strukturiert sind, würde es einer Markovkette höherer Ordnung schwer fallen, etwas anderes zu produzieren als die exakte Kopie eines bestehenden Texts. Insofern ist es sinnvoll, Markovketten niedrigerer Ordnung für den Bot zu verwenden.
Der Bot zeigt also sehr schön, dass die Texte von Wagner zu einem großen Teil aus assoziativen, schwer vorhersagbaren, statistisch beinahe zufällig verteilten, irren Fragmenten bestehen. Dass die Tweets des Bots alle doof klingen, ist meiner Meinung nach ein voller Erfolg.
Missing some Tweet in this thread?
You can try to force a refresh.

Like this thread? Get email updates or save it to PDF!

Subscribe to Esther Seyffarth
Profile picture

Get real-time email alerts when new unrolls are available from this author!

This content may be removed anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just three indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!