My Authors
Read all threads
Hab mir mal die RKI-Fallmeldungen vorgenommen und visualiert und gleich eine Art eigenes "Nowcast" gebaut, also eine Vorhersage der Zahl noch ausstehender Erkrankungsmeldungen. Außerdem habe ich das animiert.
Im obersten Bild sieht man die Daten reinkommen. Blau die Meldungen, die täglich als Zahl der offiziell Infizierten vermeldet werden. Rot der Anteil, wo kein Erkrankungsdatum dabei ist. Gelb sind alle bis dahin bekannten Erkrankungsdaten, und man sieht sie allmählich wachsen.
Sie wachsen eine zeitlang, weil neue Meldungen ein mehr oder weniger weit zurückliegendes Erkrankungsdatum haben, also der Zeitpunkt, an dem Symptome begonnen haben. (Es gibt auch Fälle mit Erkrankungsdatum nach Meldedatum, kann in der Realität vorkommen, aber eher selten)
Irgendwann hören die gelben Erkrankungsdatum-Balken aber auf zu wachsen, weil keine neuen Meldungen mit so weit zurückliegendem Erkrankungsdatum mehr kommen. Das sieht man im Bild ganz unten rechts: Die meisten Meldungen Tag 2-8, nach 24 Tagen kommt fast nichts mehr nach.
Wie sich die "Verspätungen" verteilen, hängt aber vom betrachteten Zeitraum ab. Blau sind alle Verspätungen im Gesamtzeitraum. Gelb ist die Verteilung, betrachtet man nur die Verspätungen in den Meldungen der letzten 24 Tage, blau die Verspätungen in der Vorwoche.
Gemacht habe ich das, um zu sehen, ob und wie sich die Verzögerungen verändern, die Ämter also schneller geworden sind, weil besser eingespielt oder langsamer, weil überlastet. Das alles wäre wohl eine eigene Auswertung wert.
Hatte überlegt, eine Rangliste der schnellsten und besten Gesundheitsämter oder wenigstens Bundesländer zu machen, was die Datenlieferung betrifft. Mal sehen. Kann leicht falsch interpretiert werden - die Situationen sind nämlich verschieden, es muss nicht an den Leuten liegen.
Im mittleren Graphen sieht man meinen Versuch, zu berechnen, wie viele Erkrankungen denn nun tatsächlich an einem Tag stattgefunden haben. Als ersten Schritt habe ich anhand der blauen Verteilung die Daten ohne Erkrankungsdatum anteilig auf die zurückliegende Tage verteilt.
Das Ergebnis ist eine Zahlenreihe, die nur enthält, wie viele Leute an welchem Tag erkrankt sind, nicht hundertprozentig, aber ungefähr. Das eigentliche Problem ist, dass am Ende die Zahlen zu niedrig sind, weil ja z.B. für die vorgestern Erkrankten noch Meldungen kommen werden.
Leider ist das aber der interessanteste Teil der Kurve, und es liegt daher nahe, für die letzen Tage aus den Meldungen dieser Tage hochzurechnen, wie viele Meldungen für diese Erkrankungstage noch kommen werden. Das RKI nimmt dafür eine Methode namens "Nowcasting".
Da ich gestern noch nicht genug Details dazu hatte, jetzt gibt es mehr, habe ich mich selbst an einem Verfahren versucht. Der erste Versuch, es über die Verspätungswahrscheinlichkeiten zu machen, hat nicht geklappt. Wurde mir zu kompliziert und undurchschaubar.
Stattdessen habe ich laufend für jeden zurückliegenden Tag ausgerechnet, zu wie viel Prozent die Zahl der letzlich Erkrankten jeweils bekannt war. Macht man das bis zum Ende, sind natürlich hundert Prozent aller Erkrankten "bekannt", weil sich "bekannt" auf die Zukunft bezieht.
Um also zu brauchbaren Werten zu kommen, habe ich die letzten 24 Tage ignoriert und in etwa den Durchschnitt der Woche davor genommen; tatsächlich einen laufenden Schnitt von 20% für jeden neuen Tag und 80% der Vortagswerte. Das Ergebnis sind die grünen Werte.
Zu meiner Überraschung sind 60% des Endwertes der Erkrankungen für diesen Tag bereits am Meldetag bekannt, nach 10 Tagen 90%. Mit diesen Daten lässt sich nun für alle zurückliegenden Erkrankungstag-Daten ein "Aufschlag" berechnen, also, wie viel Erkrankungen es Ende sein werden.
Einen sichtbaren Unterschied macht das nur für die letzen ein, zwei Wochen, rechnerisch sind 24 Tage ein guter Wert, um einen Schnitt zu machen. Für die letzten Wochen sieht das so aus. Als ich das das erste Mal sah, dachte ich, das kann nicht sein.
Wieso gibt es so viel weniger Erkrankungen heute als Meldungen eingegangen sind? Das ist der ganze Witz an der Sache: Die hellblauen Balken geben tatsächlich recht gut an, wie viele Leute gestern(!) wirklich erkrankt sind bzw. mal als gestern erkrankt gemeldet sein werden.
Sehen kann man das im linearen Chart gar nicht, deshalb hab ich das noch mal in logarithmisch gemacht. Ich traue dem Ergebnis noch nicht so ganz, es würde bedeuten, dass wir gerade um die hundert Erkrankte gestern liegen und es womöglich nur dutzende Neuinfizierte.
Trauen mag ich dem noch nicht, dazu habe ich noch nicht lange genug draufgeschaut und auch sonst niemand bisher, aber andererseits ist das alles nicht so kompliziert, und so sehr kann ich eigentlich nicht daneben liegen, aber es würde halt bedeuten, dass alles vorbei ist.
Kann das wirklich sein, wo wir uns gerade an den Virus gewöhnt haben, er jetzt plötzlich wegstirbt, und zwar schneller, als wir erwartet haben? Gut, in einer Woche werden wir es wissen, aber entweder ich habe da einen echt dummen Fehler drin, oder es ist echt so gut wie vorbei.
Das ist mein allererster Blick auf die Daten, hätte mich früher dransetzen sollen, dann wäre ich mir sicherer, aber unabhängig von der "Vorhersage" sind die Daten faszinierend. Es steckt noch viel drin. Mal sehen, ob das Thema nächste Woche überhaupt noch jemanden interessiert:-)
Missing some Tweet in this thread? You can try to force a refresh.

Enjoying this thread?

Keep Current with Pavel Mayer

Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

Twitter may remove this content at anytime, convert it as a PDF, save and print for later use!

Try unrolling a thread yourself!

how to unroll video

1) Follow Thread Reader App on Twitter so you can easily mention us!

2) Go to a Twitter thread (series of Tweets by the same owner) and mention us with a keyword "unroll" @threadreaderapp unroll

You can practice here first or read more on our help page!

Follow Us on Twitter!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3.00/month or $30.00/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!