Wir visualisieren Daten aus zwei Gründen: um diese zu kommunizieren, z.B. Corona-Zahlen an Allgemeinheit;
Wir visualisieren auch um selber die Daten zu verstehen und Phänomene und Trends überhaupt zu FINDEN.
[Wir sagen: EXPLORATORY and EXPLANATORY data visualization]
Das Visualisieren beim EXPLAINING, also kommunizieren helfen ist klar; wir können pre-attentiv, also schon allein beim Sehen Trends und Abweichungen sehen.
Hier ein Experiment, guckt das Bild gleich nur einen Bruchteil einer Sekunde an + schreibt auf an was ihr euch erinnert
Wir können in kürzester Zeit: Farben (weisser Text, blauer Grund), Layout (3x3, oder was ihr in eurem Fenster halt gesehen hab), Inhalt (Buchstaben), Text (KZRQBT...) erkennen.
Das geht genau so schnell mit einfachen Charts, die wir von klein auf lernen, Linien- oder Balkenplot
Und richtig wichtig: unser Auge "liest" jede Visualisierung wie Text, von oben links nach unten rechts, wenn ich frage wer welchen Buchstaben erinnernt, gibt es da eine Häufung die mit der Leserichtung korreliert.
(Auch links-oben ->rechts unten in Japan etc, das ist erlernt)
Und, unser Auge ist spezialisiert darauf Muster und Abweichungen von Mustern zu erkennen,
hier ein super GIF dazu von Ferdio
Wichtig, das ist, na klar, angeboren.
Frag mal ein 3-jähriges Kind welches Eis es will, es wird Größe schätzen, die zu Inhalt korrelieren und sich schnell richtig entscheiden.
In der Grundschule wird das dann langsam abstrahiert
Und in der 6. Klasse ist ein Balkendiagramm schon ein alter Hut
Und vielleicht lernt man dann in der Statistik, dass Stichproben größere Umfänge als n=1 haben sollten.
*Boxplots sind noch neu - wurden erst 1977 erfunden, in den 90er in der Wissenschaft verbreitet und haben erst ganz langsam den Weg in die Verbreitung gefunden.
Obwohl visuelle Wahrnehmung angeboren ist und wir früh einfache Charts etc lernen, ist das natürlich nicht perfekt, nehmt euch mal ein paar Minuten für dieses Video:
Und jetzt überlegt mal ihr guckt euch lange Zahlenreihen an, ohne Ende...
(und dank big data werden alle Zahlenreihen momentan unendlich lang und bekommen immer mehr Variablen dazu!)
Ihr hab hier eine Liste mit wieviel Schritte/Tag jemand macht und was der BMI ist
Das waren die Zahlen für Frauen, jetzt kommt nochmal eine Liste mit Zahlen für die Männer
Na, sieht man was? Gibt es einen Zusammenhang? Kommt man mit Statistik weiter?
Nicht wirklich.
Aber, wenn man eine Visualisierung erstellt und zwar eine DIE ALLE DATENPUNKTE ZEIGT, dann sieht man das hier:
Das ist ein wunderbarer Datensatz von @ItaiYanai und @MartinJLercher den ich meine Studenten analysieren lasse
(liebe grüße an die Bachelor Studenten Bioinformatik @BeuthHS, ihr habt fast alle den Affen gesehen!)
Hier das Manuskript
biorxiv.org/content/10.110…
Wer Spass hat an solchen Phänomenen, gleicher Mittelwert, gleiche Streuung aber komplett andere Datenverteilung hat, denen sei
- Anscombe Quartett zum Lesen empfohlen:
en.wikipedia.org/wiki/Anscombe%…
Und davon gibt es noch ein hübscheres Update, diese 12 Graphen haben alle die gleichen (naja, extrem ähnlichen) X- und Y-Mittelwerte, die gleichen X- und Y-Standardabweichungen und -Varianzen und auch die gleichen X- und Y-Linearkorrelationen.
Und, es kommt besser, dieser Dinosaurier hier auch noch!
Deswegen heisst das Dataset "Datasaurus"
autodesk.com/research/publi…
Und wer es nicht glaubt, hier ist die Animation
Die Daten morphen durch die verschiedenen Abbildungen und man kann sehen wie der X- und Y- Mean stabil bleiben..
Und wenn ihr hier ankommt seid ihr hoffentlich alle ganz begeistert von Data Science + Viz, deswegen als 🍬
Mal doch gleich deine Daten selber:
robertgrantstats.co.uk/drawmydata.html
Kannst du den R-Wert raten?
guessthecorrelation.com
Winkel-raten
woodgears.ca/eyeball/
Share this Scrolly Tale with your friends.
A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.