Wir visualisieren Daten aus zwei Gründen: um diese zu kommunizieren, z.B. Corona-Zahlen an Allgemeinheit;
Wir visualisieren auch um selber die Daten zu verstehen und Phänomene und Trends überhaupt zu FINDEN.
[Wir sagen: EXPLORATORY and EXPLANATORY data visualization]
Das Visualisieren beim EXPLAINING, also kommunizieren helfen ist klar; wir können pre-attentiv, also schon allein beim Sehen Trends und Abweichungen sehen.
Hier ein Experiment, guckt das Bild gleich nur einen Bruchteil einer Sekunde an + schreibt auf an was ihr euch erinnert
Wir können in kürzester Zeit: Farben (weisser Text, blauer Grund), Layout (3x3, oder was ihr in eurem Fenster halt gesehen hab), Inhalt (Buchstaben), Text (KZRQBT...) erkennen.
Das geht genau so schnell mit einfachen Charts, die wir von klein auf lernen, Linien- oder Balkenplot
Und richtig wichtig: unser Auge "liest" jede Visualisierung wie Text, von oben links nach unten rechts, wenn ich frage wer welchen Buchstaben erinnernt, gibt es da eine Häufung die mit der Leserichtung korreliert.
(Auch links-oben ->rechts unten in Japan etc, das ist erlernt)
Und, unser Auge ist spezialisiert darauf Muster und Abweichungen von Mustern zu erkennen,
hier ein super GIF dazu von Ferdio
Wichtig, das ist, na klar, angeboren.
Frag mal ein 3-jähriges Kind welches Eis es will, es wird Größe schätzen, die zu Inhalt korrelieren und sich schnell richtig entscheiden.
In der Grundschule wird das dann langsam abstrahiert
Und in der 6. Klasse ist ein Balkendiagramm schon ein alter Hut
Und vielleicht lernt man dann in der Statistik, dass Stichproben größere Umfänge als n=1 haben sollten.
*Boxplots sind noch neu - wurden erst 1977 erfunden, in den 90er in der Wissenschaft verbreitet und haben erst ganz langsam den Weg in die Verbreitung gefunden.
Obwohl visuelle Wahrnehmung angeboren ist und wir früh einfache Charts etc lernen, ist das natürlich nicht perfekt, nehmt euch mal ein paar Minuten für dieses Video:
Und jetzt überlegt mal ihr guckt euch lange Zahlenreihen an, ohne Ende...
(und dank big data werden alle Zahlenreihen momentan unendlich lang und bekommen immer mehr Variablen dazu!)
Ihr hab hier eine Liste mit wieviel Schritte/Tag jemand macht und was der BMI ist
Das waren die Zahlen für Frauen, jetzt kommt nochmal eine Liste mit Zahlen für die Männer
Na, sieht man was? Gibt es einen Zusammenhang? Kommt man mit Statistik weiter?
Nicht wirklich.
Aber, wenn man eine Visualisierung erstellt und zwar eine DIE ALLE DATENPUNKTE ZEIGT, dann sieht man das hier:
Das ist ein wunderbarer Datensatz von @ItaiYanai und @MartinJLercher den ich meine Studenten analysieren lasse
(liebe grüße an die Bachelor Studenten Bioinformatik @BeuthHS, ihr habt fast alle den Affen gesehen!)
Und davon gibt es noch ein hübscheres Update, diese 12 Graphen haben alle die gleichen (naja, extrem ähnlichen) X- und Y-Mittelwerte, die gleichen X- und Y-Standardabweichungen und -Varianzen und auch die gleichen X- und Y-Linearkorrelationen.
Und, es kommt besser, dieser Dinosaurier hier auch noch!
Deswegen heisst das Dataset "Datasaurus"
Gestern haben wir für unsere Daten einen passenden Charttyp rausgesucht - für alle nochmal hier zur Erinnerung der Spickzettel dazu:
(ps ich abe keine offene Version, da wäre eine DE Übersetzung vielleicht auch gut!)
PS EINEN passenden Charttyp, nicht DEN passenden Charttyp, es gibt immer mehrere richtige Lösungen
Das muss je nach: Kernaussage, nach Zielpublikum, nach Interaktionsformat: Papier, interaktiv Java, in einem Forschungsartikel oder 15-sek TikTok, angepasst werden!
Abstrakte Kunst und wissenenschaflichen Abbildungen sind gar nicht so unähnlich...
1. eigenen Datentyp kennen (Trend? Kategorie? Verteilung? Uni-, Bi, Multivariat?) 2. verschiendes ausprobieren, z.B. mit dem Chart-Selektor unten 3. dann Feedback einholen! --> loop to 1
Eigentlich ist es ganz leicht.
Für Einzelbeobachtungen in Kategorien kann man die Größe in
- Länge (Balkendiagramm, stacked bar)
- Fläche (Tree map, bubble, area char)
- Tortenstücke (Pie chart, lieber nicht Donuts!)
kodieren.
Bei der Visualisierung von Trends kann man
- Liniendiagramm (paar Beobachtungen, mehrere Zeitpunkte)
- Slopechart (nur 2 Zeitpunkte)
- Radar Chart (zyklische Daten)
- Sankey Diagram (viele Verläufe, Verteilungen)
nutzen.