M24 Statistik 1: Wintersemester 23/24
Prof. Matthias Guggenmos
Health and Medical University Potsdam
Die Daten der ersten Beobachtungsstudie zu Paradoxia sind frisch eingetroffen!
id | group | hours_tiktok_per_day | inflammation |
---|---|---|---|
1 | control | 1.14 | 0.24 |
2 | control | 2.24 | 0.19 |
… | … | … | … |
50 | control | 1.14 | 0.13 |
51 | paradoxia | 1.57 | 0.03 |
52 | paradoxia | 2.59 | 0.21 |
… | … | … | … |
100 | paradoxia | 0.52 | 0.12 |
Hier ist das Histogramm der TikTok-Zeiten von Paradoxikern:
Überschlagen Sie: passt das Histogramm zur angegeben Stichprobe von n=50 Paradoxikern? Und handelt es sich um eine Abbildung relativer oder absoluter Häufigkeit?
Vergleich mit der Kontrollgruppe:
Wir können hier schon erahnen, dass die Studie tatsächlich Evidenz für einen erhöhte TikTok-Zeit bei Paradoxikern erbringt (Hypothese 1)!
Erinnerung: statt der Anzahl (absolute Häufigkeit) kann auch die Wahrscheinlichkeit (relative Häufigkeit) dargestellt werden:
Jeder Wert in dieser Abbildung gibt also die Wahrscheinlichkeit an, dass ein Entzündungswert im Intervall des jeweiligen Balkens liegt.
Während sich die Balken eines Histogramms mit absoluter Häufigkeit (Anzahl) zur Stichprobengröße aufaddieren, addieren sie sich beim Histogramm mit relativer Häufigkeit (Wahrscheinlichkeit) zu 1.
Die ersten Daten sind also eingetroffen, und Sie machen sich nun an die Auswertung. Das führt zu Sie zum Thema der heutigen Vorlesung: wie kann man Daten statistisch beschreiben?
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i \]
Beispiel
Folgende Beobachtungen der Zufallsvariable \(X\) “Punktzahl in der Abi-Matheprüfung” werden in einer Stichprobe von 7 Psychologiestudierenden gemacht: \(\mathbf{x} = \{13, 7, 15, 8, 4, 9, 14\}\)
\[ \bar{x} = \frac{1}{7}(13+7+15+8+4+9+14) = = \frac{1}{7}\cdot 70 = 10 \]
\(\mathbf{x}\) (z.B. Punktzahlen im Abi) | \(\bar{x}\) | Histogramm | Mittelwert sinnvoll? |
---|---|---|---|
\(\{13, 7, 15, 8, 4, 9, 14\}\) | \(10\) | ✓ | |
\(\{3, 1, 4, 2, 2, 6, 15\}\) | \(4.7\) | ✗ | |
\(\{13, 15, 11, 12, 9, 14, 1\}\) | \(10.7\) | ✗ |
Beispiel
Folgende Beobachtungen der Zufallsvariable \(X\) “Punktzahl in der Abi-Matheprüfung” werden in einer Stichprobe von 7 Psychologiestudierenden gemacht: \(\mathbf{x} = \{13, 7, 15, 8, 4, 9, 14\}\)
\[ \text{Sortierte Reihenfolge:} \;\mathbf{x} = \{4, 7, 8, \color{green}{\mathbf{9}}, 13, 14, 15\} \;\rightarrow\; \tilde{x} = 9 \]
Wir fügen den Wert eines weiteren Studierenden hinzu: \(\mathbf{x} = \{13, 7, 15, 8, 4, 9, 14, 10\}\)
\[ \text{Sortierte Reihenfolge:} \;\mathbf{x} = \{4, 7, 8, \color{green}{\mathbf{9}, \mathbf{10}}, 13, 14, 15\} \;\rightarrow\; \tilde{x} = \frac{9+10}{2} = 9.5 \]
“In unserer Studie waren brünette Menschen im Schnitt 10 IQ-Punkte schlauer als blonde Menschen”
Behind the scenes:
Wie schätzen Sie die Streuung / Variabilität folgender Verteilungen ein? |
\[ Range = x_{max} - x_{min} \]
\[ Var(X) = \sigma^2 = \frac{1}{n}\sum_{i=1}^n\big(x_i-\bar{x}\big)^2 \]
(Die Varianz ist gleich der quadrierten Standardabweichung \(\sigma\) – letztere lernen wir noch kennen)
\[ \begin{aligned} \sigma^2 &= \frac{1}{4}\left(0{,}25+2{,}25+0{,}25+2{,}25\right) \\ &= \frac{1}{4}\cdot5=1{,}25 \end{aligned} \]
Prinzipiell wäre auch eine Formel für die Varianz mit Absolutabständen denkbar:
\[ Var_{\text{absolut}}(X) = \frac{1}{n}\sum_{i=1}^n\big|x_i-\bar{x}\big| \]
Über die Gründe, warum sich \(Var_{\text{absolut}}\) nicht durchgesetzt hat, streitet sich die Fachwelt. Neben historischen Gründen, gibt es aber einige Eigenschaften, die die Präferenz für Abstandsquadrate zumindest nachvollziehbar machen:
Weitergehende Literatur 5
\(x=\{167\,cm, 181\,cm, 154\,cm, 192\,cm, 173\,cm\}\rightarrow Var(X)=180.4\,\color{red}{cm^2}\)
\[ \sigma=\sqrt{Var(X)}=\sqrt{\frac{1}{n}\sum_{i=1}^n\big(x_i-\bar{x}\big)^2} \]
Stichprobe | Stichprobe (Schätzung für Population) | Population | |
---|---|---|---|
Mittelwert | \(\bar{x}\), \(m\), \(M\) | \(\hat{\mu}\) | \(\mu\) |
Standardabweichung | \(s\) | \(\hat{\sigma}\) | \(\sigma\) |
Varianz | \(s^2\) | \(\hat{\sigma}^2\) | \(\sigma^2\) |
Korrelation | \(r\) | \(\hat{\rho}\) | \(\rho^2\) |
Fallzahl | \(n\) | \(N\) |
\[ \underbrace{1, 1,}_{\small{\text{1.Dezil}}}\;\underbrace{1, 2,}_{\small{\text{2.Dezil}}}\;2, 3, \;3, 5, \;5, 5, \;\color{white}{\underbrace{\color{black}{5, 6,}}_{\small{\color{black}{\text{...}}}}} \;6, 7, \;7, 7, \;7, 8, \;\underbrace{8, 8}_{\small{\text{10.Dezil}}} \]
\[ \underbrace{1, 1, 1, 1, 2, 2,}_{\small{\text{1.Quintil}}}\;\underbrace{2, 2, 2, 3, 3, 3,}_{\small{\text{2.Quintil}}}\;\underbrace{4, 4, 5, 5, 5, 5,}_{\small{\text{3.Quintil}}} \;\underbrace{5, 6, 6, 7, 7, 7,}_{\small{\text{4.Quintil}}} \;\underbrace{8, 8, 9, 9, 9, 9}_{\small{\text{5.Quintil}}} \]
\[ \underbrace{1, 1, 2,}_{\small{\text{1.Quartil}}}\;\underbrace{2, 2, 2,}_{\small{\text{2.Quartil}}}\;\underbrace{3, 4, 5,}_{\small{\text{3.Quartil}}} \;\underbrace{5, 6, 6}_{\small{\text{4.Quartil}}} \]
\[ IQR = Q_{75\%} - Q_{25\%} = Q_3 - Q_1 \]
Folgende 11 Werte werden beobachtet: \(x=\{1, 1, \color{darkred}{2}, \color{darkred}{3}, 3, \color{green}{3}, 4, \color{darkblue}{6}, \color{darkblue}{6}, 7, 9\}\) In diesem Fall ist der 6. Wert der Median, also \(\,\color{green}{Tiefe_{\text{Median(abgerundet)}}=6}\) Die Tiefe des Quartils ist damit \(Tiefe_{\text{Quartil}}=\frac{\color{darkgreen}{Tiefe_{\text{Median(abgerundet)}}}+1}{2}=\frac{6+1}{3}=3{,}5\) Der “\(3{,}5\)”-te Wert von vorne ist der Mittelwert aus \(\color{darkred}{2}\) und \(\color{darkred}{3}\) (\(\color{darkred}{Q_1=2{,}5}\)), der “\(3{,}5\)”-te Wert von hinten ist der Mittelwert aus \(\color{darkblue}{6}\) und \(\color{darkblue}{6}\) (\(\color{darkblue}{Q_3=6}\)) \(IQR = \color{darkblue}{Q_3} - \color{darkred}{Q_1} = \color{darkblue}{6} - \color{darkred}{2.5} = 3{,}5\) |
|
Vereinfacht gesagt verhält sich der Interquartilsabstand zur Varianz, wie der Median zum Mittelwert zum Mittelwert.
Spannbreite (Range) | ▪ Gibt die Ausdehnung des gesamten Wertebereiches an ▪ Auf kein bestimmtes Lagemaß bezogen ▪ Geringer statistischer Nutzen, manchmal interessante Zusatzinfo ▪ Maximal abhängig von Ausreißern |
Varianz | ▪ Auf den Mittelwert bezogen (“wie stark streuen die Daten um den Mittelwert?”) ▪ Relativ anfällig gegenüber Ausreißern ▪ Unnatürliche quadrierte Einheiten |
Standardabweichung | ▪ Wie Varianz, aber natürliche unquadrierte Einheiten |
Interquartilsabstand | ▪ Auf kein bestimmtes Lagemaß bezogen ▪ Jedoch ähnliches Prinzip wie der Median und häufig im Zusammenhang mit diesem angegeben ▪ Robust gegenüber Ausreißern & sinnvoll bei schiefen Verteilungen |
Die Daten in Ihrer Beobachtungsstudie weisen keine größeren Ausreißer auf uns Sie entscheiden sich für Mittelwert bzw. Standardabweichung als Ihr Lage- bzw. Streuungsmaß. Für eine erste Kommunikation mit den anderen Task Forces erstellen Sie folgende Abbildung:
Aus den Werten und der Abbildung wird ersichtlich: tatsächlich sind auch die Entzündungswerte bei Paradoxikern erhöht! Auf Basis der Mittelwerte finden Sie also Evidenz für beide Hypothesen!
Vorlesung 03: Lage- und Streuungsmaße
https://datatab.de/tutorial/mittelwert-median-modus
Beispielsweise ist der Mittelwert der Mittelwerte von zwei Gruppen mit je n Datenpunkten gleich dem Mittelwert aller 2*n Datenpunkte. Beim Median ist dies nicht gegeben. Auch beziehen sich viele statistische Standardtests auf den Mittelwert und nicht den Median.
https://youtu.be/inJ4OvU0zMA
https://www.shiksha.com/online-courses/articles/measures-of-dispersion-range-iqr-variance-standard-deviation/
https://web.archive.org/web/20221024193801/https://www4.hcmut.edu.vn/~ndlong/TK/mat/04_standard_deviation_vs_absolute_deviation.pdf