Normalverteilung (Gaußverteilung) in der realen Welt (Gastartikel Pingpong)

Dies ist ein Gastartikel von Pingpong

Normalverteilung (Gaußverteilung) in der realen Welt

In vielen Diskussionen, gerade auch wenn es um Geschlechterthemen geht, spielt die
Normalverteilung eine wichtige Rolle. Ein hier oft gelesener Standardspruch lautet „Normalverteilung mit sich überlappenden Trägern aber abweichenden Mittelwerten“.

Daher soll es in diesem Beitrag um die allgegenwärtige Normalverteilung gehen. Wie im letzten Artikel liegt der Fokus dabei auf den praktischen Aspekten, die in der wirklichen Welt wichtig sind.

1. Warum Normalverteilung?

Die Normalverteilung ist so beliebt, weil sie viele angenehme Eigenschaften hat. Jeder kennt die ikonische Glockenkurve:

 

Sie ist mathematisch leicht handzuhaben, die meisten Integrale, die bei Wahrscheinlichkeiten mit Normalverteilung auftreten, können analytisch gelöst werden. Bei einer Schätzung der Verteilungsparameter (Mittelwert und Standardabweichung) aus empirischen Daten konvergieren die Parameter mit zunehmender Samplegröße schnell zum „wahren“ Wert.

Weiters spielt die Normalverteilung aufgrund des zentralen Grenzwertsatzes eine sehr wichtige Rolle: Eine Summe von n Zufallsvariablen, nicht notwendigerweise normalverteilt, konvergiert gegen die Normalverteilung wenn n gegen unendlich geht.

Außerdem spielt die Normalverteilung in vielen Anwendungen eine versteckte Rolle. So basieren alle Arten von least-squares Optimierungen auf der Annahme, dass der Fehler bzw. der noise der Daten normalverteilt ist. Nur wenn diese Annahme erfüllt ist, sind die entsprechenden Verfahren optimal. Least-squares Optimierungen sind allgegenwärtig, z.B. Regression, Maximum-likelihood Schätzungen und viele mehr. Wenn man in Excel eine Trendlinie an gegebene Datenpunkte fitten lässt, läuft im Hintergrund eine least-squares Optimierung.

2. Warum nicht Normalverteilung?

Daten aus der echten Welt haben die Angewohnheit, sich nicht an vorgegebene Verteilungen zu halten. Eine grundlegender Unterschied ist in diesem Zusammenhang jener zwischen Verteilungen mit dünnen Rändern (engl.: thin-tailed) und Verteilungen mit schweren Rändern (engl.: heavy-tailed). Verteilungen mit schweren Rändern haben in Bereichen weit weg vom Mittelwert eine größere Wahrscheinlichkeitsdichte, wodurch seltene Ereignisse – wenn sie auftreten – i.d.R. weiter entfernt vom Mittelwert sind als bei Verteilungen mit dünnen Rändern.

Die Normalverteilung fällt in die Klasse der Verteilungen mit dünnen Rändern. Als Beispiel für
eine Verteilung mit schweren Rändern ist im folgenden die Student-t Verteilung abgebildet.

Auch wenn die Kurven recht ähnlich aussehen gibt es doch systematische Unterschiede zwischen diesen beiden Verteilungen.
Ein häufiges Missverständnis besteht in der Annahme, aufgrund des kleineren Maximums der Dichtefunktion der Student-t Verteilung (oder Verteilungen mit schweren Rändern allgemein) würden bei solchen Verteilungen Ereignisse nahe um den Mittelwert nicht so häufig vorkommen, quasi als „Ausgleich“ dafür dass ja Ereignisse sehr weit weg vom Mittelwert auch noch vorkommen. Tatsächlich kommen bei Verteilungen mit schweren Rändern Ereignisse rund um den Mittelwert häufiger vor als bei Verteilungen mit dünnen Rändern. Im folgenden sind die empirischen Verteilungen von je 2000 Samples der Normalverteilung und der Student-t Verteilung abgebildet.

Man sieht, dass bei der Normalverteilung deutlich weniger Ereignisse rund um den Mittelwert herum auftreten, als bei der Student-T Verteilung. Seltene Ereignisse gibt es in beiden Fällen. Wenn sie jedoch auftreten, dann sind sie bei der Student-t Verteilung deutlich weiter vom Mittelwert entfernt.

2. Das Problem mit statistischen Verteilungstests

Im Lichte dieser Umstände ist eine grundlegende Frage von wesentlicher Bedeutung: Sind meine Daten normalverteilt?
Diese Frage betrifft alle Wissenschaftszweige, Sozialwissenschaften gleichermaßen wie die STEM Gebiete, denn in quasi allen Wissenschaften werden Daten erhoben und statistisch analysiert.

Jede statistische Analyse basiert auf Modellen, und jedes Modell basiert auf Vereinfachungen. Ein Modell ist nur nützlich, wenn es einfacher ist als die reale Welt, und wenn es die wesentlichen Aspekte des zu untersuchenden Phänomens abbildet. Das Problem der Modellierung besteht darin, dass die reale Welt ist eine riesige Ansammlung von unzähligen Details ist. Man muss entscheiden, welche Details man behält und welche man weglässt.

Die Normalverteilung ist ein gutes Modell für viele physikalische Größen. So ist
beispielsweise die Verteilung der Körpergröße von Menschen approximativ normal. Aber die Körpergröße von Menschen ist keine Normalverteilung. Zum einen ist die Körpergröße auf eine enges Intervall beschränkt, während die Normalverteilung sich in beide Richtungen bis unendlich erstreckt. Aber auch wenn man die Ränder der Normalverteilung weglässt (die ohnehin sehr kleine Wahrscheinlichkeiten haben), dann unterschiedet sich die Verteilung der Körpergröße von Menschen systematisch von einer Normalverteilung.
Wenn man also einen Datensatz von Körpergrößen erhebt, und sich fragt ob dieser Datensatz von einer Normalverteilung kommt, dann ist die Antwort nein.

Es gibt viele statistische Tests um festzustellen ob ein Datensatz von einer bestimmten
Verteilung kommt. Die meisten davon haben beeindruckenden Doppelnamen:
Kolmogorov-Smirnov-Test, Shapiro-Wilk-Test, Anderson-Darling-Test usw.
Diese Tests sind aber i.d.R. nicht das was man will. Was man (meistens) wirklich wissen will wenn man „auf Normalität testet“ ist folgendes:

Ist die Normalverteilung ein gutes Modell für meine Daten?

Und das ist eine Modellierungsentscheidung. Ein statistischer Test kann sie nicht beantworten.

Reale Daten folgen nie irgendeiner analytischen Verteilung. Ein statistischer Test wie der häufig verwendete Kolmogorov-Smirnov-Test ist nicht hilfreich, weil es nur zwei mögliche Ausgänge gibt:

  • Man hat genug Daten, dann ist der p-Wert gering, und der Test wird (korrekt) ergeben, dass die Daten nicht normalverteilt sind.
  • Man hat nicht genug Daten, dann ist der p-Wert groß, und man entscheidet (korrekt), dass es nicht genug Evidenz gibt um die Nullhypothese zu verwerfen.

Beide Ergebnisse sind für die Modellierungsentscheidung nicht hilfreich.

3. Fallbeispiel

Leider wird die Wichtigkeit dieser Modellierungsentscheidung oft übergangen, und viele wissenschaftliche Arbeiten stützen sich explizit oder implizit darauf, dass die erhobenen Daten einer Normalverteilung folgen, ohne diese Entscheidung jedoch ausreichend zu begründen. Als Fallbeispiel möchte ich eine Studie heranziehen, die hier vor längerer Zeit einmal besprochen wurde (ich weiß nicht mehr ob als eigener Artikel oder nur in den Kommentaren).

Es handelt sich um Bilalic et al., 2009,
„Why are (the best) women so good at chess? Participation rates and gender differences in intellectual domains“,

In dieser Arbeit geht es um die Wertungszahl im Schach (ELO-Zahl) der deutschen
Schachspieler. Die statistische Analyse der Autoren basiert u.a darauf, dass – ohne weitere Begründung! –

„the distribution [of ELO-ratings] is approximately normal with mean of 1461 and s.d. of 342.“

Grafisch stellt sich die Situation folgendermaßen dar:

Die verwendeten Daten vom deutschen Schachbund sind online verfügbar und ich habe zusätzlich zur Normalverteilung auch die Parameter einer (nicht-zentralen) Student-t Verteilung geschätzt:

Die nicht-zentrale Studen-T Verteilung hat erkennbar die geringsten Abweichungen zu den tatsächlichen Daten. Macht sie das zum „besten“ Modell für die Verteilung der ELO Zahlen? Das kann man alleine aus dieser Grafik nicht pauschal sagen. Es hängt davon ab, welche Fragestellungen man behandelt und was man analysieren möchte.

Die Autoren des Papers interessieren sich in ihrer statistische Analyse für die 100 besten männlichen und weiblichen Schachspielern. Das sind die Daten ganz am rechten Rand der Verteilung. Da böte es sich an, ein Modell zu wählen(!), bei dem die Daten die man analysieren möchte nicht von vornherein die outlier des Modells sind.
Bei der Normalverteilung ist jedoch genau das der Fall: Oberhalb von 3 sigma vom Mittelwert befinden sich gerade mal 0.13% der Daten. Umgekehrt, wenn man mit dem gesamten Datensatz eine Normalverteilung modelliert, dann haben genau jene Daten am oberen Ende einen verschwindend geringen Einfluss auf das Modell. Es ist fraglich, wie man eine aussagekräftige statistische Analyse durchführen kann, wenn genau die Daten die man analysieren möchte in dem Modell das man sich ausgesucht(!) hat quasi keine Rolle spielen.

In konkreten Fall dieses Papers wäre es wohl besser, die Autoren hätten als Modell eine Verteilung aus der Klasse der Verteilungen mit schweren Rändern gewählt.

Man kann das Problem „ist für die Modellierung meiner Daten eine Verteilung mit dünnen oder eine mit schweren Rändern sinnvoll?“ folgendermaßen formalisieren:
Wie groß ist die bedingte Wahrscheinlichkeit P(N | E), also die Wahrscheinlichkeit dass es sich um eine (N)ormalverteilung handelt unter der Bedingung dass man bestimmte (E)reignisse beobachtet. Als Alternative zur Normalverteilung kommt wieder die Student-t Verteilung zum Einsatz.

Mit dem Satz von Bayes lässt sich diese bedingte Wahrscheinlichkeit schreiben als
P(N | E) = \frac{P(E | N)P(N)}{ P(E)}
P(E|N) ist einfach die Wahrscheinlichkeit des Ereignisses unter einer Normalverteilung. P(N) ist die a priori Wahrscheinlichkeit dass es sich um eine Normalverteilung handelt. Diese muss vom Anwender aufgrund von Erfahrung, anderen Daten oder sonstigem Vorwissen geschätzt werden. Der Term P(E) lässt sich mit dem Satz der totalen Wahrscheinlichkeit berechnen.

Die folgende Grafik zeigt das Ergebnis für Ereignisse die zunehmend weiter vom Mittelwert entfernt sind.

Diese Grafik zeigt, wenn in einem Datensatz Ereignisse enthalten sind, die auch nur moderat weit (3 bzw. 3.5 Standardabweichungen) vom Mittelwert entfernt sind, dann nimmt die Wahrscheinlichkeit dass es sich bei den Daten um eine Normalverteilung handelt sehr schnell ab. Je weiter das Ereignis vom Mittelwert entfernt, desto größer muss die a priori WS, also das Vorwissen, sein, damit man eine Normalverteilung rechtfertigen kann.
Umgekehrt, wenn im Datensatz ein 3.5 sigma Ereignis auftritt und es besteht auch nur eine kleine Chance dass die Daten nicht von einer Normalverteilung kommen, dann kann die Hypothese „Normalverteilung“ nachdrücklich verworfen werden.

Im Kontext der Schachstudie entspricht ein 3-sigma Ereignis einer ELO Zahl von ~2630. Es gibt mehr als 150 Spieler, die eine höhere ELO Zahl erreichen. Magnus Carlsen hält den aktuellen Rekord mit einer ELO Zahl von 2882.
Nimmt man die Wertungen im Blitzschach hinzu, gibt es mehrere Spieler die sehr knapp an 3000 kratzen.

4. Fazit

Die Normalverteilung ist ein wunderbares mathematisches Werkzeug, mit dem man allerhand interessante Dinge relativ einfach berechnen kann.

Daten in der echten Welt folgen nie irgendeiner analytischen Verteilung. Die verschiedenen statistischen Verteilungstests liefern in den allermeisten Fällen nicht das was man wissen will und vermitteln eine trügerische Sicherheit.

In einem gegebenen Datensatz sind sehr oft die extremen Ereignisse die interessantesten, zB: IQ, Einkommen, Schäden durch Unwetter, Anzahl Todesfälle durch Krankheiten, Größe von Dateien auf einem Computer. Bei einer Modellierung solcher Datensätze sollte das entsprechend berücksichtigt werden. Als Faustregel kann gelten: Tritt ein 4 oder 5-sigma Ereignis auf, sollte man die Normalverteilung ausdrücklich NICHT verwenden, sondern stattdessen auf Verteilungen mit schweren Rändern zurückgreifen.

11 Gedanken zu “Normalverteilung (Gaußverteilung) in der realen Welt (Gastartikel Pingpong)

  1. Mit dem richtigen Modell kann man beweisen, dass Corona eine Todesseuche ist und es keine Unterschiede zwischen Männern und Frauen gibt. Dann kommt es auch nicht mehr auf die Daten an.

  2. Ein paar Anmerkungen nach kurzem Überfliegen.

    Sie ist mathematisch leicht handzuhaben, die meisten Integrale, die bei Wahrscheinlichkeiten mit Normalverteilung auftreten, können analytisch gelöst werden.

    Naja, so unproblematisch ist die Error-Funktion nun auch nicht.

    Zur dritten Graphik von oben:
    Die beiden Diagramme haben unterschiedliche Achsenskalierungen, was ihre Vergleichbarkeit erschwert (solche Methoden werden BTW gerne zur Manipulation genutzt).
    Tatsächlich müssen beide blauen Flächen gleich groß sein.

    In der Natur kommt die Normalverteilung häufig vor, weil sie sich als Näherung der Binomialverteilung für eine sehr große Zahl von Ereignissen ergibt (Moivre-Laplace).
    Die Binomialverteilung findet man überall da, wo gleichartige, voneinander unabhängige Ereignisse (z.B. Wurf einer Münze oder eines Würfels) stattfinden.
    Auch die Poisson-Verteilung und einige andere statistische Verteilungen gehen unter bestimmten Bedingungen approximativ gegen die Normalverteilung.

    • Naja, so unproblematisch ist die Error-Funktion nun auch nicht.

      Deshalb schrieb ich „die meisten Integrale“. Die Errorfunktion kann zwar nicht analytisch gelöst werden, es gibt aber analytisch handhabbare Approximationen mit sehr kleinen relativen Fehlern über den ganzen Wertebereich – insofern wenig problematisch.
      Insgesamt ist die Normalverteilung – vor allem relativ zu vielen anderen Verteilungen – ziemlich einfach zu behandeln.

      Die beiden Diagramme haben unterschiedliche Achsenskalierungen, was ihre Vergleichbarkeit erschwert (solche Methoden werden BTW gerne zur Manipulation genutzt).
      Tatsächlich müssen beide blauen Flächen gleich groß sein.

      In diesen Diagrammen geht es NICHT um den „Flächeninhalt“, sondern darum wie sich die tatsächlichen Ereignisse verteilen, wenn man wirklich 2000 samples aus der jeweiligen Verteilung zieht (empirische Verteilung bzw. Histogramm). Ich traue der Leserschaft hier zu, dass sie von unterschiedlichen Achsenskalierungen nicht überfordert ist. Eine Normalisierung ergibt in diesem Fall keinen Sinn, weil es ja gerade explizit darum geht, dass bei der Normalverteilung um den Wert 0 herum maximal ca. 160 Ereignisse auftreten, bei der Student-t jedoch ca. 300. Bei einer entsprechenden Normalisierung ginge genau dieser Umstand wieder verloren.

      Der gleiche Flächeninhalt ergibt sich aus dem Diagramm davor, wo die beiden analytischen Verteilungen normalisiert abgebildet sind.

      • Was ist in Diagramm 3 überhaupt abgebildet?
        „Im folgenden sind die empirischen Verteilungen von je 2000 Samples der Normalverteilung und der Student-t Verteilung abgebildet.“
        Verstehe ich nicht. Laut Wikipedia ist eine empirische Verteilung eine Wahrscheinlichkeitsverteilung. Da würde ich eine y-Achse von 0 bis 1 erwarten. Was geben die Diagramme an? Wie sind die Diagramme zustandegekommen?

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..