Normalverteilungen mit abweichenden Mittelwerten aber sich überlappenden Trägern: Wie ist die Populationsverteilung im „Endbereich“ zu berechnen?

Mal zur Verbesserung meiner Argumentation eine Frage:

Hier eine einfache Normalverteilung mit einem Mittelwert von 10 und einer Standardabweichung von 10.

Das wären so ungefähr die Anteilsverteilungen.

Das wären zwei Normalverteilungen mit einem unterschiedlichen Mittelwert um eine Standardabweichung, wenn ich das richtig verstehe.

Jetzt hat man es in Geschlechterdiskussionen ja häufig, dass man einen  normalverteilten Geschlechterunterschied hat, sagen wir mal mit 0,4 als mittlere Abweichung und man würde gerne darstellen, wieviel mehr Frauen oder Männer am Ende dieser Verteilung jeweils vorhanden sind.

Also: Sagen wir mal Männer wären in der Eigenschaft im Schnitt etwas besser zb 0,4 und wir hätten ansonsten gleiche Normalverteilungen (was ja bereits ziemlich idealisiert ist), und ich wollte nun verdeutlichen, wie viele Frauen und Männer bei sagen wir mal 10.000 Leuten , 5.000 Männer, 5000 Frauen in den 5% (oder 1%) mit dem höchsten Werten in dem Bereich vorhanden sind.

Kann man das (mit geringen Mathefähigkeiten) einigermaßen ausrechnen oder noch besser ein Programm ausrechnen lassen?

Mit geht es darum, dass es in Debatten interessant wäre etwas besser darstellen zu können, wie stark sich auch kleinere Unterschiede in den Endbereichen auswirken können.

21 Gedanken zu “Normalverteilungen mit abweichenden Mittelwerten aber sich überlappenden Trägern: Wie ist die Populationsverteilung im „Endbereich“ zu berechnen?

  1. Guter Thread genau zu der Frage:

    • Der Thread passt übrigens auch gut zum AE-Artikel gestern. Es gibt dort auch ein paar kritische Kommentare. Die Fakten widerlegen können Sie natürlich nicht, aber sie bringen natürlich das Totschlagsargument: Liegt alles am Patriarchat! 😉

  2. Bei Intelligenz ist meines Wissens die Standardabweichung bei Männern höher.

    Ansonsten vergebene Lebensmühe, weil Statistik böse Männer-Magie ist

  3. Gerade in den Endbereichen wirkt sich aus, dass durch viele idealisierende Annahmen die Fehler zunehmen. Argumente lassen sich dann kaum mit der erforderlichen Sicherheit herleiten.

    • Ich würde es interessant finden um das Prinzip zu verdeutlichen. Aber klar, um so weniger Personen umso eher zerstört ein Ausreißer die Statistik.

      Wenn man allerdings beispielsweise erklären will, warum Männer bei den starken gewalttaten stark übertrieben sind und deutlich machen kann dass das, weil es extrem Taten von sehr wenigen Personen ist bereits bei geringen Unterschieden statistisch zu erwarten ist, dann wäre das schon erst einmal interessant. Ja, auch wenn man das durch die normalverteilungsbilder darstellen kann, einfach mal Zahlen dazu. Ebenso wenn man beispielsweise die Bereitschaft nimmt sehr viel Stunden zu arbeiten, die zwischen den Geschlechtern auch stark abweicht.

        • Es geht um die Darstellung, dass kleine Unterschiede zwischen großen Gruppen sich in den Extrembereichen sehr stark auswirken können.
          Ein einfaches Beispiel wäre Körpergröße: Wenn man raten müsste, ob jemand aus einer zufällig ausgesuchten Gruppe von 100.000 Personen ein Mann oder eine Frau ist, dann hätte man eine Wahrscheinlichkeit von 50% richtig zu liegen
          Wenn man jetzt sagen müsste ob eine zufällig ausgesuchte Person aus der Gruppe der Gruppe der 1% größten aus einer Gruppe von 100.000 Leuten ein Mann oder eine Frau ist, dann hätte man wahrscheinlich mit dem Tipp Mann in 99% (oder 95%, der Wert würde mich eben interessieren) der Fälle recht.

          Jetzt könnte man das übertragen auf verschiedene andere Fähigkeiten, etwa räumliches Denken, Gewaltbereitschaft, Arbeiten mit Dingen statt Personen, BEreitschaft zu überstunden etc.

          Das könnte dann verschiedene Verteilungen erklären ohne Rückgriff auf Geschlechterrollen oder Diskriminierung

  4. Also: Sagen wir mal Männer wären in der Eigenschaft im Schnitt etwas besser zb 0,4 und wir hätten ansonsten gleiche Normalverteilungen, und ich wollte nun verdeutlichen, wie viele Frauen und Männer bei sagen wir mal 10.000 Leuten , 5.000 Männer, 5000 Frauen in den 5% (oder 1%) mit dem höchsten Werten in dem Bereich vorhanden sind.
    Kann man das (mit geringen Mathefähigkeiten) einigermaßen ausrechnen oder noch besser ein Programm ausrechnen lassen?

    Normalverteilung \mathcal{N}(x;\ \mu,\sigma) mit Mittelwert \mu, Standardabweichung \sigma.

    Bei \mathcal{N}_1(x;\ 10, 10) gilt für die „höchsten 5%“i, dass x\geq 26.4485, d.h.
    P(x\geq 26.4485) = \int_{26.4485}^\infty f_1(x) \mathrm{d}x \approx 0.05,
    wobei f_1(x) die Wahrscheinlichkeitsdichtefunktion der Normalverteilung \mathcal{N}_1(x;\ 10, 10) ist.

    Für die Normalverteilung \mathcal{N}_2(x;\ 10.4, 10) ergibt sich
    P(x\geq 26.4485)=0.0542634

    Ist \mathcal{N}_1 die Verteilung der Frauen und \mathcal{N}_2 die Verteilung der Männer, dann sind bei den Männern um 0.426% mehr in den „höchsten 5%“ als bei den Frauen.
    (Bei den Frauen sind ist der Anteil per Definition 0.05=5%, bei den Männern sind es 0.05426=5.426%)

      • Gern geschehen.

        „Du scheinst mir mit einem geringen Unterschied gearbeitet zu haben, eben 10.4 statt 10.“

        Ich habe deine Angaben verwendet:

        „Hier eine einfache Normalverteilung mit einem Mittelwert von 10 und einer Standardabweichung von 10.“

        und

        „Sagen wir mal Männer wären in der Eigenschaft im Schnitt etwas besser zb 0,4“

        Mit diesen Angaben ergibt sich, dass sich der Mittelwert eben von 10 auf 10.4 erhöht. Wenn du an etwas anderem interessiert bist müsstest du es konkreter spezifizieren.

        „Wo kommen die 26.4485 her?“

        Aus deiner Angabe: „wie viele [Personen] in den 5% mit dem höchsten Werten in dem Bereich vorhanden sind“
        Leider ist nicht ganz klar, was genau du damit meinst. Ich habe es so gut es geht interpretiert.
        Die Wahrscheinlichkeit, dass x einen Wert größer als 26.4485 annimmt, ist 5%. Der Wert des Merkmals x muss (bei der von dir angegebenen Verteilung) mindestens so groß sein, damit es in die „höchsten 5%“ fällt.

        „Wie wären die für 1% und woraus ergibt sich das?“

        Aus der Lösung der Gleichung
        \frac{1}{2} \mathrm{erfc}\left(\frac{x-10}{10 \sqrt{2}} \right) \leq 0.05
        nach x, wobei erfc die komplementäre error function ist.

        • Ich glaube Christian möchte gern Wissen, wie er diesen Wert berechnen kann.

          @Christian,

          Wo kommen die 26.4485 her?

          Mit Excel kannst du das relativ einfach berechnen, in deinem Beispiel wäre dies die Formel =NORM.INV(0,95;10;10).

      • @Christian:

        Also hier nochmal als Beispiel, wie du das mit Excel (bzw. LibreOffice Calc) berechnen kannst:

        Du möchtest ermitteln, wie groß die Anzahl der besten 5% (oder 1%) Frauen von 5000 ist. Das ist wie von @pingpong richtig beschrieben einfache Prozentrechnung:

        5000 * 5 / 100 = 250 bzw. 5000 * 1 / 100 = 50

        Bei der am Anfang erwähnten Standardabweichnung von 10 und dem Mittelwert von 10 erhältst du mit Excel mit der Formel

        =NORM.INV((100-5)/100;10;10) den Wert 26,4485 bzw. für 1% mit =NORM.INV((100-1)/100;10;10) den Wert 33,26348.
        Das ist sozusagen die Eigenschaft ab der die Besten 5% bzw. 1% besser sind als der Rest.

        Wenn die Männer 0,4 besser als die Frauen sind, ohne das sich die Standardabweichung ändert (eigentlich unwahrscheinlich!), musst die nun die Wahrscheinlichkeit dafür berechnen, das die Männer schlechter als oder gleich gut sind wie die Werte der Frauen bei 5% bzw. 1%:

        Dazu gibt es die Formel =(1-NORM.DIST(26,4485;10,4;10;TRUE))*5000 mit dem Wert 271,3170483
        bzw. (1-NORM.DIST(33,26348;10,4;10;TRUE))*5000 mit dem Wert 55,58476964

        D.h. dadurch ergeben sich etwa 21 mehr Männer in den Topregion der 5% besten Frauen und 6 mehr Männer in der 1% Topregion der Frauen bei gleicher Leistung (der Frauen).

        In einer Formel für 5%: =(1-NORM.DIST(NORM.INV((100-5)/100;10;10);10,4;10;TRUE))*5000

        Viel deutlicher wird es aber, wenn sich die Standardabweichung ändert, z.B. wenn die Männer eine Standardabweichung von 20 haben:

        =(1-NORM.DIST(NORM.INV((100-5)/100;10;10);10,4;20;TRUE))*5000

        dann ergibt sich der Wert 1055,76527 d.h wir haben jetzt mit einmal mehr als viermal so viel Männer wie Frauen in der Topregion von 5%.

        Bei 1% ergibt sich 632,4159527 d.h. mehr als 12 mal soviele Männer, wie Frauen in der Top 1% Region der Frauen.

        • Kann mal jemand diesen haarsträubenden Unsinn von mir ausbessern?

          dann sind bei den Männern um 0.426% mehr in den „höchsten 5%“ als bei den Frauen.
          (Bei den Frauen ist der Anteil per Definition 0.05=5%, bei den Männern sind es 0.05426=5.426%)

          Es sind natürlich nicht um 0.426% mehr, sondern ca 8%.
          0.05426 / 0.05 = ca 1.08 bzw 8% mehr.

          Das passt dann auch besser zu kibos Berechnung dass 21 mehr Männer in der topregion sind: 8% von den 250 (250 ist die Anzahl in den top 5%) sind ca 21.

          Ansonsten: danke kibo!

  5. 2 Normalverteilungen a(x) und b(x)
    mit Mittelwerten ma, mb
    und Standardabweichungen sa, sb

    Das Verhaeltnis der beiden, also a(x)/b(x):
    (sb/sa)*exp(((x-mb)^2/(2*sb^2))-((x-ma)^2/(2*sa^2)))
    (natuerlich ohne Garantie fuer nix. selber nachpruefen!)
    Also wenn das zB 3 waere, wuerde das bedeuten, dass 3mal soviele Mitglieder von Gruppe A als Mitglieder von Gruppe B den Wert x aufweisen.

    Geht schon analytisch oder?

    • „Das Verhaeltnis der beiden, also a(x)/b(x):
      (sb/sa)*exp(((x-mb)^2/(2*sb^2))-((x-ma)^2/(2*sa^2)))“

      Oh weh

      „Also wenn das zB 3 waere, wuerde das bedeuten, dass 3mal soviele Mitglieder von Gruppe A als Mitglieder von Gruppe B den Wert x aufweisen.“

      Besonders interessant ist ja häufig die verteilung am Ende, weil eben leute mit besonderen Fähigkeiten auf einem Gebiet eher dieses Gebiet wählen bzw in dieser Hinsicht handeln. Da wäre es wie gesagt interessant gewesen, dass mal in Zahlen bringen zu können.

  6. Habe aktuell zuviel anderes um die Ohren, um selbst ein Progrämmchen aufzusetzen. Grundsätzlich mache ich so etwas ja gerne.
    Auf https://de.wikipedia.org/wiki/Standardnormalverteilungstabelle kann man aber eigentlich alles mit ausreichender Genauigkeit nachschauen.

    Bestimmt gibt es online auch bereits geeignete Rechner. Aber auch zu einer längeren Recherche fehlt mir die Zeit.
    Mit Excel müsste es auch gehen.

    Ein paar Faustwerte zur Abschätzung der Top x%:
    | 50% | 0 |
    | 20% | 0.84 |
    | 16% | 1 |
    | 10% | 1.28 |
    | 5% | 1.64 |
    | 2% | 2.05 |
    | 1% | 2.33 |
    | 0.5% | 2.58 |
    | 0.2% | 2.88 |
    | 0.1% | 3.09 |
    In der zweiten Spalte angegeben ist der Abstand zum Mittelwert in Standardabweichungen. Wer Tippfehler findet, darf sie behalten.

    Mit geht es darum, dass es in Debatten interessant wäre etwas besser darstellen zu können, wie stark sich auch kleinere Unterschiede in den Endbereichen auswirken können.

    Diese Klientel lässt sich nicht durch Zahlen beeindrucken, geschweige denn überzeugen. Insofern ist jede dafür investierte Zeit vergebens.

  7. Ganz einfach auf die Fläche geblickt, wenn die B-Kurve um eine Standardabweichung nach rechts gegenüber der A-Kurve verschoben wird, sind in dem Bereich, _ab_ dem nur noch 2,35% aller Mitglieder von A vorkommen, 13,5+2,35=15,85 Mitglieder von B. Wenn beide Gruppen gleich groß sind, wären in dem Bereich also 15,85/2,35 = 6,74 mal soviele „Bs“ wie „As“, oder nur rd. 13% aller Personen in dem Bereich wären „Bs“.

    Ein ähnliches Ergebnis erhält man, wenn die B-Kurve nicht nach rechts verschoben, sondern flacher ist. Und wer weiß, so eine Kurve kann auch aussehen wie eine Riesenschlange, die einen Elefanten verdaut.

    Man kann also von den Werten an dem einen Extrem-Ende noch nichtmal auf die _Form_ der Kurven zurückschließen.

  8. Ich seh grad: Emil Kirkegaard hat ein Tool auf seiner Webseite, mit dem man zwei Normalverteilungen gegeneinander vergleichen kann.

    http://emilkirkegaard.dk/understanding_statistics/?app=tail_effects

    Wenn ich das richtig verstehe…

    …sagt diese Grafik: Wenn du zwei gleich große Gruppen mit Normalverteilung hast; Gruppe blau hat den Mittelwert bei 100, rot bei 85, ansonsten alles gleich und du willst wissen, wie die Verteilung jenseits der 130 ist…
    …dann sind 16,85 mal mehr blaue als rote im Bereich über 130.
    Oder auch: 94% derer über 130 sind blau.

    Diese Werte …

    …bedeuten: Wenn du zwei gleich große Gruppen hast, aber blau hat eine etwas größere Standardabweichung (18 vs 15), dann hast du 2.1 mal zu viele blaue wie rote im Bereich über 130 bzw 68% der über-130 sind rot.

    Ganz interessant.

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..