Mal zur Verbesserung meiner Argumentation eine Frage:
Hier eine einfache Normalverteilung mit einem Mittelwert von 10 und einer Standardabweichung von 10.
Das wären so ungefähr die Anteilsverteilungen.
Das wären zwei Normalverteilungen mit einem unterschiedlichen Mittelwert um eine Standardabweichung, wenn ich das richtig verstehe.
Jetzt hat man es in Geschlechterdiskussionen ja häufig, dass man einen normalverteilten Geschlechterunterschied hat, sagen wir mal mit 0,4 als mittlere Abweichung und man würde gerne darstellen, wieviel mehr Frauen oder Männer am Ende dieser Verteilung jeweils vorhanden sind.
Also: Sagen wir mal Männer wären in der Eigenschaft im Schnitt etwas besser zb 0,4 und wir hätten ansonsten gleiche Normalverteilungen (was ja bereits ziemlich idealisiert ist), und ich wollte nun verdeutlichen, wie viele Frauen und Männer bei sagen wir mal 10.000 Leuten , 5.000 Männer, 5000 Frauen in den 5% (oder 1%) mit dem höchsten Werten in dem Bereich vorhanden sind.
Kann man das (mit geringen Mathefähigkeiten) einigermaßen ausrechnen oder noch besser ein Programm ausrechnen lassen?
Mit geht es darum, dass es in Debatten interessant wäre etwas besser darstellen zu können, wie stark sich auch kleinere Unterschiede in den Endbereichen auswirken können.
Also: Sagen wir mal Männer wären in der Eigenschaft im Schnitt etwas besser zb 0,4
Schätze, bereits diese Annahme würde abgelehnt werden.
Guter Thread genau zu der Frage:
Der Thread passt übrigens auch gut zum AE-Artikel gestern. Es gibt dort auch ein paar kritische Kommentare. Die Fakten widerlegen können Sie natürlich nicht, aber sie bringen natürlich das Totschlagsargument: Liegt alles am Patriarchat! 😉
Bei Intelligenz ist meines Wissens die Standardabweichung bei Männern höher.
Ansonsten vergebene Lebensmühe, weil Statistik böse Männer-Magie ist
Gerade in den Endbereichen wirkt sich aus, dass durch viele idealisierende Annahmen die Fehler zunehmen. Argumente lassen sich dann kaum mit der erforderlichen Sicherheit herleiten.
Ich würde es interessant finden um das Prinzip zu verdeutlichen. Aber klar, um so weniger Personen umso eher zerstört ein Ausreißer die Statistik.
Wenn man allerdings beispielsweise erklären will, warum Männer bei den starken gewalttaten stark übertrieben sind und deutlich machen kann dass das, weil es extrem Taten von sehr wenigen Personen ist bereits bei geringen Unterschieden statistisch zu erwarten ist, dann wäre das schon erst einmal interessant. Ja, auch wenn man das durch die normalverteilungsbilder darstellen kann, einfach mal Zahlen dazu. Ebenso wenn man beispielsweise die Bereitschaft nimmt sehr viel Stunden zu arbeiten, die zwischen den Geschlechtern auch stark abweicht.
Das Zauberwort dürfte „Quantil“ heißen (https://de.wikipedia.org/wiki/Quantil_(Wahrscheinlichkeitstheorie)), auch wenn mir nicht ganz klar wird, was Du ausdrücken möchtest.
Geht es darum, auszudrücken, welches Quantil in Funktion i mit welchem Quantil in Funktion j überlappt, was ungefähr die Aussage wäre, dass Männer im Männersport Platz x erreichen, aber Platz y im Frauensport erreichen würden. Oder um etwas anderes?
Es geht um die Darstellung, dass kleine Unterschiede zwischen großen Gruppen sich in den Extrembereichen sehr stark auswirken können.
Ein einfaches Beispiel wäre Körpergröße: Wenn man raten müsste, ob jemand aus einer zufällig ausgesuchten Gruppe von 100.000 Personen ein Mann oder eine Frau ist, dann hätte man eine Wahrscheinlichkeit von 50% richtig zu liegen
Wenn man jetzt sagen müsste ob eine zufällig ausgesuchte Person aus der Gruppe der Gruppe der 1% größten aus einer Gruppe von 100.000 Leuten ein Mann oder eine Frau ist, dann hätte man wahrscheinlich mit dem Tipp Mann in 99% (oder 95%, der Wert würde mich eben interessieren) der Fälle recht.
Jetzt könnte man das übertragen auf verschiedene andere Fähigkeiten, etwa räumliches Denken, Gewaltbereitschaft, Arbeiten mit Dingen statt Personen, BEreitschaft zu überstunden etc.
Das könnte dann verschiedene Verteilungen erklären ohne Rückgriff auf Geschlechterrollen oder Diskriminierung
Also: Sagen wir mal Männer wären in der Eigenschaft im Schnitt etwas besser zb 0,4 und wir hätten ansonsten gleiche Normalverteilungen, und ich wollte nun verdeutlichen, wie viele Frauen und Männer bei sagen wir mal 10.000 Leuten , 5.000 Männer, 5000 Frauen in den 5% (oder 1%) mit dem höchsten Werten in dem Bereich vorhanden sind.
Kann man das (mit geringen Mathefähigkeiten) einigermaßen ausrechnen oder noch besser ein Programm ausrechnen lassen?
Normalverteilung
mit Mittelwert
, Standardabweichung
.
Bei
gilt für die „höchsten 5%“i, dass
, d.h.
,
die Wahrscheinlichkeitsdichtefunktion der Normalverteilung
ist.
wobei
Für die Normalverteilung
ergibt sich

Ist
die Verteilung der Frauen und
die Verteilung der Männer, dann sind bei den Männern um 0.426% mehr in den „höchsten 5%“ als bei den Frauen.
(Bei den Frauen sind ist der Anteil per Definition 0.05=5%, bei den Männern sind es 0.05426=5.426%)
Vielen Dank!.
kannst du es vielleicht noch mal etwas erläutern? Du scheinst mir mit einem geringen Unterschied gearbeitet zu haben, eben 10.4 statt 10.
Wo kommen die 26.4485 her? Wie wären die für 1% und woraus ergibt sich das?
Gern geschehen.
„Du scheinst mir mit einem geringen Unterschied gearbeitet zu haben, eben 10.4 statt 10.“
Ich habe deine Angaben verwendet:
„Hier eine einfache Normalverteilung mit einem Mittelwert von 10 und einer Standardabweichung von 10.“
und
„Sagen wir mal Männer wären in der Eigenschaft im Schnitt etwas besser zb 0,4“
Mit diesen Angaben ergibt sich, dass sich der Mittelwert eben von 10 auf 10.4 erhöht. Wenn du an etwas anderem interessiert bist müsstest du es konkreter spezifizieren.
„Wo kommen die 26.4485 her?“
Aus deiner Angabe: „wie viele [Personen] in den 5% mit dem höchsten Werten in dem Bereich vorhanden sind“
Leider ist nicht ganz klar, was genau du damit meinst. Ich habe es so gut es geht interpretiert.
Die Wahrscheinlichkeit, dass x einen Wert größer als 26.4485 annimmt, ist 5%. Der Wert des Merkmals x muss (bei der von dir angegebenen Verteilung) mindestens so groß sein, damit es in die „höchsten 5%“ fällt.
„Wie wären die für 1% und woraus ergibt sich das?“
Aus der Lösung der Gleichung

nach x, wobei erfc die komplementäre error function ist.
Ich glaube Christian möchte gern Wissen, wie er diesen Wert berechnen kann.
@Christian,
Mit Excel kannst du das relativ einfach berechnen, in deinem Beispiel wäre dies die Formel =NORM.INV(0,95;10;10).
@Christian:
Also hier nochmal als Beispiel, wie du das mit Excel (bzw. LibreOffice Calc) berechnen kannst:
Du möchtest ermitteln, wie groß die Anzahl der besten 5% (oder 1%) Frauen von 5000 ist. Das ist wie von @pingpong richtig beschrieben einfache Prozentrechnung:
5000 * 5 / 100 = 250 bzw. 5000 * 1 / 100 = 50
Bei der am Anfang erwähnten Standardabweichnung von 10 und dem Mittelwert von 10 erhältst du mit Excel mit der Formel
=NORM.INV((100-5)/100;10;10) den Wert 26,4485 bzw. für 1% mit =NORM.INV((100-1)/100;10;10) den Wert 33,26348.
Das ist sozusagen die Eigenschaft ab der die Besten 5% bzw. 1% besser sind als der Rest.
Wenn die Männer 0,4 besser als die Frauen sind, ohne das sich die Standardabweichung ändert (eigentlich unwahrscheinlich!), musst die nun die Wahrscheinlichkeit dafür berechnen, das die Männer schlechter als oder gleich gut sind wie die Werte der Frauen bei 5% bzw. 1%:
Dazu gibt es die Formel =(1-NORM.DIST(26,4485;10,4;10;TRUE))*5000 mit dem Wert 271,3170483
bzw. (1-NORM.DIST(33,26348;10,4;10;TRUE))*5000 mit dem Wert 55,58476964
D.h. dadurch ergeben sich etwa 21 mehr Männer in den Topregion der 5% besten Frauen und 6 mehr Männer in der 1% Topregion der Frauen bei gleicher Leistung (der Frauen).
In einer Formel für 5%: =(1-NORM.DIST(NORM.INV((100-5)/100;10;10);10,4;10;TRUE))*5000
Viel deutlicher wird es aber, wenn sich die Standardabweichung ändert, z.B. wenn die Männer eine Standardabweichung von 20 haben:
=(1-NORM.DIST(NORM.INV((100-5)/100;10;10);10,4;20;TRUE))*5000
dann ergibt sich der Wert 1055,76527 d.h wir haben jetzt mit einmal mehr als viermal so viel Männer wie Frauen in der Topregion von 5%.
Bei 1% ergibt sich 632,4159527 d.h. mehr als 12 mal soviele Männer, wie Frauen in der Top 1% Region der Frauen.
Kann mal jemand diesen haarsträubenden Unsinn von mir ausbessern?
dann sind bei den Männern um 0.426% mehr in den „höchsten 5%“ als bei den Frauen.
(Bei den Frauen ist der Anteil per Definition 0.05=5%, bei den Männern sind es 0.05426=5.426%)
Es sind natürlich nicht um 0.426% mehr, sondern ca 8%.
0.05426 / 0.05 = ca 1.08 bzw 8% mehr.
Das passt dann auch besser zu kibos Berechnung dass 21 mehr Männer in der topregion sind: 8% von den 250 (250 ist die Anzahl in den top 5%) sind ca 21.
Ansonsten: danke kibo!
2 Normalverteilungen a(x) und b(x)
mit Mittelwerten ma, mb
und Standardabweichungen sa, sb
Das Verhaeltnis der beiden, also a(x)/b(x):
(sb/sa)*exp(((x-mb)^2/(2*sb^2))-((x-ma)^2/(2*sa^2)))
(natuerlich ohne Garantie fuer nix. selber nachpruefen!)
Also wenn das zB 3 waere, wuerde das bedeuten, dass 3mal soviele Mitglieder von Gruppe A als Mitglieder von Gruppe B den Wert x aufweisen.
Geht schon analytisch oder?
„Das Verhaeltnis der beiden, also a(x)/b(x):
(sb/sa)*exp(((x-mb)^2/(2*sb^2))-((x-ma)^2/(2*sa^2)))“
Oh weh
„Also wenn das zB 3 waere, wuerde das bedeuten, dass 3mal soviele Mitglieder von Gruppe A als Mitglieder von Gruppe B den Wert x aufweisen.“
Besonders interessant ist ja häufig die verteilung am Ende, weil eben leute mit besonderen Fähigkeiten auf einem Gebiet eher dieses Gebiet wählen bzw in dieser Hinsicht handeln. Da wäre es wie gesagt interessant gewesen, dass mal in Zahlen bringen zu können.
Ganz so einfach ist es nicht.
Es geht nicht um die Funktionswerte selbst, sondern um die Fläche unter der Kurve. Man muss also integrieren, wodurch man dann auf die Errorfunction kommt.
Habe aktuell zuviel anderes um die Ohren, um selbst ein Progrämmchen aufzusetzen. Grundsätzlich mache ich so etwas ja gerne.
Auf https://de.wikipedia.org/wiki/Standardnormalverteilungstabelle kann man aber eigentlich alles mit ausreichender Genauigkeit nachschauen.
Bestimmt gibt es online auch bereits geeignete Rechner. Aber auch zu einer längeren Recherche fehlt mir die Zeit.
Mit Excel müsste es auch gehen.
Ein paar Faustwerte zur Abschätzung der Top x%:
| 50% | 0 |
| 20% | 0.84 |
| 16% | 1 |
| 10% | 1.28 |
| 5% | 1.64 |
| 2% | 2.05 |
| 1% | 2.33 |
| 0.5% | 2.58 |
| 0.2% | 2.88 |
| 0.1% | 3.09 |
In der zweiten Spalte angegeben ist der Abstand zum Mittelwert in Standardabweichungen. Wer Tippfehler findet, darf sie behalten.
Diese Klientel lässt sich nicht durch Zahlen beeindrucken, geschweige denn überzeugen. Insofern ist jede dafür investierte Zeit vergebens.
Richtig, NORM.INV berechnet in Excel diesen Wert
Ganz einfach auf die Fläche geblickt, wenn die B-Kurve um eine Standardabweichung nach rechts gegenüber der A-Kurve verschoben wird, sind in dem Bereich, _ab_ dem nur noch 2,35% aller Mitglieder von A vorkommen, 13,5+2,35=15,85 Mitglieder von B. Wenn beide Gruppen gleich groß sind, wären in dem Bereich also 15,85/2,35 = 6,74 mal soviele „Bs“ wie „As“, oder nur rd. 13% aller Personen in dem Bereich wären „Bs“.
Ein ähnliches Ergebnis erhält man, wenn die B-Kurve nicht nach rechts verschoben, sondern flacher ist. Und wer weiß, so eine Kurve kann auch aussehen wie eine Riesenschlange, die einen Elefanten verdaut.
Man kann also von den Werten an dem einen Extrem-Ende noch nichtmal auf die _Form_ der Kurven zurückschließen.
Ich seh grad: Emil Kirkegaard hat ein Tool auf seiner Webseite, mit dem man zwei Normalverteilungen gegeneinander vergleichen kann.
http://emilkirkegaard.dk/understanding_statistics/?app=tail_effects
Wenn ich das richtig verstehe…
…sagt diese Grafik: Wenn du zwei gleich große Gruppen mit Normalverteilung hast; Gruppe blau hat den Mittelwert bei 100, rot bei 85, ansonsten alles gleich und du willst wissen, wie die Verteilung jenseits der 130 ist…
…dann sind 16,85 mal mehr blaue als rote im Bereich über 130.
Oder auch: 94% derer über 130 sind blau.
Diese Werte …
…bedeuten: Wenn du zwei gleich große Gruppen hast, aber blau hat eine etwas größere Standardabweichung (18 vs 15), dann hast du 2.1 mal zu viele blaue wie rote im Bereich über 130 bzw 68% der über-130 sind rot.
Ganz interessant.