Die ist ein Gastartikel von PingPong
In vielen Kontexten, insbesondere wenn es um Wissenschaft und wissenschaftliche Arbeiten oder Ergebnisse geht, wird der Begriff Korrelation verwendet. Dieser Artikel soll einige wichtige Eigenschaften von Korrelation beleuchten. Er ist bewusst einfach gehalten und wird ohne mathematische Formeln auskommen, diese kann der interessierte Leser jederzeit auf Wikipedia und ähnlichen Webseiten nachschlagen. Hier soll es hingegen um die ganz praktische Bedeutung von Korrelation in der realen Alltagswelt gehen.
1. Korrelation ist keine Korrelation
Die meisten werden den Spruch von der Korrelation und der Kausalität kennen. Etwas überraschender könnte daher die Erkenntnis sein, dass Korrelation nicht nur keine Kausalität, sondern auch keine Korrelation ist.
Damit ist die Tatsache gemeint, dass Korrelation selbst eine Zufallsvariable darstellt. Korrelation ist keine Größe, die man aus den vorhandenen Daten ausrechnet und
die dann auf magische Weise etwas „fixes“ über diese Daten aussagt. Sondern Korrelation hat selbst eine Unsicherheit, einen Mittelwert, eine Varianz usw. Es ist eine eigene Zufallsvariable die eine eigene Wahrscheinlichkeitsverteilung besitzt.
Am einfachsten kann man das sehen, indem man zufällige Punkte einer bivariaten
Normalverteilung nimmt und die Korrelation zwischen ihnen ausrechnet. Da die Punkte zufällig sind, ist deren Korrelation per Definition 0. Die folgende Grafik
zeigt 9 solche Versuche, bei denen der Korrelationskoeffizient von je 50 zufälligen Punkten berechnet wurde.
Wie man sieht reicht der Wert des Korrelationskoeffizienten von r=-0.29 bis r=0.16 – obwohl doch die Punkte rein zufällig, d.h. Korrelation 0, gewählt wurden!
Wie sieht also die Wahrscheinlichkeitsverteilung des Korrelationskoeffizienten aus? Zu diesem Zweck führt man das obige Experiment viele male durch und betrachtet die empirische Verteilung der resultierenden Korrelationskoeffizienten. Diese hat selbst wieder die Form einer Normalverteilung, eine Folge des Gesetzes der großen Zahlen. Es gibt viele Werte um 0 herum (die tatsächliche Korrelation), aber auch signifikante Abweichungen. Im Fall wo man für jedes Experiment 50 zufällige Punkte erzeugt reichen diese Abweichung durchaus bis +- 0.4. Im Kontext eines wissenschaftlichen Experiments bedeutet das, dass es einen erheblichen versteckten Freiheitsgrad gibt:
Der Wissenschaftler kann das Experiment einfach öfter durchführen und am Schluss das Ergebnis mit der „besten“ Korrelation wählen. Für den Fall dass das Sample wie hier eine Größe von 50 hat, kann das den Unterschied zwischen keine Korrelation (r=0) und „erhebliche Korrelation“ (r=0.4) bedeuten.
Was passiert, wenn man ein größeres Sample verwendet? In dem obigen Beispiel statt 50 zufällige Punkte 500? Die Verteilung des Korrelationskoeffizienten wird enger, aber es ist noch immer erkennbar eine Normalverteilung. Nur eben mit einer kleineren
Standardabweichung. Der Freiheitsgrad ist nicht mehr so groß, aber immer noch vorhanden. In diesem Fall ist der absolute Unterschied im Korrelationskoeffizienten noch immer 0.2 (von -0.1 bis 0.1), in vielen papers wird das bereits als „signifikant“ bezeichnet.
Erst im Limit mit unendlich vielen Samples verschwindet dieser Effekt. Leider gibt es auf dem Weg dorthin auch noch einen abnehmend Ertrag, denn die Verbesserung durch mehr Samples wirkt sich nicht linear aus sondern eher mit 1/sqrt(N) aus. D.h. doppelt so viele Samples sind nicht doppelt so genau, sondern der Gewinn an Präzision ist viel weniger.
2. Korrelation ist nicht linear
Was ist der Unterschied zwischen Korrelation 0.2 und Korrelation 0.4? Wäre Korrelation linear, dann könnte man sagen r=0.4 ist ein doppelt so großer Zusammenhang wie r=0.2. Um zu sehen was die Nichtlinearität von Korrelation bedeutet, kann man sich wieder eine bivariate (d.h. 2 Komponenten) Normalverteilung ansehen, bei der die beiden Komponenten unterschiedlich stark miteinander korrelieren. Der Fall r=0 ist derselbe wie in dem Experiment in Punkt 1, es gibt überhaupt keinen Zusammenhang. Das andere Extrem ist r=1.0, das bedeutet es gibt einen perfekten Zusammenhang: Der Wert der einen Komponente determiniert den Wert der anderen. Korrelationswerte zwischen 0 und 1 sind verschieden starke Abstufungen des Zusammenhangs.
Die Grafik zeigt jeweils 1000 Punkte einer bivariaten Normalverteilung mit verschieden starken Korrelationen. Man sieht deutlich, dass der Unterschied zwischen r=0 und r=0.5 ein ganz anderer ist als beispielsweise zwischen r=0.9 und r=1. Obwohl sich im ersten Fall die Korrelation um ganze 0.5 ändert, sieht man in den entsprechenden Daten fast keinen Unterschied. r=0.5 ist viel näher an r=0 als an r=1. Andererseits gibt es einen erheblichen Unterschied zwischen r=0.9 und r=1, obwohl sich in diesem Fall die Korrelation „nur“ um 0.1 ändert.
Für die Praxis bedeutet das, dass Korrelationswerte unterhalb eines Absolutwertes von 0.5 (größer als -0.5, kleiner als 0.5) praktisch quasi ebenso gut Zufall sein könnten. Insbesondere dann, wenn das Sample relativ klein ist, siehe Punkt 1.
In der Vergangenheit wurden hier einige Studien zum Zusammenhang zwischen Intelligenz/sozioökonomischer Status und und Leistung der Schüler besprochen. Ich zitiere einige Teile aus den Studien:
„the significant correlation – ranging from 0.4 and 0.6“ „‘very robust’ link […] consistent with an “average correlation of 0.5“ „correlates highly (r = 0.54)“ „strongly associated […] r score was 0.53“
Solche Korrelationen sollten anhand der Grafik oben wohl nicht als „significant“, „very
robust“ oder „strongly associated“ bewertet werden.
3. Korrelation ist subadditiv
Subadditiv bedeutet folgendes: Angenommen man hat Daten, aus denen man die Korrelation berechnen will. Wenn man die Daten aufteilt, und die Korrelationen für die Teildaten separat berechnet, dann ist die Gesamtkorrelation über alle Daten immer kleiner oder gleich wie die Summe der Teilkorrelationen.
Das kann unerwartete Effekte haben.
Die Grafik zeigt Daten von 0 bis 10, wobei die erste Hälfte von 0 bis 5 perfekt korreliert (r=1), die zweite Hälfte hingegen überhaupt nicht (r=0). Die Gesamtkorrelation über den ganzen Bereich 0 bis 10 ist nicht etwa 1 (Summe der Teilkorrelationen), und auch nicht 0.5 (Summe der Teilkorrelationen gewichtet), sondern ca. 0.9.
Ein Ergebnis „der Zusammenhang ist stark ausgeprägt, die Korrelation beträgt 0.75“ kann also durchaus beinhalten, dass große Teile der Daten überhaupt nicht(!) miteinander zusammenhängen.
Die nächste Grafik zeigt den Verlauf der Gesamtkorrelation für verschiedene Aufteilungen in r=0 und r=1.
Der Gesamtbereich ist wie zuvor 0 bis 10. Die Korrelation ist von 0 bis zu dem Wert auf der x-Achse perfekt (r=1), ab dann ist die Korrelation Null. Man sieht, dass
beispielsweise der Fall wo 10% der Daten perfekt korrelieren und 90%(!!) komplett unkorreliert sind (Wert 1 auf der x-Achse), noch immer eine Gesamtkorrelation von fast 0.5 erzeugt.
4. Fazit
Korrelation ist eine Zufallsvariable. Ebenso wie es gute Praxis ist nicht nur den Mittelwert zu erwähnen, sondern die Standardabweichung und Fehlerbereiche ebenfalls, so wäre es gute Praxis nicht nur den Korrelationswert zu berichten, sondern weitere Informationen zu seiner Verteilung.
Korrelation ist nicht linear. Der Wertebereich zwischen -0.5 und 0.5 für den Korrelationskoeffizienten ist viel näher an Rauschen als an einem tatsächlichen Zusammenhang. Als Faustregel: Wenn man den Zusammenhang nicht sofort und mit freiem Auge sieht, dann ist es womöglich mehr Zufall als tatsächlicher Zusammenhang.
Korrelation ist subadditiv. Selbst ein großer Korrelationskoeffizient von beispielsweise
r=0.7 kann noch immer von Daten kommen, die zum einem Großteil überhaupt nicht
korreliert sind.