Korrelation in der realen Welt (Gastartikel PingPong)

Die ist ein Gastartikel von PingPong

In vielen Kontexten, insbesondere wenn es um Wissenschaft und wissenschaftliche Arbeiten oder Ergebnisse geht, wird der Begriff Korrelation verwendet. Dieser Artikel soll einige wichtige Eigenschaften von Korrelation beleuchten. Er ist bewusst einfach gehalten und wird ohne mathematische Formeln auskommen, diese kann der interessierte Leser jederzeit auf Wikipedia und ähnlichen Webseiten nachschlagen. Hier soll es hingegen um die ganz praktische Bedeutung von Korrelation in der realen Alltagswelt gehen.

1. Korrelation ist keine Korrelation

Die meisten werden den Spruch von der Korrelation und der Kausalität kennen. Etwas überraschender könnte daher die Erkenntnis sein, dass Korrelation nicht nur keine Kausalität, sondern auch keine Korrelation ist.
Damit ist die Tatsache gemeint, dass Korrelation selbst eine Zufallsvariable darstellt. Korrelation ist keine Größe, die man aus den vorhandenen Daten ausrechnet und
die dann auf magische Weise etwas „fixes“ über diese Daten aussagt. Sondern Korrelation hat selbst eine Unsicherheit, einen Mittelwert, eine Varianz usw. Es ist eine eigene Zufallsvariable die eine eigene Wahrscheinlichkeitsverteilung besitzt.

Am einfachsten kann man das sehen, indem man zufällige Punkte einer bivariaten
Normalverteilung nimmt und die Korrelation zwischen ihnen ausrechnet. Da die Punkte zufällig sind, ist deren Korrelation per Definition 0. Die folgende Grafik
zeigt 9 solche Versuche, bei denen der Korrelationskoeffizient von je 50 zufälligen Punkten berechnet wurde.

correlation

Wie man sieht reicht der Wert des Korrelationskoeffizienten von r=-0.29 bis r=0.16 – obwohl doch die Punkte rein zufällig, d.h. Korrelation 0, gewählt wurden!
Wie sieht also die Wahrscheinlichkeitsverteilung des Korrelationskoeffizienten aus? Zu diesem Zweck führt man das obige Experiment viele male durch und betrachtet die empirische Verteilung der resultierenden Korrelationskoeffizienten. Diese hat selbst wieder die Form einer Normalverteilung, eine Folge des Gesetzes der großen Zahlen. Es gibt viele Werte um 0 herum (die tatsächliche Korrelation), aber auch signifikante Abweichungen. Im Fall wo man für jedes Experiment 50 zufällige Punkte erzeugt reichen diese Abweichung durchaus bis +- 0.4. Im Kontext eines wissenschaftlichen Experiments bedeutet das, dass es einen erheblichen versteckten Freiheitsgrad gibt:

Der Wissenschaftler kann das Experiment einfach öfter durchführen und am Schluss das Ergebnis mit der „besten“ Korrelation wählen. Für den Fall dass das Sample wie hier eine Größe von 50 hat, kann das den Unterschied zwischen keine Korrelation (r=0) und „erhebliche Korrelation“ (r=0.4) bedeuten.

correlation

Was passiert, wenn man ein größeres Sample verwendet? In dem obigen Beispiel statt 50 zufällige Punkte 500? Die Verteilung des Korrelationskoeffizienten wird enger, aber es ist noch immer erkennbar eine Normalverteilung. Nur eben mit einer kleineren
Standardabweichung. Der Freiheitsgrad ist nicht mehr so groß, aber immer noch vorhanden. In diesem Fall ist der absolute Unterschied im Korrelationskoeffizienten noch immer 0.2 (von -0.1 bis 0.1), in vielen papers wird das bereits als „signifikant“ bezeichnet.

Erst im Limit mit unendlich vielen Samples verschwindet dieser Effekt. Leider gibt es auf dem Weg dorthin auch noch einen abnehmend Ertrag, denn die Verbesserung durch mehr Samples wirkt sich nicht linear aus sondern eher mit 1/sqrt(N) aus. D.h. doppelt so viele Samples sind nicht doppelt so genau, sondern der Gewinn an Präzision ist viel weniger.

2. Korrelation ist nicht linear

Was ist der Unterschied zwischen Korrelation 0.2 und Korrelation 0.4? Wäre Korrelation linear, dann könnte man sagen r=0.4 ist ein doppelt so großer Zusammenhang wie r=0.2. Um zu sehen was die Nichtlinearität von Korrelation bedeutet, kann man sich wieder eine bivariate (d.h. 2 Komponenten) Normalverteilung ansehen, bei der die beiden Komponenten unterschiedlich stark miteinander korrelieren. Der Fall r=0 ist derselbe wie in dem Experiment in Punkt 1, es gibt überhaupt keinen Zusammenhang. Das andere Extrem ist r=1.0, das bedeutet es gibt einen perfekten Zusammenhang: Der Wert der einen Komponente determiniert den Wert der anderen. Korrelationswerte zwischen 0 und 1 sind verschieden starke Abstufungen des Zusammenhangs.

Die Grafik zeigt jeweils 1000 Punkte einer bivariaten Normalverteilung mit verschieden starken Korrelationen. Man sieht deutlich, dass der Unterschied zwischen r=0 und r=0.5 ein ganz anderer ist als beispielsweise zwischen r=0.9 und r=1. Obwohl sich im ersten Fall die Korrelation um ganze 0.5 ändert, sieht man in den entsprechenden Daten fast keinen Unterschied. r=0.5 ist viel näher an r=0 als an r=1. Andererseits gibt es einen erheblichen Unterschied zwischen r=0.9 und r=1, obwohl sich in diesem Fall die Korrelation „nur“ um 0.1 ändert.

Für die Praxis bedeutet das, dass Korrelationswerte unterhalb eines Absolutwertes von 0.5 (größer als -0.5, kleiner als 0.5) praktisch quasi ebenso gut Zufall sein könnten. Insbesondere dann, wenn das Sample relativ klein ist, siehe Punkt 1.

In der Vergangenheit wurden hier einige Studien zum Zusammenhang zwischen Intelligenz/sozioökonomischer Status und und Leistung der Schüler besprochen. Ich zitiere einige Teile aus den Studien:

„the significant correlation – ranging from 0.4 and 0.6“ „‘very robust’ link […] consistent with an “average correlation of 0.5“ „correlates highly (r = 0.54)“ „strongly associated […] r score was 0.53“

Solche Korrelationen sollten anhand der Grafik oben wohl nicht als „significant“, „very
robust“ oder „strongly associated“ bewertet werden.

3. Korrelation ist subadditiv

Subadditiv bedeutet folgendes: Angenommen man hat Daten, aus denen man die Korrelation berechnen will. Wenn man die Daten aufteilt, und die Korrelationen für die Teildaten separat berechnet, dann ist die Gesamtkorrelation über alle Daten immer kleiner oder gleich wie die Summe der Teilkorrelationen.

Das kann unerwartete Effekte haben.

Die Grafik zeigt Daten von 0 bis 10, wobei die erste Hälfte von 0 bis 5 perfekt korreliert (r=1), die zweite Hälfte hingegen überhaupt nicht (r=0). Die Gesamtkorrelation über den ganzen Bereich 0 bis 10 ist nicht etwa 1 (Summe der Teilkorrelationen), und auch nicht 0.5 (Summe der Teilkorrelationen gewichtet), sondern ca. 0.9.
Ein Ergebnis „der Zusammenhang ist stark ausgeprägt, die Korrelation beträgt 0.75“ kann also durchaus beinhalten, dass große Teile der Daten überhaupt nicht(!) miteinander zusammenhängen.

Die nächste Grafik zeigt den Verlauf der Gesamtkorrelation für verschiedene Aufteilungen in r=0 und r=1.

Der Gesamtbereich ist wie zuvor 0 bis 10. Die Korrelation ist von 0 bis zu dem Wert auf der x-Achse perfekt (r=1), ab dann ist die Korrelation Null. Man sieht, dass
beispielsweise der Fall wo 10% der Daten perfekt korrelieren und 90%(!!) komplett unkorreliert sind (Wert 1 auf der x-Achse), noch immer eine Gesamtkorrelation von fast 0.5 erzeugt.

4. Fazit

Korrelation ist eine Zufallsvariable. Ebenso wie es gute Praxis ist nicht nur den Mittelwert zu erwähnen, sondern die Standardabweichung und Fehlerbereiche ebenfalls, so wäre es gute Praxis nicht nur den Korrelationswert zu berichten, sondern weitere Informationen zu seiner Verteilung.

Korrelation ist nicht linear. Der Wertebereich zwischen -0.5 und 0.5 für den Korrelationskoeffizienten ist viel näher an Rauschen als an einem tatsächlichen Zusammenhang. Als Faustregel: Wenn man den Zusammenhang nicht sofort und mit freiem Auge sieht, dann ist es womöglich mehr Zufall als tatsächlicher Zusammenhang.

Korrelation ist subadditiv. Selbst ein großer Korrelationskoeffizient von beispielsweise
r=0.7 kann noch immer von Daten kommen, die zum einem Großteil überhaupt nicht
korreliert sind.

103 Gedanken zu “Korrelation in der realen Welt (Gastartikel PingPong)

  1. Nach meinem Verständnis bedeutet Korrelation einfach eine zeitliche oder räumliche Nähe oder Übereinstimmung zweier Phänomene. Die besteht natürlich nicht objektiv, sondern nur im Auge des Betrachters.

    Kausalität hingegen bezeichnet eine notwendige Beziehung zwischen zwei Phänomenen, eines ist die Ursache, das andere die Wirkung. Sie besteht zwar auch häufig in zeitlicher oder räumlicher Nähe, aber sie besteht objektiv, nicht nur im Auge des Betrachters. Das kann man durch Versuche (Wiederholung des Ereignisses) oder durch einen Nachweis des Wirkungsmechanismus, der die Kausalität hervorruft, beweisen. Wenn man z.B. Wasser in einem Topf mit Deckel erhitzt, fliegt irgendwann der Deckel weg. Die beiden Ereignisse stehen also in zeitlicher Korrelation, könnten aber auch reiner Zufall sein, vielleicht hat der Wind den Deckel bewegt. Da das Ereignis sich aber beliebig wiederholen lässt, kann man hier aber vom Bestehen einer Kausalität ausgehen.

    Also das Bestehen von Kausalität ist nicht immer offensichtlich, das von Korrelation schon. Wo Kausalität besteht, besteht i.d.R. auch eine erkennbare Korrelation, aber nicht umgekehrt. Das häufig verbundene Auftreten beider legt aber im Alltag das bestehen von Kausalität nahe, wo man eine Korrelation wahrnimmt, deshalb wird sie häufig vorschnell behauptet.

    Man sollte dann grundsätzlich auf einem experimentellen Nachweis bestehen, bzw. auf der Erklärung eines Wirkungsmechanismus.

    • Nach meinem Verständnis bedeutet Korrelation einfach eine zeitliche oder räumliche Nähe oder Übereinstimmung zweier Phänomene.

      Das kommt eben darauf an. Punkt 3 zeigt, wie eine Korrelation von 0.5 – was in vielen papers als „signifikant“, „bedeutsam“, „robuster Zusammenhang“ usw bezeichnet wird – aus einer Datenbasis entstehen kann, bei der 90% der Daten überhaupt nicht zusammenhängen.

      Die besteht natürlich nicht objektiv, sondern nur im Auge des Betrachters.

      Was meinst du damit? Korrelation ist ebenso objektiv oder nicht objektiv wie die Festellung, dass wenn man eine Funktion f(x)=2*x hat und man bewegt sich auf der x-Achse um eine Einheit, dann ändert sich der Wert auf der y-Achse doppelt so stark.

      Also das Bestehen von Kausalität ist nicht immer offensichtlich, das von Korrelation schon.

      Über den Zusammenhang zwischen Korrelation und Kausalität sollen sich Philosophen Gedanken machen.
      Hier geht es darum, wie man im Alltag mit dem Konzept der Korrelation umgeht. Ob eine Korrelation besteht ist wie du sagst offensichtlich: Man füttert die Daten in ein Statistikprogramm und lässt sich den Korrelationskoeffizienten ausrechnen. Wenn der Wert verschieden von 0 ist, besteht eine Korrelation. Das ist nicht das Problem. Die Frage ist wie so oft, was der Wert, den das Statistikprogramm ausspuckt, überhaupt bedeutet.

      Zu dieser Frage behandelt der Artikel ein paar m.E. wichtige Eigenschaften von Korrelation. Es könnte hilfreich dafür sein, wenn man das nächste mal etwas in der Art „der Korrelationskoeffizient nach Pearson beträgt r=0.35“ liest, und sich fragt was das eigentlich bedeutet. Oder wenn später in dem paper eine andere Korrelation mit dem Wert r=0.7 vorkommt, und man diese in Zusammenhang mit der Korrelation r=0.35 setzen will. Ist der Zusammenhang r=0.7 dann „doppelt so groß“? Siehe Artikel Punkt 2.

  2. Jetzt bin ich aber so verwirrt wie die Punkte da oben.
    Delegitimiert diese Sichtweise nicht die neuartigen modellierenden Wissenschaften, von denen immer stärker unser Schicksal geprägt wird?

    Wenn beispielsweise Korrelationen von Erkrankten und Gestorbenen zu irgendwelchen Tests berechnet werden, wir aber nachher beim Statistischen Bundesamt staunend sehen, dass offenbar die größte und tödlichste Pandemie des Jahrtausends in 2020 bei ganz dumpfer und naiver Zählung keine entsprechend schlimme Übersterblichkeit hervorgebracht hat – sind wir dann einfach nur Opfer einer solchen mathematischen Illusion geworden?
    Und kann man solche Illusionen auch gezielt herstellen und dann einfach mit dem öffentlichen Brennglas den Fokus darauf richten?

    Vielleicht erklärt das auch den angeblichen Einfluss von CO2 aufs Weltklima. Das hat sich früher mal einer in den Kopf gesetzt, dann wurde kräftig modelliert – und fertig war die bevorstehende Apokalypse.

    Die zentralen Parameter unserer hysterischen Epoche basieren doch schließlich auf Korrelationen.

    • Man kann in der Tat lustige Dinge mit Korrelationen anstellen, siehe z.B. hier: https://www.tylervigen.com/spurious-correlations . Aber der Unterschied zu deinen Beispielen ist, dass es schlüssige Modelle gibt, warum Grösse A einen Einfluss auf Grösse B haben muss. Im Fall von CO2 z.B. ist der Gehalt in der Atmosphäre ja auch keine Zufallsvariable, sondern eine definitive Grösse, die gemessen wird. An der Korrektheit der Messungen wird meines Wissens auch nicht gezweifelt. Nach dem besten verfügbaren physikalischen Wissen geht mit CO2-Erhöhung eine Temperaturerhöhung einher, und diese beobachtet man auch. Kann natürlich Zufall sein, aber solange keine Daten vorliegen, die das Modell falsifizieren, ist das eben unsere Hypothese. Genauso haben wir auch ein Modell, das die Schwerkraft erklärt, und in der Tat zeigt sich wieder und wieder, dass wir z.B. vom Fünfmeterbrett springen können und mit einer Geschwindigkeit im Wasser aufkommen, die die Gravitationstheorie vorhersagt. Auch hier könnte wissenschaftstheoretisch eigentlich etwas ganz anderes dahinterstecken, aber um das Modell zu widerlegen, müsste es eben durch eine Messung falsifiziert werden.

      • @Matthias Vogt

        „Nach dem besten verfügbaren physikalischen Wissen geht mit CO2-Erhöhung eine Temperaturerhöhung einher, und diese beobachtet man auch.“

        Das ist korrekt.

        „Genauso haben wir auch ein Modell, das die Schwerkraft erklärt, und in der Tat zeigt sich wieder und wieder, dass wir z.B. vom Fünfmeterbrett springen können und mit einer Geschwindigkeit im Wasser aufkommen, die die Gravitationstheorie vorhersagt.“

        Das ist eingeschränkt korrekt, infolge des Wortes „Genauso“.

        Es ist nicht richtig, durch das Wort „Genauso“ die Genauigkeit des Gesetzes der Schwerkraft mit der Ungenauigkeit der Vorhersagen für die Erderwärmung mittels des Gesetzes der Temperaturerhöhung durch CO2 zu vergleichen.
        Die Erderwärmung durch CO2 ist vernachlässigbar.
        Dein Hinweis „Aber der Unterschied zu deinen Beispielen ist, dass es schlüssige Modelle gibt“ gilt für die Schwerkraft, aber für Klimamodelle nicht. Es folgt also, dass @beweis zu Recht bemerkt, dass bei einigen Phänomenen nicht auf schlüssige Modelle oder eindeutige Gesetze verwiesen wird, sondern auf Korrelationen. Seine Annahme, dass immer Korrelationen, so schwach sie auch seien, verwendet werden, um Handlungsanweisungen zu generieren, ist insofern zu optimistisch, weil z.B. bei Corona auch bei inexistenter ( oder sogar gegenläufiger) Korrelation Handlungsanweisungen formuliert werden, so, als ob die Korrelation existierte. Auch werden im Zshg. mit Corona Handlungsanweisungen formuliert, die sich nur auf das Vorsichtsprinzip (eines zufälligen Standpunktes) beziehen (siehe hierzu @pingpong, der an einer Stelle darauf hinweist, dass die Sucht nach Daten, die Handlungsfähigkeit einschränken könnte, welche aber aus Vorsichtsgründen geboten sei, um Leben zu retten)

        • Man müsste die Physik schon erheblich vergewaltigen, um den Einfluss von CO2 auf die Temperatur der Atmosphäre zu negieren. Die Strahlungsbilanz ist realistischerweise nicht debattierbar, es sei denn, man erklärt sämtliche Erkenntnisse zur Wechselwirkung von Licht und Molekülen für falsch. Insofern ist es eben doch dasselbe Level wie mit der Gravitation. Wie man es dann am Ende wiederum hinbekommt, dass Corona auch noch eine Rolle spielen soll, ist mir dann wiederum rätselhaft, da bewundere ich eure Kreativität.

          • „Man müsste die Physik schon erheblich vergewaltigen, um den Einfluss von CO2 auf die Temperatur der Atmosphäre zu negieren“

            Niemand negiert das. Das ist einfach nicht der Konflikt. Strittige Themen sind:

            – ob eine „menschengemachte Klimakatastrophe“ drohe
            – ob es möglich sei die angebliche Katastrophe aufzuhalten
            – ob die enormen Kosten dieses angeblichen Katastrophen-Aufhalt-Versuchs angesichts seines ungewissen und vielleicht niedrigen oder gar nicht bestehenden „Nutzens“ zu rechtfertigen sind.
            – im Detail ob das was Ökos „Klimaschutz“ nennen zu rechtfertigen ist.
            – ob das was Ökos „Energiewende“ nennen (wie zB die ersatzlose Beseitigung von Kraftwerken, die Besteuerung von Benzin und Brennstoffen uam) zu rechtfertigen ist.

            Nichts davon folgt aus dem CO2-Gedöns, selbst wenn das als wahr angenommen wird. Alles das sind keine wissenschaftlichen, sondern politische Fragestellungen, die mit „Da guck doch CO2 blafasel“ nicht beantwortet sind. Das ist reine Ablenkrhetorik.

            „Wie man es dann am Ende wiederum hinbekommt, dass Corona auch noch eine Rolle spielen soll“

            Die politischen Werkzeuge der Alarmisten funktionieren bei beiden Scares ähnlich, die Protagonisten sind teilweise auch die gleichen Leute.

          • Es ist natürlich klar, dass hier über den Beitrag der Erhöhung von Co2 seit z.B. 100 Jahren zur Erderwärmung debattiert wird. Du sprichst vom Konzept der Strahlungsbilanz, was ein in diesem Zshg zu weiter Begriff ist. Ich hatte oben schon gesagt, dass Co2 zur Erderwärmung beiträgt. Corona spielt insofern eine Rolle, als auch dort ein ungenaues Argumentieren zu Schlüssen befähigt, die mindestens so kreativ sind, wie deine angenommene Kreativität, die nötig sei, um eine Vergleichbarkeit der wissenschaftlichen Behandlung im Mainstream der Covid-Epidemie und der Klimaerwärmung behaupten zu können. Tatsächlich benötigt es zu diesem Vergleich keine Kreativität, sondern interessenlose Beobachtung,

          • „Wie wäre es denn, wenn dieses Forum z.B. einen Selber-Mach-Klima-Donnerstag einführen würde? (meinetwegen auch ein anderer Tag)“

            Bin ich dafür. Oder anorak2 schreibt einen Gastartikel. Ich finde seine Argumentation großartig und hätte das gerne mal im Zusammenhang, so dass man auch in anderen Diskussionen darauf verweisen kann.

          • Danke für die Blumen. Ich könnte vielleicht einen Blogbeitrag schreiben, falls hinreichend Interesse besteht und Christian dazu bereit ist.

            Um daraus einen fairen Meinungsaustausch entstehen zu lassen, müsste der Gegenseite Gelegenheit gegeben werden, in gleicher Form und gleichem Umfang einen Gegenbeitrag zu schreiben.

          • Vielleicht könnte der Corona-Montag inhaltlich geöffnet werden zu einer montäglichen „Selbermach-Apokalypse“. Sonst ergreifen die Todesangst-Themen ja immer mehr Raum.
            Dort würden dann die ganzen „Das Ende ist nah“-Inhhalte reinpassen wie:

            „Putin will in Deutschland einmarschieren und uns alle bei Massakern umbringen. Ich kann ihn schon riechen.“
            oder
            „Mein Nachbar hat Husten. Warum wird er nicht abgeführt und isoliert und gespritzt? Der verseucht doch die ganze Welt.“
            oder
            „Wir werden alle im Sommer verdursten und vom wachsenden Meeresspiegel weggespült. Ganz bald. Wir sind schon die letzte Generation.“
            To be continued…

            Die Mechanismen sind doch immer die gleichen, warum solche Themen sämtlichst mit pseudoreligiösem Eifer und Aktionismus behandelt werden, anstatt sie zu ergründen, genauer zu untersuchen und zu hinterfragen. Sie ergebnisoffen und kontrovers zu diskutieren und zu tolerieren, dass es unterschiedliche Ansichten gibt.

            Dieses sich überlappende Agenda-Setting hysterisierter Themen kommt vielleicht nicht ganz zufällig zeitgleich über uns mit der totalen Übernahme der Deutungshoheit durch den Feminismus.
            Ich glaube, Sigmund Freud hat schon vor hundert Jahren zu so etwas geforscht.

      • Nehmen wir mal an, Methan sei der maßgebliche Klimabeeinflusser, CO2 eher weniger und dazu auch noch förderlich, den Planeten zu begrünen und so Ernährungssicherheit zu gewährleisten.
        https://www.spiegel.de/wissenschaft/mensch/klimakrise-wie-stark-methan-die-erderwaermung-antreibt-a-f7426169-02cd-4c7d-855b-820aa401ab5f

        Ist dann ein Anti-CO2-Aktionismus wirklich sinnvoll, wenn seine Notwendigkeit letztlich doch nur auf Korrelation und Modellierung beruht? Oder könnte er gar destruktiv sein?

        Die Aussage, die Hypothese gebe es nunmal, bis man sie falsifiziere, finde ich angesichts der Dimension des derzeitigen und künftigen Handelns nicht ausreichend. Vielmehr müsste sie wirklich verifiziert werden.

        Das Beispiel mit der Schwerkraft ist auch nicht vergleichbar, weil wir deren Existenz und Wirken ja nicht aktionistisch verändern wollen.

        • Ja, klar, nehmen wir mal dies an und auch noch das, dann wäre natürlich alles anders. Ist es aber nicht. Mit Korrelation hat es auch nichts zu tun, sondern mit Modellvorhersagen. Wenn der Wetterbericht (aufgrund seines atmosphärischen Modells) sagt, dass es morgen -10 Grad und Schneefall hat, planst du doch auch keinen Ausflug an den Baggersee? Es haben ja auch diverse Wissenschaftler versucht, alternative Modelle aufzustellen, aber am Ende des Tages hauen die eben alle nicht hin. Es ist ja auch ein Forschungsgebiet, dass sich bereits über 100 Jahre erstreckt, da finde ich es immer erstaunlich, wenn relative Newcomer meinen, sie hätten den gravierenden Logikfehler entdeckt, der alles über den Haufen wirft…

          • Es ist doch mitnichten ein entdeckter Logikfehler, wenn man die Dimension eines Phänomens und die Reaktion darauf hinterfragt.

            Wenn alle artig ihre Zweifel stoppen, weil sie Newcomer sind, ist es ungemütlich.
            Zumal @pingpong oben sehr gut dargelegt hat, wie zufällig die Validität der Aussagen sein kann, wenn man der Science followed.

            Wenn das hier ein Mathe-Blog wäre, würde ich natürlich von vornherein die Klappe halten.

          • Der Wetterbericht wird im allgemeinen nicht von politischen Scharlatanen manipuliert. Das Klimagelaber aber sehr wohl: Dessen Protagonisten sind alles politische Aktivisten, und viele von denen sind strohdoof, manche lügen offen. Das Phänomen hat eher was von einer fanatischen Religion. Deswegen ist es weise, davon großen Abstand zu halten, und es als politische Kraft zu delegitmieren. Wir lassen ja auch keine Scientologen in die Regierung, obwohl die ja auch behaupten sie hätten „Wissenschaft“. Wieso sollten wir mit Klimaspinnern anders umgehen?

          • @Mathias Vogt – Es haben ja auch diverse Wissenschaftler versucht, alternative Modelle aufzustellen, aber am Ende des Tages hauen die eben alle nicht hin.

            Gibt es denn irgendwelche Modelle, die hinhauen? Welche Modelle haben denn den bisherigen Verlauf hinreichend korrekt vorhergesagt, dass man sie mit ausreichender Sicherheit und Genauigkeit für die Vorhersage der mittelfristigen Zukunft verwenden könnte?

          • @Mathias Vogt
            „… da finde ich es immer erstaunlich, wenn relative Newcomer meinen, sie hätten den gravierenden Logikfehler entdeckt…“

            Ganz so abwegig finde ich das nicht. Denn könnte es nicht sein, dass die alten Hasen den Logikfehler einfach nicht erkennen WOLLEN, weil sie politisch motiviert sind? Siehe anorak2 im selben Strang.

    • Delegitimiert diese Sichtweise nicht die neuartigen modellierenden Wissenschaften, von denen immer stärker unser Schicksal geprägt wird?

      Der Artikel „delegitimiert“ nicht, er zeigt einige Eigenschaften von Korrelation auf, die dabei nützlich sein können, ordentliche genuine Wissenschaft von ideologiegetriebener Wissenschaft zu unterscheiden. Ja, leider kommt letztere immer wieder vor.

      Vielleicht erklärt das auch den angeblichen Einfluss von CO2 aufs Weltklima. Das hat sich früher mal einer in den Kopf gesetzt, dann wurde kräftig modelliert – und fertig war die bevorstehende Apokalypse.
      Die zentralen Parameter unserer hysterischen Epoche basieren doch schließlich auf Korrelationen.

      Nein.
      Tut mir Leid, Ich habe jetzt wirklich keine Lust auf diese Diskussion. Mathias Vogt hat dankenswerter Weise schon einige kluge Dinge geschrieben, die du bedenken könntest.

    • Die hysterischen Parameter unserer Epoche basieren nicht einmal auf Korrelation. Allzuoft basieren sie auf einem „Was nicht passt, wird passend gemacht“.

      Bei Corona war es die Inzidenz, die von der Anzahl Tests abhängig ist und dementsprechend Müll ist (außer man möchte die Testzahlen und damit die Inzidenz durch politische Testpflichten gezielt steuern und damit manipulieren).

      Beim Klimawandel sind es sogar nur noch Modelle, die durch den Raum getragen werden und dann nichtmal mehr mit echten Messwerten gegengeprüft werden. Dazu ist das hier meine Lieblingsgrafik:

      Hier gibts ein Paper dazu: https://www.drroyspencer.com/2019/12/cmip5-model-atmospheric-warming-1979-2018-some-comparisons-to-observations/

      Bei Corona und Klimawandel lasse ich auch das Argument der “ Vorsicht ist besser als Nachsicht“ nicht gelten: In so einem Fall hätte man dann wenigstens begleitend für eine ordentliche Datenlage gesorgt, um dann irgendwann gegenprüfen zu können. Hat man aber nicht.

  3. Ein schöner Text! Ein paar Kleinigkeiten würde ich kritisieren.

    1. Empirische Korrelationen (also die Schätzer aus endlich vielen Daten) sind nicht normalverteilt, höchstens näherungsweise. So kann eine empirische Korrelation niemals größer als 1 sein, aber bei einer Normalverteilung ist jeder Wert möglich. Die Näherung ist besser, wenn man die Korrelation Fisher-Z-transformiert (statt r nimmt man ln((1+r)/(1-r))/2 ).

    2. Ob eine Korrelation von 0.5 signifikant ist oder nicht, hängt natürlich von der Datenmenge ab. Bei einer Millionen unabhängigen Beobachtungen wären Korrelationen größer als ungefähr 0.002 durchaus signifikant.

    • „Die nächste Grafik zeigt den Verlauf der Gesamtkorrelation für verschiedene Aufteilungen in r=0 und r=1.“

      3. und in Anlehnung an Navido’s 1. trägt man solche Grafiken nicht linear sondern logarithmisch auf (d.h. die Achsenpunkte auf Y sind nicht 1,2,3 sondern 1, 10, 100, … also 10^0, 10^1, 10^2; gibt dafür Logarithmuspapier). Das hat die zwei Vorteile, dass sich a) der Unterschied von 0.4 zu 0.5 und 0.5 zu 0.6 relativiert und b) sich dann bei Korrelation auch eine Gerade stark abzeichnet.

      Interessanterweise hat Fisher – der maßgeblich die Fisher-Information und den p-value „verbrochen“ hat – damals angeblich das magische Limit von p<=0.05 als Signifikanzschranke postuliert, was für Mathematiker schon sehr ungewöhnlich ist. Und es auch nachträglich bedauert. Und da relativ wenig Menschen Statisitik wirklich verstehen, geschweige denn beherrschen, akzeptiert Nature nur noch Paper, die von ausgewiesenen Statistikern geprüft und für gut befunden wurden.

      • @benedikt:

        Ich denke eine logarithmische Darstellung schafft eher mehr Möglichkeiten für Missverständnisse als dass sie Klarheit schafft.

        Dass sich die ganze Sache nicht linear verhält ist ja gerade ein wesentlicher Punkt. Welchen Sinn hat es, wenn man das hinter einer logarithmischen Darstellung „versteckt“ sodass es erst wieder linear aussieht? Das ist ja gerade das Problem.
        Noch dazu wissen die meisten Menschen nicht (mehr) was der Logarithmus ist und wie er funktioniert, noch viel weniger wissen wie man einen logarithmischen Plot interpretiert.

        Zu den p-values könnte man mal einen eigenen Artikel machen, da wird auch ordentlich Schindluder getrieben, ja. Wobei man Fisher wohl etwas unrecht tut wenn man sagt er hat den p-value verbrochen.
        Das Verbrechen liegt eher in der unreflektierten Verwendung desselben, du hast das ja recht schön charakterisiert mit der „magischen Grenze“. Es ist eben wie bei der Korrelation: Wenn man sich nicht tiefergehend damit beschäftigt und nur daran interessiert ist dass das Statistikprogramm einen p-value von weniger als 0.05 ausspuckt, dann kann es sein dass man – unabsichtlich! – junk science produziert.

        Dagegen hilft nur ein solides und umfassendes Verständnis der mathematischen Grundlagen. Und das kommt eben vielerorts zu kurz. There is no royal road to mathematics.

    • „Ob eine Korrelation von 0.5 signifikant ist oder nicht, hängt natürlich von der Datenmenge ab. Bei einer Millionen unabhängigen Beobachtungen wären Korrelationen größer als ungefähr 0.002 durchaus signifikant.“

      Und bei 2 Datenpunkten ist auch r = 1,0 nichtssagend, kann zufällig sein.

      Man braucht also den r-Wert, die Standardabweichung und das Signifikanzniveau. Oder nicht?

    • 1. Empirische Korrelationen (also die Schätzer aus endlich vielen Daten) sind nicht normalverteilt, höchstens näherungsweise.

      Ja natürlich, approximativ.

      2. Ob eine Korrelation von 0.5 signifikant ist oder nicht, hängt natürlich von der Datenmenge ab. Bei einer Millionen unabhängigen Beobachtungen wären Korrelationen größer als ungefähr 0.002 durchaus signifikant.

      Hier sind eine Viertelmillion zufällige Punkte, einmal mit r=0 und einmal mit r=0.002. Welche Daten sind die ohne und welche die mit „durchaus signifikanter“ Korrelation?

      Wenn du eine halbe Million oder eine Million Punkte nimmst wird es auch nicht besser.

      • Ich kann den Daten nicht ansehen, welche Korrelation 0 und welche 0.002 haben. Der Wert von 0.002 ist aber trotzdem signikant. Das heißt ja auch nur, dass, wenn die wahre Korrelation 0 ist, es unwahrscheinlich ist, eine empirische Korrelation größer als 0.002 zu bekommen. (Ich bin mir nicht sicher, wo der Schwellwert genau liegt, aber das ist ja auch nicht so wichtig.) An deinem Beispiel kann man ganz gut sehen, dass Signifikanz völlig nichtssagend sein kann, auch wenn es statistisch korrekt ist. Es gibt auch Journals, die p-Werte gar nicht mehr akzetieren. Nicht, weil es falsch wäre, sondern weil es aus ihrer Sicht irrelevant ist. Effektstärke ist viel wichtiger. Ich selber würde p-Werte aber nicht ganz verachten.

        • Der Wert von 0.002 ist aber trotzdem signikant.

          Du meinst etwas verkürzt, ein Korrelationskoeffizient von 0.002 kann statistisch signifikant sein, d.h. hat einen entsprechend kleinen p-Wert, wenn man entsprechend viele Samples hat.

          Das ist etwas anderes als zu sagen ein Korrelationswert 0.002 ist bedeutend, erheblich, klar erkennbar. Ich verwende hier bewusst Synonyme für „signifikant“ um das Missverständnis zu verdeutlichen. Ein Korrelationswert 0.002 ist unbedeutend, unerheblich, von reinem Zufall nicht unterscheidbar.

          Der p-Wert sagt nichts über die Effektstärke aus.

          • Ja, das mein ich. Es kann statistisch signifikant sein, aber trotzdem unbedeutend. Das Wort „signifikant“ bedeutet in wissenschaftlichen Arbeiten etwas anderes als in der Alltagssprache.

        • Im Gegenteil. Die Signifikanz zeigt, dass eine Graphik nichtssagend sein kann. Es kann beispielsweise eine Krankheit geben, die super selten ist, aber stark mit dem Alter korreliert, d.h. wenn man die Krankheit hat, dann ist mit mit hoher Sicherheit sehr alt, aber wenn man sehr alt ist, ist man dennoch fast nie betroffen. Krankheit ist natürlich i.d.R. ein binäres Merkmal – man hat’s oder hat’s nicht, und das wäre graphisch mit wenigen Ausreißerpunkten auch gut sichtbar. Also denken wir an irgendwelche Laborwerte, was man im Blut findet, und das normalverteilt sei. Das könnte ja bei hohen Werten gefährlich sein und daher relevant.

  4. Danke für die kurze Reise durch statistische Gefilde. Insbesondere die möglichen Untiefen der Argumentation mit Korrelation fand ich interessant und auch sehr eingängig.

  5. Danke für den Artikel – sehr informativ.

    Zwei Fragen zur Subadditivität:
    „Subadditiv bedeutet… Wenn man die Daten aufteilt, und die Korrelationen für die Teildaten separat berechnet, dann ist die Gesamtkorrelation über alle Daten immer kleiner oder gleich wie die Summe der Teilkorrelationen.“

    1. Fehlt da irgendwo die Erwähnung des Betrages der Korrelation(en)? Immerhin können Korrelationen auch negativ sein.

    2. Folgende Veranschaulichung einer Datenreihe, ich hoffe, es gelingt mir, ein anschauliches Diagramm zu zaubern:

    XXXXXXXXXOOO
    XXXXXXOOOXXX
    XXXOOOXXXXXX
    OOOXXXXXXXXX

    Zwölf Datenpunkte, O steht für einen Datenpunkt, X für eine Lücke. In jeder einzelnen Zeile (=Teildaten) ist die Korrelation 0, aber über alle zwölf Datenpunkte ist offensichtlich eine Korrelation >0 vorhanden. Die Gesamtkorrelation ist also größer als die Summe der Teilkorrelationen.

    Wo liegt der Denkfehler?

    Eine Anmerkung zum Fazit:

    „Selbst ein großer Korrelationskoeffizient von beispielsweise r=0.7 kann noch immer von Daten kommen, die zum einem Großteil überhaupt nicht korreliert sind.“

    Das kann dann insbesondere in den Sozialwissenschaften Auswirkungen haben, denn es bedeutet, dass eine kleine Untergruppe an Menschen, die eine deutliche Korrelation mitbringen, in einer größeren Gruppe Korrelation erzeugen kann, selbst dann, wenn die restlichen = meisten Menschen gar keine Korrelation (bzw. eine von Null) mitbringen. Man denke an (nicht erkannte) Autisten.
    Oder… vielleicht erzeugt ja auch eine Untergruppe von beispielsweise Frauen (Männern, Ausländern,…), die besonders extrem sind, wie Feministinnen (Machos, Kriminellen,…) den Eindruck einer Korrelation für die gesamte Gruppe, worüber sich dann so mancher sein Lebtag lang aufregt… wäre bedenkenswert, n’est pas? 😉

    • 1. Fehlt da irgendwo die Erwähnung des Betrages der Korrelation(en)? Immerhin können Korrelationen auch negativ sein.

      Ja, stimmt. Es ist subadditiv in Absolutwerten.

      Das kann dann insbesondere in den Sozialwissenschaften Auswirkungen haben, denn es bedeutet, dass eine kleine Untergruppe an Menschen, die eine deutliche Korrelation mitbringen, in einer größeren Gruppe Korrelation erzeugen kann, selbst dann, wenn die restlichen = meisten Menschen gar keine Korrelation (bzw. eine von Null) mitbringen. Man denke an (nicht erkannte) Autisten.

      Völlig richtig.

      Das ist genau der Punkt mit der Subadditivität: Korrelation kann nicht verwendet werden für nicht-zufällige Untergruppen. Leider ist es durchaus nicht trivial festzustellen ob ein gewisses Sample, welches man untersucht, dieses Kriterium verletzt oder nicht.

          • …aber: Dann brauche ich zum ersten Diagramm bei 3. noch eine Erklärung. Du schreibst dazu:

            „Die Grafik zeigt Daten von 0 bis 10, wobei die erste Hälfte von 0 bis 5 perfekt korreliert (r=1), die zweite Hälfte hingegen überhaupt nicht (r=0).“

            Die zweite Hälfte ist eine waagerechte Strecke. Du sagst dazu, der Korrelationskoeffizient sei 0. Darauf aufbauend hatte ich mein Diagramm oben konstruiert wie eine Treppenfunktion: 4 waagerechte Abschnitte, fein säuberlich nebeneinander, müssten jeder für sich die Korrelation 0 haben – wenn stimmt, was Du geschrieben hast. Da die waagerechten Abschnitte aber so nebeneinander gelegt sind, dass sie eine aufsteigende Treppe ergeben, ist die Gesamtkorrelation nicht 0.

            Irgendwie habe ich den Verdacht, dass da was nicht stimmt. Wie ist der Korrelationskoeffizient für einen „waagerechten“ Datenzusammenhang? +1? -1? 0?

          • Die Korrelation von Punkten auf einer horizontalen Linie ist natürlich 0.

            Irgendwie habe ich den Verdacht, dass da was nicht stimmt.

            Wenn du die Daten aufteilst, dann soll die Summe aller Teildaten die Gesamtdaten ergeben. In deinem Beispiel ergibt die Summe der 4 horizontalen Teilabschnitte (mit Korrelation 0) nicht die Gesamtdaten. Du vergisst die „Sprungstellen“. Hier ist eine Grafik von deinem Beispiel:

            Zwischen x=2 und x=3 hast du eine Korrelation von 1 (ebenso bei den anderen Sprungstellen). In deinem Beispiel entspricht das vom ersten „O“ in der untersten Zeile zum ersten „O“ in der Zeile darüber.

            Du kannst es selbst ausrechnen, hier sind die Werte für dein Beispiel:
            x = [0,1,2,3,4,5,6,7,8,9,10,11]
            y = [0,0,0,1,1,1,2,2,2,3,3,3]
            Die Gesamtkorrelation über alle Daten ist ca 0.97

          • „Die Korrelation von Punkten auf einer horizontalen Linie ist natürlich 0.“

            Nein. Ich habe mir die Definition des Korrelationskoeffizienten noch einmal angeschaut. Für eine horizontale Linie ist der Korrelationskoeffizient nicht definiert, da man im Nenner aufgrund der fehlenden Varianz der y-Werte durch Null teilen müsste. (Für eine senkrechte Linie kann man aus dem gleichen Grund bezogen auf die Varianz der x-Werte übrigens auch keinen Korrelationskoeffizienten definieren.)

            Was Du vielleicht meinst, ist die Steigung einer horizontalen Linie. Die ist natürlich 0.

            „Wenn du die Daten aufteilst, dann soll die Summe aller Teildaten die Gesamtdaten ergeben.“

            Nein, und bitte entschuldige, dass ich jetzt mal mathematisch auf Exaktheit bestehe. Die Vereinigungsmenge der Teildaten ergibt die Gesamtmenge der Daten. Da wird nichts addiert.

            „Zwischen x=2 und x=3 hast du eine Korrelation von 1 (ebenso bei den anderen Sprungstellen)“

            Das ist, mit Verlaub, Blödsinn. Zwischen zwei Datenpunkten hat man natürlich immer eine(n) Korrelation(skoeffizienten) von 1 (oder -1) – außer, er ist nicht definiert, s.o. Das sagt deshalb nichts aus.

            Ich zitiere aus Deinem Artikel: „Wenn man die Daten aufteilt, und die Korrelationen für die Teildaten separat berechnet…“ Meine Teildaten sind viermal drei Datenpaare, Du hast das ja richtig in x- und y-Werte übersetzt, und für die jeweils drei Datenpaare ist zunächst mal kein Korrelationskoeffizient definiert. Wäre er 0, wie Du sagtest, wäre die Summe der vier einzelnen Koeffizienten immer noch 0, aber, ich zitiere Dich, „die Gesamtkorrelation über alle Daten ist ca 0.97“. Das widerspräche der Subadditivität.

            Dein Beispiel unter 3. in Deinem Artikel ist falsch gewählt. Würdest Du es zu retten versuchen, indem Du die Steigung der 6. bis 10. Datenpaare als minimal größer als 0 annimmst, erhieltest Du dort einen Korrelationenskoeffizienten von +1, nicht 0. Die beiden Teilkorrelation(skoeffizient)en wären also je +1, die Gesamtkorrelation 0,89.

            Ein richtiges Beispiel wäre, wenn Du die Grafik links oben aus 2. nimmst, und da noch weitere 1.000 Datenpunkte reinlegst, die auf einer schrägen Geraden liegen. Dann hätte die eine Hälfte der Daten einen Korrelationskoeffizienten von +1, die andere einen von 0. Wie ist denn dann der Korrelationskoeffizienten für alle 2.000 Datenpunkte zusammen? (Und ändert sich das in Abhängigkeit von der Gesamtzahl der Datenpunkte?)

          • Eine konstante Zufallsvariable (Punkte auf einer horizontale Linie) ist unabhängig von jeder anderen Zufallsvariablen. Unabhängig bedeutet es gibt keinen Zusammenhang. Kein Zusammenhang = keine Korrelation.
            https://en.wikipedia.org/wiki/Correlation#Correlation_and_independence

            Der Artikel heißt „Korrelation in der realen Welt“ und er behandelt Korrelation als Zusammenhang im praktischen und intuitiven Sinn. Das ist das, was in der Wirklichkeit relevant ist.
            Es gibt nicht nur den Pearson-Korrelationskoeffizient, dessen Formel du verlinkt hast.

          • Auch darüber habe ich bereits nachgedacht, @pingpong. Aber auch mit einem qualitativen Verständnis von Korrelation ist die Korrelation eines „waagerechten Datensatzes“ nicht 0, sondern 1, denn der Zusammenhang der Daten ist perfekt.

            Wenn Daten perfekt korrelieren, ist es möglich, den y-Wert zu jedem x-Wert vorherzusagen, wenn man nur zwei Datenpunkte kennt. Genau das ist der Fall bei einer waagerechten Geraden wie bei einer schrägen.

            _____

            Davon ab gilt: Wenn Du Recht hättest (hast Du nicht), hätte ich ein Gegenbeispiel für die Subadditivität von Korrelation gefunden. Womit Du an anderer Stelle Unrecht hättest. Ich glaube aber doch, wohl zusammen mit der allgemeinen mathematischen Lehrmeinung, dass Korrelation subadditiv ist. Nur das von Dir gewählte Beispiel zur Illustration der Konsequenzen ist verfehlt. Ich habe Dir gesagt, wie Du ein passendes erstellen könntest.

          • Denk noch einmal darüber nach und lass dich nicht von mathematischen Details verwirren.

            wikipedia:
            „Eine Korrelation (mittellat. correlatio für „Wechselbeziehung“) beschreibt eine Beziehung zwischen zwei oder mehreren Merkmalen, Zuständen oder Funktionen.“

            Merkmal1: Körpergröße eines Menschen
            Merkmal2: Schuhgröße desselben Menschen.
            Merkmal1 und Merkmal2 sind zufällig und abhängig voneinander? Je größer Merkmal1, desto größer Merkmal2? Dann gibt es eine Wechselbeziehung, die Merkmale hängen zusammen, sie korrelieren.

            Merkmal 3: Augenzahl eines fairen Würfels, verschieden große Menschen würfeln.
            Merkmal3 ist zufällig und unabhängig von Merkmal1? Dann gibt es keine Wechselbeziehung, die Merkmale hängen nicht zusammen, sie korrelieren nicht.

            Merkmal4: Augenzahl eines Würfels, der auf jeder Seite die gleiche Zahl zeigt, verschieden große Menschen würfeln.
            Merkmal4 ist immer gleich und unabhängig von Merkmal1? Dann gibt es keine Wechselbeziehung, die Merkmale hängen nicht zusammen, sie korrelieren nicht.
            Dass du den Wert von Merkmal4 vorhersagen kannst spielt keine Rolle.

          • Tja, dann ist Korrelation wohl doch nicht subadditiv. Bewirb Dich um die Fields-Medaille, ich trete Dir mein Copyright an dem Gegenbeispiel gerne ab 🙂

          • Was soll dieser unnötige Kommentar?

            Natürlich ist Korrelation subadditiv in Absolutwerten.

            Das Problem mit deinem „Gegenbeispiel“ habe ich oben bereits erwähnt. Du musst die Daten so aufteilen, dass alle Teildaten zusammen wieder die Gesamtdaten ergeben. Bei deiner Aufteilung bleiben Löcher.
            Eventuell verwirrt dich, dass du deine Funktion nur an diskreten Stellen definiert hast?

            „The world is continuous, but the mind is discrete“
            – David Mumford

          • Überflüssig ist nur Dein Beharren auf einem Standpunkt, der sämtlichen Lehrwerken über Statistik widerspricht, übrigens auch dem von Dir selbst verlinkten Wikipedia-Eintrag.

            „Das Problem mit deinem „Gegenbeispiel“ habe ich oben bereits erwähnt. Du musst die Daten so aufteilen, dass alle Teildaten zusammen wieder die Gesamtdaten ergeben. Bei deiner Aufteilung bleiben Löcher.“

            Nein. Meine Aufteilung, mit den von Dir ausgesuchten Zahlenwerten, sieht so aus:

            Datensatz 1: {(1|1),(2|1),(3|1)}
            Datensatz 1: {(4|2),(5|2),(6|2)}
            Datensatz 1: {(7|3),(8|3),(9|3)}
            Datensatz 1: {(10|4),(11|4),(12|4)}

            Gesamtdatensatz: {(1|1),(2|1),(3|1),(4|2),(5|2),(6|2),(7|3),(8|3),(9|3),(10|4),(11|4),(12|4)}

            Die Korrelation für den Gesamtdatensatz hast Du bereits durch Dein Statistikprogramm bestimmen lassen, sie ist demnach (ich habe nicht nachgerechnet) 0,97. Die Korrelation für die einzelnen Datensätze existiert nicht; wäre sie 0, wie von Dir behauptet, widerspräche das der Subadditivität, denn 0+0+0+0 < 0,97. Die vier einzelnen Datensätze ergeben zusammen den Gesamtdatensatz, da fehlt nichts.

            "Eventuell verwirrt dich, dass du deine Funktion nur an diskreten Stellen definiert hast?"

            Ich habe überhaupt keine Funktion definiert, sondern einen Datensatz beschrieben. Ich kann aber problemlos auch eine kontinuierliche Funktion aufstellen, Stichwort "Treppenfunktion" oder "Stufenfunktion", die keine Lücken im Definitionsbereich kennt und nur aus waagerechten Stücken besteht. Die "schrägen(!) Sprungstellen" mit Korrelation != 0 hast Du bzw. hat sich Dein Grafikprogramm ausgedacht. Die kommen in meinem Beispiel nicht vor.

            "The world is continuous"

            Aha, natura non facit saltus. Als Physiker kann ich Dir aber versichern, dass diese desöfteren nützliche Faustregel im Kern nicht stimmt. Die Natur macht haufenweise Sprünge. Deshalb gibt es nutzt man zur Beschreibung der Natur desöfteren diskrete Quantenzahlen.

          • einem Standpunkt, der sämtlichen Lehrwerken über Statistik widerspricht, übrigens auch dem von Dir selbst verlinkten Wikipedia-Eintrag.

            Du kämpfst gegen Windmühlen. Ich habe bereits mehrmals deutlich gesagt es gibt nicht nur den Pearson-Korrelationskoeffizient, sondern es geht um „Zusammenhang“ in einem generellen Sinn. Der Widerspruch löst sich auf, wenn man aufhört den Begriff Korrelation partout nur auf den Pearson-Koeffizienten beschränken zu wollen.

            Weiters habe ich ebenfalls bereits geschrieben, dass eine konstante ZV unabhängig von jeder anderen ZV ist. Unabhängig heißt nichts anderes als, naja, keine Abhängigkeit. Keine Abhängigkeit heißt kein Zusammenhang bzw. Korrelation = 0. Bitte zeige konkret, inwiefern das „sämtlichen Lehrwerken über Statistik widerspricht“.
            Dass man im Fall von konstanten ZV die Unabhängigkeit mit dem speziellen Korrelationsmaß nach Pearson nicht ausrechnen kann ist ein Problem von eben diesem speziellen Korrelationsmaß. Es ändert nichts daran dass nunmal keine Korrelation besteht.

            Nein.

            Doch.
            Dein gesamter Datenbereich ist das Intervall [0, 11].
            Deine Aufteilung ist in Teilintervalle [0, 2], [3, 5], usw.
            Wenn du die Teilbereiche zusammennimmst, ergeben sie nicht den gesamten Bereich. Es gibt Löcher z.b. [2, 3]

            In blau der Gesamtbereich, in rot deine Aufteilung.

            Die „schrägen(!) Sprungstellen“ mit Korrelation != 0 hast Du bzw. hat sich Dein Grafikprogramm ausgedacht. Die kommen in meinem Beispiel nicht vor.

            Was genau passiert denn in deinem Beispiel deiner Meinung nach zwischen x=2 und x=3?
            Was auch immer es ist, in einer Kenngröße (z.B.: Korrelation), die du über den gesamten Bereich ausrechnest, ist es enthalten. In deiner Aufteilung hingegen nicht.

            Du sagst:
            „Die vier einzelnen Datensätze ergeben zusammen den Gesamtdatensatz, da fehlt nichts.“
            und
            „Die Korrelation für die einzelnen Datensätze existiert nicht“

            Wenn die Teile zusammen das Gesamte sind und nichts fehlt, und die Korrelation für alle Einzelteile nicht existiert, dann existiert auch keine Korrelation für das Gesamte. Die Korrelation für das Gesamte kann man aber ausrechnen, probier es ruhig aus. Bei mindestens einer deiner obigen Aussagen stimmt etwas nicht, oder?

            Dein Beispiel unter 3. in Deinem Artikel ist falsch gewählt. Würdest Du es zu retten versuchen, indem Du die Steigung der 6. bis 10. Datenpaare

            Du gehst von falschen Annahmen aus. Mein Beispiel besteht nicht aus 10 Datenpaaren, sondern aus 1000 (und das auch nur der Bequemlichkeit halber, ich könnte auch 100.000 nehmen).
            Wenn du möchtest ist es ein Sampling des Bereichs [0, 10] mit 1000 samples. Eine genügend große Anzahl von samples ist wichtig, wenn man nicht – s. dein Beispiel – in alle möglichen Schwierigkeiten laufen möchte.

            Ich habe überhaupt keine Funktion definiert, sondern einen Datensatz beschrieben.

            Wir reden hier über Korrelation zwischen ZV. ZV SIND Funktionen.

          • „Weiters habe ich ebenfalls bereits geschrieben, dass eine konstante ZV unabhängig von jeder anderen ZV ist.“

            Einverstanden.

            „Unabhängig heißt… kein Zusammenhang…“

            Bis hierhin einverstanden.

            „…bzw. Korrelation = 0.“

            Und hier bin ich nicht mehr einverstanden. Du verwehrst Dich dagegen, den Pearson-( oder irgendeinen anderen) Korrelationskoeffizienten zu verwenden, bestehst aber auf dem Zuweisen eines Zahlenwertes. Damit kriegen wir aber den Widerspruch in Bezug auf die Subadditivität, den ich ich geschildert habe.

            Dein Einwand mit den „Löchern“ in meinem Datensatz ist bereits seit mehr als einer Antwort überholt. Nicht nur, weil die Vereinigungsmenge meiner Teilmengen den gesamten Datensatz ergibt – der besteht nunmal immer nur aus einzelnen Wertepaaren. Sondern, und jetzt spitz die Ohren, das hast Du bei Deiner letzten Antwort nämlich gepflegt ignoriert, um Dich ausschließlich (und wiederholt) an der gerade behandelten Frage abzuarbeiten:

            Ich hatte Dir schon eine Alternative genannt, die ohne die von Dir (unnötigerweise) beklagten Löcher auskommt: Eine Treppenfunktion:

            y = 1 für 1<=x<4
            y = 2 für 4<=x<7
            y = 3 für 7<=x<10
            y = 4 für 10<=x<13

            Extra für Dich, "lochfrei". Frag mal Dein Statistikprogramm, welchen Wert des von Dir sonst, wenn es Dir passt, verfemten Pearson-Korrelationskoeffizienten es diesen verknüpften Zufallsvariablen im Ganzen zuweist. Es würde mich ehrlich wundern, wenn es "0" ausgibt.

            "Weiters habe ich ebenfalls bereits geschrieben, dass eine konstante ZV unabhängig von jeder anderen ZV ist."

            Einverstanden.

            "Unabhängig heißt… kein Zusammenhang…"

            Bis hierhin einverstanden.

            "…bzw. Korrelation = 0."

            Und hier bin ich nicht mehr einverstanden. Du verwehrst Dich dagegen, den Pearson-( oder irgendeinen anderen) Korrelationskoeffizienten zu verwenden, bestehst aber auf dem Zuweisen eines Zahlenwertes. Damit kriegen wir aber den Widerspruch in Bezug auf die Subadditivität, den ich ich geschildert habe.

            Dein Einwand mit den "Löchern" in meinem Datensatz ist bereits seit mehr als einer Antwort überholt. Nicht nur, weil die Vereinigungsmenge meiner Teilmengen den gesamten Datensatz ergibt – der besteht nunmal immer nur aus einzelnen Wertepaaren. Sondern, und jetzt spitz die Ohren, das hast Du bei Deiner letzten Antwort nämlich gepflegt ignoriert, um Dich ausschließlich (und wiederholt) an der gerade behandelten Frage abzuarbeiten:

            Ich hatte Dir schon eine Alternative genannt, die ohne die von Dir (unnötigerweise) beklagten Löcher auskommt: Eine Treppenfunktion:

            y = 1 für 1<=x<4
            y = 2 für 4<=x<7
            y = 3 für 7<=x<10
            y = 4 für 10<=x<13

            Extra für Dich, "lochfrei". Frag mal Dein Statistikprogramm, welchen Wert des von Dir sonst, wenn es Dir passt, verfemten Pearson-Korrelationskoeffizienten es diesen verknüpften Zufallsvariablen im Ganzen zuweist. Es würde mich ehrlich wundern, wenn es "0" ausgibt.

            "ZV SIND Funktionen."

            Oder Zuordnungen.

          • P.S.:

            „Bitte zeige konkret, inwiefern das „sämtlichen Lehrwerken über Statistik widerspricht“.“

            Gegenbitte: Bitte zeige Du mir mindestens ein Statistiklehrwerk, dass bei „waagerechtem Datenzusammenhang“ (wir wissen beide, was gemeint ist) eine Korrelation von „0“ angibt.

          • „…bzw. Korrelation = 0.“

            Und hier bin ich nicht mehr einverstanden.

            Hab ich dir doch schon verlinkt:
            „If the variables are independent, Pearson’s correlation coefficient is 0“

            Oder hier:
            „A value of 0 implies that there is no linear dependency between the variables.“

            Eine Treppenfunktion
            Frag mal Dein Statistikprogramm

            Ich habe dir wirklich genug Hinweise gegeben wo das Problem liegt. Du scheinst nicht verstehen zu wollen, dass man kontinuierliche Prozesse IMMER diskretisieren muss, bevor man sie mit einem digitalen Computer numerisch verarbeiten kann.
            Die Frage ist also an dich: wie möchtest du deine kontinuierliche Treppenfunktion diskretisieren? Sobald du das beantwortet hast, sage ich dir gerne was mein Statistikprogramm ausspuckt.

            Gegenbitte: Bitte zeige Du mir mindestens ein Statistiklehrwerk, dass bei „waagerechtem Datenzusammenhang“ (wir wissen beide, was gemeint ist) eine Korrelation von „0“ angibt.

            In jedem Standardlehrbuch. Es ergibt sich daraus, dass eine konstante ZV unabhängig zu jeder anderen ZV ist.

            Hier in kurz:

            r(X,Y)=0 impliziert Cov(X,Y)=0
            Cov(X,Y) = E(XY)-E(X)E(Y)
            Daraus folgt: r(X,Y)=0 ist äquivalent zu E(XY) = E(X)E(Y)

            ZV sind unabhängig, wenn ihre gemeinsame Verteilung gleich dem Produkt der Randverteilungen ist
            p_{X,Y}(x,y) = p_X(x)p_Y(y)

            Proposition 1. Seien X,Y unabhängige ZV. Dann ist r(X,Y)=0

            Beweis. Der Erwartungswert des Produkts von X und Y ist
            E(XY) = \int \int xy p_{X,Y}(x,y)dxdy
            \ = \left( \int xp_X(x)dx \right) \left( \int y p_Y(y)dy\right)
            \ = E(X)E(Y)

          • „If the variables are independent, Pearson’s correlation coefficient is 0“

            Womit Du mir Recht gibst, ohne es zu merken. Pearson’s Korrelationskoeffizient (PK) ist gar nicht definiert, wenn der Datenzusammenhang rein waagerecht ist. Womit die Variablen auch nicht unabhängig voneinander sein könnten (beachte den Konjunktiv), denn dann hätte der PK den konkreten Wert 0.

            Das stimmt aber nicht, die Variablen sind unabhängig voneinander. Aber es macht in diesem Spezialfall nun einmal keinen Sinn, der Korrelation einen Zahlenwert zuzuweisen. (Insbesondere nicht 0.) Die Wikipedia ist hier einfach nicht genau.

            „Eine Treppenfunktion… Frag mal Dein Statistikprogramm…“ – „Du scheinst nicht verstehen zu wollen…“

            Na, na, na. Wir wollen doch bitte sachlich bleiben, ja?

            „…dass man kontinuierliche Prozesse IMMER diskretisieren muss, bevor man sie mit einem digitalen Computer numerisch verarbeiten kann. Die Frage ist also an dich: wie möchtest du deine kontinuierliche Treppenfunktion diskretisieren? Sobald du das beantwortet hast, sage ich dir gerne was mein Statistikprogramm ausspuckt.“

            Ob diskret oder kontinuierlich ist herzlich egal. Die Treppenfunktion hatte ich mit großem Herzen nur „extra für Dich“ entworfen. Zufallsvariable müssen überhaupt nicht kontinuierlich sein. Würfel- oder Münzwürfe werden mit diskreten Zufallsvariablen beschrieben. Deshalb ist Dein Einwand „Da sind Lücken im Datensatz“ auch verfehlt. Ich hatte stets offengelassen, was genau mein Gegenbeispiel beschreibt, weil mir von Anfang an klar war, dass das nicht von Belang ist. Du kannst Dir das ganze mit kontinuierlichen Zufallsvariablen vorstellen oder mit diskreten – dann z.B. ein Glücksspiel, dass in Runde 1 die Zahlen von 1 bis 12 auswirft und in Runde 2 die Zahlen von 1 bis 4. Die Zahlen in Runde 2 kommen in Abhängigkeit von denen in Runde 1, so dass Pärchen gebildet werden, wie wir sie weiter oben hatten. Es gibt dabei keine Löcher in der Verteilung, die unbekannten Inhalt enthielten. Da ist einfach NICHTS.

            Da DU das nicht akzeptieren wolltest, habe ich Dir eine Treppenfunktion entworfen. Wenn Du die Auswertung dieser Treppenfunktion in Deinem Statistikprogramm als mangelhaft ansiehst, dann werte sie doch einfach mit Deinem Verstand aus. Einmal jedes Intervall für sich, dann alle zusammen. Nach Deiner Argumentation hat jedes Einzelintervall den Korrelationswert 0. Oder nicht? Zusammen, als gesamtes Intervall, haben sie einen Korrelationswert von mehr als 0. Oder nicht? Und zusammen ergeben die Einzelintervalle das Gesamtintervall ohne Lücke. Oder nicht? Falls nicht – nenne eine einzige Stelle, die fehlt.

            Zusammengenommen widerspricht das der Subadditivität der Korrelation. Lösen lässt sich das Problem nur, indem man akzeptiert, dass es nicht einfach ein Problem eines wie auch immer definierten Korrelationskoeffizienten ist, für einen waagerechten Datenzusammenhang keine Aussage machen zu können, sondern dass es generell nicht sinnvoll ist, in diesem Fall über Korrelation eine Aussage zu machen.

            Deshalb ist auch Dein Beweis falsch. Die fehlerhafte Stelle ist hier, in fett:

            „r(X,Y)=0 impliziert Cov(X,Y)=0
            Cov(X,Y) = E(XY)-E(X)E(Y)
            Daraus folgt: r(X,Y)=0 ist äquivalent zu E(XY) = E(X)E(Y)“

            „impliziert“ bedeutet „=>“, „ist äquivalent“ bedeutet „“. Die Rückrichtung ist aber nicht gegeben, die fällt an der Stelle plötzlich vom Himmel.
            Weshalb der kleine Beweis für E(XY)=E(X)E(Y), falls ZV u.a. sind, auch nichts über die Korrelation aussagt.

            Hand aufs Herz: Hast Du das so (genau so) in einem Lehrwerk gefunden? In welchem? Oder selbst zusammengebastelt?

          • Bei “ „ist äquivalent“ bedeutet „“ “ hat WordPress zwischen den Anführungszeichen das Äquivalenzzeichen ⇔ verschluckt.

          • Aber es macht in diesem Spezialfall nun einmal keinen Sinn, der Korrelation einen Zahlenwert zuzuweisen. (Insbesondere nicht 0.)

            Korrelation ist ein statistisches Maß für den Zusammenhang zwischen ZV. Es gibt viele solcher Maße. Eines davon ist die Kovarianz. Unabhängige ZV haben Korrelation (Kovarianz als Maß) 0. Sie sind unkorreliert. Konstante ZV sind unabhängig zu jeder anderen ZV. Daher ist die Korrelation (Kovarianz als Maß) zwischen konstanter ZV und jeder anderen ZV 0.

            Dass Pearson im Fall von konstanten ZV nicht definiert ist tut dem keinen Abbruch.

            Deshalb ist auch Dein Beweis falsch. Die fehlerhafte Stelle ist hier, in fett:

            Danke für den Hinweis. Er ist nützlich, aber deine Folgerung ist voreilig.
            Ich habe mehrmals betont, dass es viele verschiedene Korrelationsmaße gibt. Ich sollte also wohl präzise sagen, welches Zusammenhangmaß ich mit r(X,Y) genau meine. Das habe ich nicht getan und das war nachlässig.
            Ich hole es hiermit nach: Nimm für das Zusammenhangmaß r die Kovarianz. In der ersten Zeile kannst du dann trivialerweise ein Äquivalenzzeichen verwenden.

            Wenn Du die Auswertung dieser Treppenfunktion in Deinem Statistikprogramm als mangelhaft ansiehst

            Das hat mit mangelhaft nichts zu tun. Du hattest gesagt ich solle ein Statistikprogramm nach der Korrelation von deiner kontinuierlichen Treppenfunktion fragen. Das geht nicht. Man kann mit einem Computerprogramm nicht kontinuierliche Funktionen „auswerten“. Die Frage ergibt keinen Sinn. Du musst zuerst diskretisieren.

            habe ich Dir eine Treppenfunktion entworfen.

            Selbe Frage wie zuvor: Was genau passiert an den Sprungstellen?
            Deine x Intervalle sind [1, 4), [4, 7) usw.
            Das erste Intervall hat kein Maximum (rechts halboffen). Das Supremum ist 4, das ist aber nicht Teil des Intervalls. Das Minimum des zweiten Intervalls ist 4. Was passiert dazwischen?
            Wikipedia meint zur Treppenfunktion die Funktionswerte an den Sprungstellen wären beliebig, nutzt aber offene statt halboffene Intervalle. Unstetige Funktionen sind kompliziert.

            Zusammen, als gesamtes Intervall, haben sie einen Korrelationswert von mehr als 0. Oder nicht?

            Ich weiß es nicht.
            Wenn du das für den kontinuierlichen Fall ordentlich machen willst ist es nicht so einfach, ich denke da müsstest du tief tief in die Maßtheorie hinein. Ich weiß nicht, was man bei unstetigen Funktionen alles beachten muss. Vielleicht kann man in diesem Fall gar keine gemeinsame Verteilung angeben. Vielleicht ist es „generell nicht sinnvoll, in diesem Fall über Korrelation eine Aussage zu machen.“

            Wenn du das kontinuierliche Beispiel diskretisierst, dann hängt der Korrelationswert davon ab wie du diskretisierst.

          • Wir nähern uns einander an 🙂

            Ich fange mal mittendrin an, und arbeite mich dann quer durch.

            „habe ich Dir eine Treppenfunktion entworfen.“ – “ Selbe Frage wie zuvor: Was genau passiert an den Sprungstellen?.. Das Supremum [des ersten Intervalls] ist 4, das ist aber nicht Teil des Intervalls. Das Minimum des zweiten Intervalls ist 4. Was passiert dazwischen?“

            Ich wiederhole: Es gibt kein „dazwischen“. Weil:

            „Wikipedia meint zur Treppenfunktion die Funktionswerte an den Sprungstellen wären beliebig, nutzt aber offene statt halboffene Intervalle.“

            Genau. Ich nutze halboffene Intervalle. Wenn die offizielle Definition einer Treppenfunktion so ist, wie die Wikipedia es sagt, dann habe ich halt keine Treppenfunktion entworfen, dafür aber auch kein Problem mit Sprungstellen, wo beliebige y-Werte angenommen werden können – denn das ist bei mir nicht so. Für jeden einzelnen x-Wert kann ich genau angeben, was der zugehörige y-Wert ist. Es gibt kein, ich nenne es mal, „Kontinuitäts-Problem“ an der Sprungstelle, weil uns nur die Zuordnung von y- zu x-Werten interessiert, und die ist bei mir immer vorhanden (und eindeutig). Das ist also nicht wie in der Differentialrechnung mit links- und rechtsseitigem Limes o.ä., wo man tatsächlich auf Probleme stößt.

            „Zusammen, als gesamtes Intervall, haben sie einen Korrelationswert von mehr als 0. Oder nicht?“ – „Ich weiß es nicht….“

            Du hast gesagt, Korrelation kann man (genug Korrelation vorausgesetzt) mit dem bloßen Auge erkennen. Ein Blick auf den Graphen lässt für mich ein seeehr hohes Maß an Korrelation erkennen.

            „…Wenn du das für den kontinuierlichen Fall ordentlich machen willst“

            Habe ich m.E., s.o. Ich könnte jetzt auch wieder auf mein diskontinuierliches Beispiel verweisen, aber es scheint mir an dieser Stelle besser zu sein, einmal von Zahlenwerten abzurücken und Deinen ja durchaus sinnvollen Ansatz aufzugreifen, Korrelation einfach nur als „Zusammenhang“ zu verstehen, für den man ein Zusammenhangmaß (einen Zahlenwert) erstellen kann – aber gar nicht muss.
            Deshalb ändere ich mein diskontinuierliches Glücksspielbeispiel folgendermaßen ab: Es gibt keine Zahlen mehr, sondern in Runde 1 Symbole, nämlich Tiere: Affe (A), Bär (B), Chamäleon (C), Dachs (D),…, Löwe (L). In Runde 2 kommen Farben dazu: Blau (b); Gelb (y), Grün (g), Rot (r). Das Glücksspiel spuckt nur folgende Ergebnisse aus:

            Ab, Bb, Cb
            Dy, Ey, Fy
            Dg, Hg, Ig,
            Jr, Kr, Lr

            Wie man sieht, sind die Farben in sehr hohem (höchstem?) Maß mit den Tiersymbolen korreliert.

            Subadditivität würde ich ohne Zahlenwerte folgendermaßen formulieren: Ein Menge korreliert höchstens so stark, wie ihre einzelnen Teilmengen zusammengenommen.

            Wenn man für die vier einzelnen Teilmengen nun behauptet, bei ihnen herrsche keine Korrelation, dürfte das für die Gesamtmenge auch nicht der Fall sein. Das ist aber offensichtlich nicht so. Für mich – anders als bisher für Dich – ist das ein Widerspruch, der sich nur auflösen lässt, wenn man
            a. die Subadditivität aufgibt
            b. den Anspruch aufgibt, dass es „sinnvoll ist, in diesem Fall über Korrelation eine Aussage zu machen“
            c. den vier Teilmengen von vorneherein eine Korrelation von 1 zuweist anstatt von 0 keine.

            a. scheidet aus, weil Korrelation subadditiv sein soll.
            b. und c. wären passable Wege, ich würde b. bevorzugen.*

            Wenn man nun ein Korrelationsmaß definiert – das ginge auch für das Glücksspiel mit den Symbolen, indem man eine Rangfolge der Symbole festlegt -, muss dieses so beschaffen sein, dass es das Kriterium der Subadditivität erfüllt.

            „Korrelation ist ein statistisches Maß für den Zusammenhang zwischen ZV. Es gibt viele solcher Maße. Eines davon ist die Kovarianz.“

            Korrekt. Aber Kovarianz ist nicht Korrelation, Korrelation ist standardisierte Kovarianz. Als solche hat sie eine zusätzliche Eigenschaft: Sie ist subadditiv. Das kann sie aber nur sein, weil sie in bestimmten Fällen keine Aussage mehr macht, wo die Kovarianz noch eine zulässt.

            Wie man es dreht und wendet: Einem „waagerechten Datenzusammenhang“ eine Korrelation von 0 zuzuweisen, beißt sich mit der Subadditivität. Deshalb gibt es auch kein Lehrbuch, in dem das gemacht wird – oder hast Du doch noch eines gefunden? -, wie ja auch in der Wikipedia (ich hatte es verlinkt) da eine Lücke in den Beispielen für Korrelationen klafft. Ich mache Dir deshalb nochmal den konstruktiv gemeinte Anregung, bei Deinem nächsten Artikel über Korrelation im Unterkapitel zur Subadditivität das erste und sechste Bild aus Abschnitt 2 zu kombinieren, um das Konzept zu verdeutlichen. Das sollte dann keine Nerds mehr auf den Plan rufen, die sich fragen, ob das alles so stimmig ist 😉

            * Ein weiterer Weg wäre:
            d. die Gesamtmenge hat, im Gegensatz zur Annahme eingangs, eine Korrelation von 0. Da bin ich mir derzeit ehrlich gesagt nicht 100% sicher, dass ich das ausschließen kann – vielleicht fällt Dir mehr dazu ein, Du hattest ja auch bei der Treppenfunktion (oder der Treppen-ähnlichen Funktion) Unsicherheit bezüglich des Gesamtzusammenhangs formuliert.

          • So hat es keinen Sinn.

            Hier sind ein paar Punkte die du bedenken kannst:

            In deinem Tierbeispiel sind die ZV abhängig. Wenn ZV X,Y unabhängig sind, dann haben sie Kovarianz 0, sie sind unkorreliert. Der Umkehrschluss gilt nicht. Daraus dass deine ZV abhängig sind folgt nicht, dass die Kovarianz ungleich 0 ist. Tatsächlich können abhängige ZV unkorreliert sein.

            Ein weiterer Weg wäre:
            d. die Gesamtmenge hat, im Gegensatz zur Annahme eingangs, eine Korrelation von 0. Da bin ich mir derzeit ehrlich gesagt nicht 100% sicher, dass ich das ausschließen kann

            Dann hast du es für deinen kontinuierlichen unstetigen Fall noch nicht ordentlich gemacht. Das war ja gerade mein Einwand. Vielleicht hast du irgendeinen degenerierten Fall wo es keinen Sinn macht über Gesamtkorrelation zu sprechen. Vielleicht ist sigma-Stetigkeit nicht gegeben, womit fraglich ist ob das ganze Beispiel überhaupt einen gültigen Wahrscheinlichkeitsraum, eine gültige Wahrscheinlichkeitsverteilung hat. Was weiß ich. Der Umgang nur mit konstanten ZV ist nicht so einfach.

            Mein Beispiel bei 3. hat keine solchen Unstetigkeitsstellen und es ist nicht kontinuierlich. Ich weiß nicht was dein Gegenbeispiel überhaupt soll. Das was du daraus zu schließen meinst ist nicht so.

            „Korrelation ist ein statistisches Maß für den Zusammenhang zwischen ZV. Es gibt viele solcher Maße. Eines davon ist die Kovarianz.“

            Korrekt. Aber Kovarianz ist nicht Korrelation, Korrelation ist standardisierte Kovarianz.

            Kovarianz ist ein Zusammenhangmaß, eine Korrelation.
            Standardisierte Kovarianz ist ein anderes Zusamenhangmaß, ebenfalls eine Korrelation.

          • „Ich weiß nicht was dein Gegenbeispiel überhaupt soll.“

            Zunächst mal Dich auf einen Fehler in Deinen Ausführungen hinweisen. So, wie ich auf den fehlenden Betrag hingewiesen habe. Darüberhinaus frage ich mich (bzw. Dich), wie die Zahlenwerte aus 3. aussähen, wenn Du meinen Vorschlag durchrechnen würdest. Ist es dann immer noch so krass, dass trotz 50% unkorreliert die Gesamtkorrelation fast perfekt (~0,9) ist?

            Davon ab halte ich abschließend fest, dass wir bisher kein Lehrbuch finden konnten, dass Deine Behauptung, waagerechte Daten bedeuten Korrelation 0, ebenso aufstellt. Wird wohl seinen Grund haben.

          • Zunächst mal Dich auf einen Fehler in Deinen Ausführungen hinweisen.

            Wie gesagt, das was du aus deinem Beispiel zu schließen meinst ist nicht so.

            So, wie ich auf den fehlenden Betrag hingewiesen habe.

            Dazu schrieb ich oben:
            „Ja, stimmt. Es ist subadditiv in Absolutwerten.“

            Darüberhinaus frage ich mich (bzw. Dich), wie die Zahlenwerte aus 3. aussähen, wenn Du meinen Vorschlag durchrechnen würdest.

            Dein Vorschlag ergibt keinen Sinn. Wenn du eine schräge Gerade mitten in die zufällige Punktwolke legst, dann hast du eine Situation konstruiert wo es zu einem x-Wert mehrere y-Werte geben kann.

            Davon ab halte ich abschließend fest, dass wir bisher kein Lehrbuch finden konnten, dass Deine Behauptung, waagerechte Daten bedeuten Korrelation 0, ebenso aufstellt. Wird wohl seinen Grund haben.

            Die Spiegelfechterei ist langweilig.

            Der Pearson-Korrelationskoeffizient für waagrechte Daten ist nicht definiert.

            Die Kovarianz für waagrechte Daten ist 0, rechne es ruhig aus. Kovarianz ist ein Zusammenhangmaß, eine Korrelation, es gibt wortwörtlich an wie sehr 2 Variablen miteinander „ko-variieren“ = sich gemeinsam ändern. Die Korrelation von waagrechten Daten ist 0. Dass man die Kovarianz in diesem speziellen Fall nicht normieren kann ändert daran überhaupt nichts.

            Du verhältst dich wie jemand, der darauf besteht dass die Norm des Vektors [2,1] unbedingt Wurzel aus 5 sein müsse. Nein, muss sie nicht. Es gibt viele andere Normen. Insbesondere ist die Norm des Vektors [0,0] gleich 0. Auch wenn man den Vektor nicht normieren kann.

            Ich habe nun wirklich oft genug geschrieben, dass der Begriff Korrelation nicht auf den Pearson Koeffizienten einzuschränken ist. Zukünftige Beiträge von dir, in denen du implizit oder explizit diese Einschränkung vornimmst, werde ich nicht mehr beantworten.

          • Darüberhinaus frage ich mich (bzw. Dich), wie die Zahlenwerte aus 3. aussähen, wenn Du meinen Vorschlag durchrechnen würdest.

            Was du machen kannst und was Sinn ergibt: für die zweite Hälfte der Daten eine Gleichverteilung nehmen. Dann ist per Definition Korrelation=0. Aber das sieht halt doof aus, weil man für die Gleichverteilung angeben muss in welchem Intervall. Links oben ist es gleichverteilt zwischen y=2 und y=8. Also macht man das Intervall der Gleichverteilung kleiner. Das Bild rechts unten ist mit dem Intervall [4.99, 5.01]. Der Pearson-Korrelationskoeffizient ab x=5 ist 0 (modulo Diskretisierungsungenauigkeit). Die Gesamtkorrelation steht jeweils über der Grafik.

          • Dankeschön! 🙂

            Noch eine Frage, wenn’s genehm ist: Warum sollte man die Verteilungen nicht übereinander legen können? Konkret die Gleichverteilung ebenfalls in den Bereich bzw. die Intervalle x=[0;5] und y=[0;5] legen? Das ist entspräche ja gerade dem soziologisch interessanten Fall, dass zwei Untergruppen, z.B. Menschen mit und ohne Autismus, in einer Gruppe zusammengefasst wären und man mithin fälschlich die Gesamtkorrelation auch für die komplett unkorrelierte Untergruppe annehmen könnte. (Ich hoffe, Du verstehst, was ich meine.)

          • „So, wie ich auf den fehlenden Betrag hingewiesen habe.“ –
            „Dazu schrieb ich oben:“

            Eben, das hatten wir geklärt. Wozu die Wiederholung?

            „Darüberhinaus frage ich mich (bzw. Dich), wie die Zahlenwerte aus 3. aussähen, wenn Du meinen Vorschlag durchrechnen würdest.“ – „Dein Vorschlag ergibt keinen Sinn. Wenn du eine schräge Gerade mitten in die zufällige Punktwolke legst, dann hast du eine Situation konstruiert wo es zu einem x-Wert mehrere y-Werte geben kann.“

            Na und? Wir reden hier über Datenzusammenhänge, nicht über Funktionen. (Könnte es sein, dass Du das hier ganz generell gedanklich schon mal durcheinander wirfst?) Zwei Menschen mit derselben Körpergröße können unterschiedliche Schuhgrößen haben. Die Realität ist manchmal so, und deshalb ergibt der Vorschlag sehr wohl Sinn.

            „Du verhältst dich wie jemand…“

            Nein. Ich bestehe nur darauf, dass mein Gegenbeispiel entkräftet wird. Dazu siehst Du Dich laut eigenem Bekunden aber nicht in der Lage. Dein Verweis auf die Kovarianz ist deshalb bedeutungslos, denn wenn mein Gegenbeispiel hält, fehlt der Kovarianz die Eigenschaft der Subadditivität.

            „Es ist nicht [genehm]“

            Schade.

          • Dein Vorschlag ergibt im kontinuierlichen keinen Sinn.

            Und im diskreten ist es offensichtlich: Wenn du zu Daten unkorrelierten noise hinzufügst, dann wird die Gesamtkorrelation kleiner. Was denn auch sonst?

          • Wenn man es so formuliert, stellt sich die Frage, was an der Subadditivität so überraschend sein soll, dass es Dir überhaupt eine Erwähnung wert war 😉

          • Ich lass es dich mal mit deinen eigenen Worten erklären:

            „Das kann dann insbesondere in den Sozialwissenschaften Auswirkungen haben, denn es bedeutet, dass eine kleine Untergruppe an Menschen, die eine deutliche Korrelation mitbringen, in einer größeren Gruppe Korrelation erzeugen kann, selbst dann, wenn die restlichen = meisten Menschen gar keine Korrelation (bzw. eine von Null) mitbringen. Man denke an (nicht erkannte) Autisten.
            Oder… vielleicht erzeugt ja auch eine Untergruppe von beispielsweise Frauen (Männern, Ausländern,…), die besonders extrem sind, wie Feministinnen (Machos, Kriminellen,…) den Eindruck einer Korrelation für die gesamte Gruppe, worüber sich dann so mancher sein Lebtag lang aufregt… wäre bedenkenswert, n’est pas? „

            Jetzt klarer?

          • Siehste, @pingpong? So formuliert, hat das Ganze schon einen Erkenntniswert. Nur halt nicht, wenn man schreibt:

            „Wenn du zu Daten unkorrelierten noise hinzufügst, dann wird die Gesamtkorrelation kleiner. Was denn auch sonst?“

            Aber das stammt von Dir, nicht von mir.
            ¯_(ツ)_/¯

          • Und diese Erkenntnis hast du offenbar aus meinem Beispiel gewonnen.
            Das was ich schrieb ist dein Vorschlag.
            ¯_(ツ)_/¯

          • Nö. Das, was Du schriebst, enthält einen dicken mathematischen Fehler. Ich bemühe mich, so etwas nicht vorzuschlagen.

            Davon ab, ist mein Vorschlag realistischer sinniger. Die verschiedenen Submengen sind in Deinem Beispiel so angeordnet, dass man sie mühelos mit bloßem Auge unterscheiden kann. Da verbirgt sich nichts, im Gegenteil, die Trennung der Submengen zwängt sich geradezu auf.

          • Davon ab, ist mein Vorschlag sinniger.

            Tut mir Leid, dein Vorschlag ergibt keinen Sinn. Eine Gerade ist eine Teilmenge des R2, hat aber Dimension 1 (eins). Datenpunkte die auf einer Geraden liegen haben per Definition Korrelation 1. Das ist uninteressant. Du musst den Raum in Teilmengen gleicher Dimension (zwei) aufteilen. Dein Vorschlag ist (ähnlich wie dein anderes „Gegenbeispiel“) degeneriert.

            Ich habe dir oben mit der Gleichverteilung eine sinnvolle Alternative gezeigt. Das Ergebnis ist dasselbe wie in meinem ursprünglichen Beispiel, du brauchst nur das Intervall für die Gleichverteilung beliebig klein machen.

            Die verschiedenen Submengen sind in Deinem Beispiel so angeordnet, dass man sie mühelos mit bloßem Auge unterscheiden kann.

            Ja, das erleichtert das Verständnis. Du hattest ja auch keine Probleme zu erfassen worum es geht, hat also offenbar funktioniert.
            Leider scheint dich seither der Wille zum Verständnis verlassen zu haben.

          • „Tut mir Leid, dein Vorschlag ergibt keinen Sinn. Eine Gerade ist eine Teilmenge des R2, hat aber Dimension 1 (eins). Datenpunkte die auf einer Geraden liegen haben per Definition Korrelation 1. Das ist uninteressant. Du musst den Raum in Teilmengen gleicher Dimension (zwei) aufteilen.“

            Dein eigenes Beispiel besteht aus zwei Geraden. Alle Deine Argumente kannst Du ebenso gut gegen Dein eigenes Beispiel verwenden. Und wenn ich Dich wörtlich nehme, hat eine waagerechte Gerade nun also doch nicht Korrelation 0 – aber ich schätze, diese Aussage war ebenso undurchdacht wie der Rest.

            „Ich habe dir oben mit der Gleichverteilung eine sinnvolle Alternative gezeigt. Das Ergebnis ist dasselbe wie in meinem ursprünglichen Beispiel, du brauchst nur das Intervall für die Gleichverteilung beliebig klein machen.“

            Welcher reale Datensatz sieht so aus? Keiner? Bei welchem derartigen käme man nicht auf die Idee, dass er sich aus zwei Teilmengen zusammensetzt? Garantiert keinem. Sich (praktisch vollständig) überlappende Datensätze, von denen einer korreliert (nicht notwendigerweise vollständig), der andere nicht – das ist plausibel und geeignet, die die zugrundeliegende Problematik zu illustrieren.

            „Die verschiedenen Submengen sind in Deinem Beispiel so angeordnet, dass man sie mühelos mit bloßem Auge unterscheiden kann.“ – „Ja, das erleichtert das Verständnis. Du hattest ja auch keine Probleme zu erfassen worum es geht, hat also offenbar funktioniert.“

            Man nennt es didaktische Reduktion, wenn man Schülern Falsches (oder komplett Unrealistisches) erzählt, um ihnen den Zugang zu erleichtern. Damit sollte man aber vorsichtig sein und es vermeiden, wo es unnötig ist. Nur einer der Gründe: Es drohen ellenlange Diskussionen, wenn es den Schülern auffällt. Beleg: Dieser Strang.

            In unserem Fall würde die Kombination zweier bereits vorher gezeigter Datensätze (ich hatte zwei Kandidaten benannt) ein realistischeres Beispiel abgeben. Um die Kombination optisch zu illustrieren (wenn man das denn für nötig hält – Du schreibst immerhin für (gebildete) Erwachsene), kann man mit zwei Farben arbeiten.

            „Leider scheint dich seither der Wille zum Verständnis verlassen zu haben.“

            Nö, nur Dich der Wille zu sachlicher Diskussion. Verstockheit vorzuwerfen ist einer Deiner Klassiker, wenn Du nicht überzeugen kannst.

          • „In unserem Fall würde die Kombination zweier bereits vorher gezeigter Datensätze (ich hatte zwei Kandidaten benannt) ein realistischeres Beispiel abgeben.“

            Ergänze: ein realistischeres und grantiert nicht mathematisch strittiges Beispiel

          • Tut mir Leid renton, es scheint dir sowohl an einigen mathematischen Grundlagen als auch an Willen zum Verständnis zu fehlen.
            Jeweils eines davon wäre noch tragbar, aber die Kombination ist eine für jede Diskussion tödliche Mixtur.

            Dein eigenes Beispiel besteht aus zwei Geraden. Alle Deine Argumente kannst Du ebenso gut gegen Dein eigenes Beispiel verwenden.

            Es geht nicht um die Daten, sondern um die Aufteilung. Die Daten sind bei mir 2 Geraden, ja. Die Aufteilung ist bei x=5 entlang einer vertikalen Geraden in 2 Halbebenen.
            Dein Vorschlag will eine Aufteilung in:
            * alle Datenpunkte die auf einer Geraden(!) liegen
            * alle Datenpunkte die im Rest des R2 liegen
            Punkte auf einer Geraden haben per Definition Korrelation 1. Die Daten spielen da gar keine Rolle mehr. Es ist degeneriert. Es ergibt keinen Sinn.
            Ich habe es bereits geschrieben: Du musst den Raum in Teilmengen gleicher Dimension aufteilen. So wie das in meinem Beispiel der Fall ist.

            Auf den Rest des Beitrages spare ich mir einzugehen. Er enthält sehr wenig sachlich verwertbares.

          • ps:
            Ergänze ein „schräg“ vor Gerade. Ergibt sich zwar aus dem Kontext ziemlich eindeutig was gemeint ist, aber nicht dass du mir wieder anfängst Haare zu spalten „Er hat gesagt die Korrelation einer horizontalen Geraden ist 1!!!!“ 😉

          • „Tut mir Leid renton, es scheint dir sowohl an einigen mathematischen Grundlagen als auch an Willen zum Verständnis zu fehlen.“

            Süß, wie Du noch einen draufsetzt ❤

            "Es geht nicht um die Daten, sondern um die Aufteilung. Die Daten sind bei mir 2 Geraden, ja. Die Aufteilung ist bei x=5 entlang einer vertikalen Geraden in 2 Halbebenen."

            1. Das ändert genau was an der "Degeneration" (Deine Wortwahl) Deiner Geraden? Dass sie in zwei Halbebenen degeneriert sind?
            2. Und, wann hat solche Daten in der Realität?

            "Dein Vorschlag will eine Aufteilung in:
            * alle Datenpunkte die auf einer Geraden(!) liegen
            * alle Datenpunkte die im Rest des R2 liegen
            Punkte auf einer Geraden haben per Definition Korrelation 1. Die Daten spielen da gar keine Rolle mehr. Es ist degeneriert. Es ergibt keinen Sinn."

            1. Du tätest gut daran, auch Einschübe in Klammern zu lesen. Ich zitiere mich selbst: "Sich (praktisch vollständig) überlappende Datensätze, von denen einer korreliert (nicht notwendigerweise vollständig)…“
            Kann man mit Korrelation 1 machen – wie DU -, kann man mit weniger Korrelation machen.
            2. Mein Beispiel ergibt deutlich mehr Sinn als Deines. Wenn für 50% aller Personen Intelligenz und, sagen wir, mh… Hirnrissigkeit (gemessen auf einer Punkteskala, die das Verständnis von Aussagen in Klammern bewertet) unkorreliert sind, aber für 50% der Personen, die nämlich klammerblind sind, eine hohe bis vielleicht sogar perfekte Korrelation aufweisen, ergibt sich nämlich genau mein Beispiel.*

            „Auf den Rest des Beitrages spare ich mir einzugehen.“

            Ist auch nicht Dein Fachgebiet. Meins schon.

            „Er enthält sehr wenig sachlich verwertbares.“

            Spricht der, dessen Fachgebiet es nicht ist.

            „nicht dass du mir wieder anfängst Haare zu spalten“

            Keine Sorge! Ich nahm ja zu Deinen Gunsten an, dass Du einfach nur nicht zu Ende gedacht hattest hast 😉

            *Ich könnte mir natürlich auch weniger phantasievolle Beispiele ausdenken, z.B. Werkstücke, die von außen nicht sichtbar aus unterschiedlichem Material bestehen, und die bei Belastungstesten deshalb deutlich unterschiedliches Verhalten zeigen, oder Unterschiede zwischen Psychopathen und normalen Menschen – aber hey, Spaß muss sein, gell?

          • *grins*

            Ich glaube, ich verstehe inzwischen, wieso Du diese bekloppte Konstruktion mit den zwei Geraden wählst. Doch, ja, dafür gibt es ein Vorbild, das wir hier hatten. Nur waren sich da alle fix einig, dass es aus zwei separaten Hälften besteht… weshalb es nicht spannend ist.

            Spannender ist es, wenn die Datensätze durchmischen. Dazu sagtest Du: „Wenn du zu Daten unkorrelierten noise hinzufügst, dann wird die Gesamtkorrelation kleiner.“ Du verkennst dabei, dass das nicht das ist, was beobachtet wird. Beobachtet wird das Ergebnis, nicht das Zustandekommen. Bei der Beobachtung hat man den bereits durchmischten Datensatz vorliegen, der den Eindruck einer Gesamtkorrelation erzeugt, die aber nur für eine Teilmenge gilt. Das zu durchschauen, ist wesentlich schwieriger, weil die Erkenntnis nicht mit dem bloßen Auge gewonnen werden kann.

          • überlappende Datensätze, von denen einer korreliert (nicht notwendigerweise vollständig)

            Wenn du den R2 aufteilst in eine längliche Ellipse (wie in der Grafik bei 2. mit r=0.9) und den Rest, dann alle Punkte betrachtest die innerhalb dieser Ellipse liegen, dann findest du – wenig überraschend – dass die Korrelation 0.9 ist. Unabhängig davon wie die Daten sind. Sondern einfach deshalb, weil du nur Punkte betrachtest die per Konstruktion korreliert sind.

            Bei der Beobachtung hat man den bereits durchmischten Datensatz vorliegen, der den Eindruck einer Gesamtkorrelation erzeugt, die aber nur für eine Teilmenge gilt.

            Vielleicht hast du doch nicht verstanden was der Punkt ist.

            Ein „großer“ Korrelationswert zwischen zwei Merkmalen kann irreführend sein, weil es vorkommen kann dass die Korrelation auf einen bestimmten Merkmalsbereich beschränkt ist.
            Wenn ein Merkmal eine range von 70-150 hat (zB IQ), dann kann es sein dass dieses Merkmal im Bereich 70-95 stark mit einem anderen Merkmal (zB Einkommen) korreliert, im Bereich 95-150 aber nicht (bzw sehr wenig). Abhängig von der tatsächlichen Verteilung, Sampling usw kann trotzdem ein „relevanter“ Korrelationswert von zB 0.6 herauskommen, obwohl über den (großen) Merkmalsbereich von 95-150 keine (bzw sehr wenig) Korrelation vorliegt. Nur aus dem Korrelationswert ist das nicht ersichtlich. Insbesondere ist der Schluss „Korrelation 0.6: je höher IQ, desto höher Einkommen, und zwar relativ stark“ offenbar nicht richtig.

            Man sollte die Daten zu einem bestimmten Korrelationswert visualisieren, um eine vernünftige Beurteilung treffen zu können.

          • „Dazu schrieb ich oben:“

            Eben, das hatten wir geklärt. Wozu die Wiederholung?

            Wenn es sich um einen Fehler handelt, reagiere ich entsprechend (meistens ist das recht unkompliziert).
            Wenn behauptet wird es gäbe Fehler, obwohl da keiner ist, reagiere ich auch entsprechend.

            Zusammenfassend also:

            Du hast auf einen Fehler hingewiesen. Kein Ding, die Sache war in einem Beitrag erledigt.

            Dann hast du hast ein degeneriertes „Gegenbeispiel“ erfunden.
            Du hast einen Alternativvorschlag gemacht der keinen Sinn ergibt.

            Ich lege dir in diesem Zusammenhang deine eigene Aussage von ganz weit oben nahe:
            Sehr gut. Diese Aussage von Dir hat mir geholfen, den Denkfehler zu finden. Er lag bei mir

          • „Wenn du den R2 aufteilst in eine längliche Ellipse (wie in der Grafik bei 2. mit r=0.9) und den Rest…“

            So teile ich die Daten aber nicht auf. Verabschiede Dich von dem Gedanken, den R2 in Gebiete einteilen zu wollen, dann verstehst Du es vielleicht. Denk Dir zwei Folien: Eine Folie mit dem 0.9-Bild von 2. und eine mit dem 0.0-Bild von 2. Die legst Du übereinander.

            „Vielleicht hast du doch nicht verstanden was der Punkt ist.
            Ein „großer“ Korrelationswert zwischen zwei Merkmalen kann irreführend sein, weil es vorkommen kann dass die Korrelation auf einen bestimmten Merkmalsbereich beschränkt ist…“

            Doch, das es Dir _nur_ genau darum geht, habe ich inzwischen verstanden. Deshalb hatte ich selbst(!) das Beispiel Einkommen vs. Intelligenz wieder in Erinnerung gerufen. Der Witz ist, dass über das, was Du schreibst:
            „Insbesondere ist der Schluss „Korrelation 0.6: je höher IQ, desto höher Einkommen, und zwar relativ stark“ offenbar nicht richtig. Man sollte die Daten zu einem bestimmten Korrelationswert visualisieren, um eine vernünftige Beurteilung treffen zu können“
            bereits damals Einigkeit erzielt wurde. Nach kurzer Debatte hieß es „Einkommen und IQ korrelieren stark für IQ<90". Weil die Visualisierung der Daten es offensichtlich macht.

            „Dann hast du hast ein degeneriertes „Gegenbeispiel“ erfunden.
            Du hast einen Alternativvorschlag gemacht der keinen Sinn ergibt.“

            Du nennst den Vorschlag degeneriert, streitest jeden Sinn ab, hast ihn aber bisher noch nicht verstanden. In meinem meinem Vorschlag sind die zwei Datensätze mit unterschiedlicher Korrelation _nicht_ einfach mit bloßem Auge erkennbar, weil sie im selben Merkmalsbereich liegen. Das aufzudröseln und die Untergruppen zu identifizieren, erfordert weitergehende Untersuchungen. Die Gesetze der Subadditivität der Korrelation gelten aber auch hier.

            „…den Denkfehler zu finden. Er lag bei mir“

            Das dachte ich, weil ich einen Moment auf Deinen Irrtum selbst hereingefallen bin. Es gilt aber: Waagerechter Verlauf = keine Korrelationsangabe möglich. Dabei bleibe ich, bis Du mir mindestens ein Lehrbuch zeigst, dass das anders darstellt. Ich habe nämlich schlüssig gezeigt, wie man sonst die Subadditivität der Korrelation widerlegen kann. Sollte darin ein hochkomplexer Fehler vorhanden sein – fehlende Sigma-Stetigkeit o.ä. – darfst Du das gerne nachweisen. Aber bitte nicht wieder mit mathematischen Anfängerfehlern wie dem Verwechseln von Äquivalenz und Implikation oder dem Außerachtlassen von Beträgen. Deine Selbstüberschätzung als Mathematiker nervt.

          • Der Witz ist, dass über das, was Du schreibst […] bereits damals Einigkeit erzielt wurde. Nach kurzer Debatte hieß es „Einkommen und IQ korrelieren stark für IQ kleiner 90″. Weil die Visualisierung der Daten es offensichtlich macht.

            Schön zu hören.
            Vielleicht kannst du es Hugor erklären? Der ist der lt. seinem letzten Kommentar der Auffassung, dass „das relative Armutsrisiko korreliert auch in höheren Bereichen erheblich[sic] mit dem IQ“.
            Das ist genau der Fehler: der globale Korrelationswert wird in seiner Bedeutung überschätzt, weil die Korrelation auf einen kleineren Merkmalsbereich beschränkt ist.

            In meinem meinem Vorschlag sind die zwei Datensätze mit unterschiedlicher Korrelation _nicht_ einfach mit bloßem Auge erkennbar, weil sie im selben Merkmalsbereich liegen. Das aufzudröseln und die Untergruppen zu identifizieren, erfordert weitergehende Untersuchungen.

            Hat mit dem Thema hier wenig zu tun. Ist ein anderes Problem: Rauschunterdrückung, denoising u.ä.

            Ich habe nämlich schlüssig gezeigt, wie man sonst die Subadditivität der Korrelation widerlegen kann.

            Nein. Dein „Gegenbeispiel“ ist im kontinuierlichen degeneriert. Im diskreten ist es vermutlich ein Sampling-Problem, genau ist das schwer zu sagen weil du auf entsprechende Fragen nicht reagierst. Widerlegt hast du damit nichts.

          • Das mit @Hugor klär mal schön selbst.

            Interessanterweise ist bei Dir aus „Vielleicht hast du irgendeinen degenerierten Fall“ geworden „Dein „Gegenbeispiel“ ist im kontinuierlichen degeneriert“ – ohne dass Du je angegeben hättest, was Du damit überhaupt meinst und was deshalb das Problem sein soll. Methode pingpong.

            „Ist ein anderes Problem: Rauschunterdrückung, denoising u.ä.“

            Ja.

            „Hat mit dem Thema hier wenig zu tun.“

            Nein. Ist ein Beispiel für Subadditivität von Korrelation.

            „weil du auf entsprechende Fragen nicht reagierst“

            Welche?

          • „Widerlegt hast du damit nichts.“

            Ich empfehle Dir, nochmal Beweisverfahren durch Widerspruch zu wiederholen.

          • Das war wohl etwas zu subtil. Was oder was nicht du mit Hugor klärst ist mir ziemlich egal.
            Der Punkt ist, deine Aussage „über das, was Du schreibst [wurde] bereits damals Einigkeit erzielt. Nach kurzer Debatte hieß es „Einkommen und IQ korrelieren stark für IQ kleiner 90″ steht offenbar in Widerspruch zu dem Zitat aus der damaligen Diskussion.

            „Hat mit dem Thema hier wenig zu tun.“

            Nein. Ist ein Beispiel für Subadditivität von Korrelation.

            Das Thema lautet aber nicht „finde ein Beispiel für Subadditivität von Korrelation“. Sondern „welche unerwarteten Effekte kann Subadditivität von Korrelation haben?“

            Ich empfehle Dir, nochmal Beweisverfahren durch Widerspruch zu wiederholen.

            Einen Widerspruch zu behaupten macht keinen Beweis.

            „Probability theory is full of “paradoxes” in which different calculation methods seem to give different answers to the same question. Invariably though, these apparent inconsistencies turn out to reflect poorly specified or ambiguous probabilistic models.“
            Bertsekas & Tsitsiklis, „Introduction To Probability“, Athena Scientific, 2008

            Ich habe dir hier eine Alternative gezeigt, bei der der Pearson-Korrelationskoeffizient überall definiert ist. Läuft auf dasselbe raus wie das ursprüngliche Beispiel.

          • Da war nichts zu subtil, ich weiß schon, was Du mir sagen wolltest. Es ist mir nur egal. Ich weiß, dass damals in der Diskussion schnell Einigkeit erzielt wurde, und Eure Wortklaubereien von danach sind es mir nicht wert, sie noch einmal zu studieren.

            „Das Thema lautet aber nicht „finde ein Beispiel für Subadditivität von Korrelation“. Sondern „welche unerwarteten Effekte kann Subadditivität von Korrelation haben?““

            Auch dies zu Erläutern ist mein Beispiel geeignet.

            „Einen Widerspruch zu behaupten macht keinen Beweis.“

            Ich habe kurz überlegt, ob ich den Beweis noch einmal formal und somit komprimiert aufstellen will. Aber ich glaube nicht, dass Du wirklich zu dumm warst, um zu verstehen, wie ich argumentiert habe. Du trollst nur. Das ist schade.

            „Ich habe dir hier eine Alternative gezeigt, bei der der Pearson-Korrelationskoeffizient überall definiert ist.“

            Nur leider hast Du dort hinein die unwahre Behauptung gepackt, der Koeffizient sei 0, obwohl er es nicht ist.

            Und Fragen, auf die ich angeblich nicht reagiere, scheint es ja dann doch nicht zu geben.

            @pingpong, es war nett, zu sehen, wie Du diskutierst und argumentierst. Ich bleibe bei meiner Meinung, dass Du einen Fehler begehst, wo Du die Korrelation von 0 zuweist; Du wirst sicherlich bei Deiner bleiben. Es hat keinen Zweck, weiter darüber zu diskutieren. Als Erkenntnis aus der Diskussion nehme ich mit, dass Du Dich als Mathematiker überschätzt – ich erinnere an Deine Anfängerfehler – und ganz allgemein Probleme mit dem selbstständigen Denken zu haben scheint. Vorausdenken, Konsequenzen zu bedenken und Fehler in den eigenen Gedankengängen zu suchen, ist nicht Deine Sache, jedenfalls hast Du nie diesen Eindruck erweckt. Deutlich mehr Energie investierst Du darin, auf Teufel komm raus recht haben zu wollen – aber gut, dagegen bin auch ich nicht gefeit, das ist mir bewusst.

            Bis zum nächsten Mal. Tschö.

          • Nur leider hast Du dort hinein die unwahre Behauptung gepackt, der Koeffizient sei 0, obwohl er es nicht ist.

            Wenn du meinst der Korrelationskoeffizient von Punkten einer zufälligen Gleichverteilung sei nicht 0, dann erübrigt sich wohl tatsächlich jede Diskussion…

          • Ich bleibe bei meiner Meinung, dass Du einen Fehler begehst, wo Du die Korrelation von 0 zuweist; Du wirst sicherlich bei Deiner bleiben. Es hat keinen Zweck, weiter darüber zu diskutieren.

            Eine sehr unsachliche Zusammenfassung.
            Das schöne bei Mathematik ist, dass es nicht um Meinungen geht, sondern um logisch nachvollziehbare Aussagen.

            Außer, man möchte sich unbedingt auf Meinungen beschränken.

            Hier ist ein Zitat von dir, von weit oben:
            Die zweite Hälfte ist eine waagerechte Strecke. Du sagst dazu, der Korrelationskoeffizient sei 0.

            Nein, das sage ich nicht. Ich sage, die Daten seien unkorreliert. Lies es nach, sowohl im Beispiel als auch im Fazit geht es um den Gegensatz „korreliert perfekt“ und „korreliert gar nicht“. Die Korrelationswerte sind in Klammern als Beispiel(!) angeführt, und es bleibt offen welches Korrelationsmaß gemeint ist.

            Ist das ungenau? Ja.

            Ändert es etwas daran, dass waagrechte Daten unkorreliert sind? Nein.

            Und darauf kommt es letztlich an. „Unkorreliert“ ist eine stärkere Aussage als „Pearson-Koeffizient=0“. Daten bei denen der Pearson-Koeffizient nicht definiert ist können noch immer unkorreliert sein.
            Deshalb verwenden die meisten Lehrbücher für die Definition(!) von „unkorreliert“ nicht den Pearson-Koeffizient, sondern die Kovarianz.

            Das ganze Beispiel ist außerdem unabhängig davon, ob der unkorrelierte Teil der Daten einen Pearson-Koeffizienten definiert hat oder nicht. Es ist genau so, wie es im Fazit steht:
            Selbst ein großer Korrelationskoeffizient von beispielsweise r=0.7 kann noch immer von Daten kommen, die zum einem Großteil überhaupt nicht korreliert sind.

            Leider scheinst du darauf bestehst zu wollen, mit „Korrelation“ dürfe nur der Pearson-Koeffizient gemeint sein, oder man müsse unkorrelierten Daten unbedingt einen Pearson-Koeffizienten zuweisen. Was das bringen soll weiß ich nicht.

            Auch die von dir imaginierten „Anfängerfehler“ in meinem Beweis sind auf dieses Beharren von dir zurückzuführen. Der Beweis zeigt, dass unabhängige ZV unkorreliert sind, und er enthält keine Fehler. Unkorreliert bedeutet Pearson-Koeffizient 0, außer im Fall von waagrechten Daten – dort ist der Pearson Koeffizient nicht definiert. Die Daten sind aber immer noch unkorreliert.
            Auf die Ungenauigkeit in dem Beweis, nämlich mein Versäumnis genau zu spezifizieren was mit „Korrelation“ gemeint ist, hast du hingewiesen, und ich habe es klargestellt. Das ist kein Fehler.
            Ein Fehler wäre es allerdings, aus „unkorreliert“ zu schließen der Pearson-Koeffizient müsse 0 sein. Ich mache das an keiner Stelle. Auch wenn du es mir fortwährend unterstellst.

            Ich habe dir sogar eine Alternative gezeigt, wo der Pearson-Koeffizient von „waagrechten Daten“ sehr wohl definiert ist: Eine Gleichverteilung in einem beliebig kleinen y-Intervall größer 0. Du kannst das Intervall so klein machen, dass es praktisch von einer horizontalen Geraden nicht unterscheidbar ist. Und der Pearson Koeffizient ist (modulo Sampling Ungenauigkeiten) immer 0.

            Ich weiß nicht, was dein Problem ist.

            Deine Ausführungen über meine Persönlichkeit scheinen eher einer Projektion zu entspringen.

  6. „Über den Zusammenhang zwischen Korrelation und Kausalität sollen sich Philosophen Gedanken machen.“

    Das ist richtig und wird von mir – u.a. hier – schon seit Jahren gepredigt: Kausalität ist ein vortheoretischer Begriff und auch die Physiker verwenden in klassischer Mechanik, QM und Relativitätstheorie unterschiedliche Raum- und Kraftbegriffe, was jeweils ein eigenes Verständnis von Kausalität nach sich zieht.

    Etwas verwirrend finde ich die Terminologie: Normalerweise meint „Korrelation“ in der Statistik normiert Kovarianz und damit ein Maß für einen linearen Zusammenhang.

    Für Abhängigkeiten höherer Ordnung verwendet man typischerweise:
    https://en.wikipedia.org/wiki/Mutual_information

    ZV können können durchaus linear unabhängig, aber nicht-linear abhängig sein.

    Solange das nicht sauber getrennt wird, werden die nervigen Diskussionen nicht abreißen.

    • Etwas verwirrend finde ich die Terminologie: Normalerweise meint „Korrelation“ in der Statistik normiert Kovarianz und damit ein Maß für einen linearen Zusammenhang.

      Für Abhängigkeiten höherer Ordnung verwendet man typischerweise:
      https://en.wikipedia.org/wiki/Mutual_information

      ZV können können durchaus linear unabhängig, aber nicht-linear abhängig sein.

      Sehr guter Punkt!

      Mutual Information als Maß für „Zusammenhang“ umgeht viele der hier beschriebenen Probleme von Korrelation.

      Leider hat sich, insbesondere in den SchwafelwissenschaftenGeisteswissenschaften (Psychologie) aber auch in vielen anderen, Korrelation als Quasistandard durchgesetzt. Ich fürchte das kriegt man nicht mehr so schnell los. Umso wichtiger wäre es, dass man mit den Fallstricken und Eigenheiten von Korrelation einigermaßen vertraut ist.

      Es wäre viel besser, wenn man standardmäßig in allen Wissenschaftszweigen auf MI als Maß für Zusammenhang umstellt, und die leidige Korrelation in den verdienten Ruhestand schickt. Am besten in allen Statistikvorlesungen, durch die sich Heerscharen von Psychologen, Soziologen, Biologen, Mediziner usw. durchquälen müssen, Korrelation komplett streichen und gleich von Anfang an nur mehr MI lehren. 🙂

      • Tag kaputt, so müsste es hoffentlich passen:

        Leider hat sich, insbesondere in den SchwafelwissenschaftenGeisteswissenschaften (Psychologie) aber auch in vielen anderen, Korrelation als Quasistandard durchgesetzt. Ich fürchte das kriegt man nicht mehr so schnell los. Umso wichtiger wäre es, dass man mit den Fallstricken und Eigenheiten von Korrelation einigermaßen vertraut ist.

      • Das stimmt. Aber du weißt ja, wie das läuft: Alle interessanten oder wichtigen Probleme sind nicht-linear oder stochastisch oder NP-hard, während der Mensch mit was anderem als einem linearen Zusammenhang komplett überfordert ist. Was meinst du also, wird am Ende in der akademischen Erziehung stärker sein? Welt oder Mensch ? 😉

      • wobei es den Sprachgebrauch schon recht lange gibt, und nicht nur bei den „Schwafelwissenschaften“ .. ich hatte seinerzeit beim Verfahrenstechnik Studium zwei Semester Systemanalyse/-optimierung, die Aufgabenstellung „lege eine Kurve durch eine Reihe von Datenpunkten zur Beschreibung des Systemverhaltens“ war eine sehr gängige, einfache lineare Zusammenhänge eher die Ausnahme, trotzdem lief das alles unter „Korrelation“. Und das ist jetzt etwa 30 Jahre her …

  7. Für die Praxis bedeutet das, dass Korrelationswerte unterhalb eines Absolutwertes von 0.5 (größer als -0.5, kleiner als 0.5) praktisch quasi ebenso gut Zufall sein könnten. Insbesondere dann, wenn das Sample relativ klein ist, siehe Punkt 1.

    Das kann ich nicht nachvollziehen. Stünde da nicht „. Insbesondere“, sondern „, wenn das Sample klein ist.“, aber es gibt doch viele Phänomene, die von mehreren, voneinander unabhängigen Faktoren beeinflusst werden, dann ist doch mit schwachen Korrelationen zu rechnen. Dennoch will man wissen, welche Faktoren überhaupt einen Einfluss auf ein Merkmal haben und wie stark der Einfluss ist, auch wenn ein einzelner nicht die ganze Varianz erklärt.

    • Die Faustregel „Korrelationen unterhalb absolut 0.5 sind mit Fragezeichen zu versehen“ gilt umso mehr, je kleiner das Sample ist. Daher das „insbesondere“.

      • Das habe ich schon verstanden.
        Und ich lese im Umkehrschluss daraus, dass bei einem großen Sample, Korrelationen unter 0.5 auch mit einem Fragezeichen zu versehen sind, wenn auch nicht besonders.

        Und das kann ich nicht nachvollziehen. Ich kann jetzt keine Studie aus dem Kopf nennen, bei der die Korrelation < 0.5 ist, aber wenn, was in den Sozialwissenschaften oft der Fall ist, ein Merkmal einen statistischen Einfluss hat, aber nicht die alleinige Einflussgröße ist, was soll dann ein Fragezeichen?

        Wenn die Daten repräsentativ sind und das Sample ordentlich groß, dann sehe ich da keinen Platz für ein Fragezeichen.

        • Siehe die Grafik bei Punkt 2.
          Korrelation 0.5 ist nicht „auf halbem Weg“ zwischen gar keine Zusammenhang und perfekter Zusammenhang. 0.5 ist wesentlicher näher an Zufall als an perfekter Zusammenhang.

          Wenn man dir 2 Datensätze vorlegt, einmal reiner Zufall und einmal Korrelation 0.5, dann ist es mitunter (abhängig von der konkreten Verteilung, Größe des Sample usw) schwierig zu unterschieden was was ist.

          Das ist gerade die Message: Wenn man das nächste mal den Korrealtionswert zur Entscheidungsfindung heranzieht, besser die Daten erst einmal visualisieren. Dann kann man entscheiden ob man seine Meinung ändern will oder nicht.

  8. Pingback: Normalverteilung (Gaußverteilung) in der realen Welt (Gastartikel Pingpong) | Alles Evolution

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit deinem WordPress.com-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahre, wie deine Kommentardaten verarbeitet werden..