Unterschied Kovarianz - Korrelation - (Schein-)Kausalität - Regression
Kovarianz
Die Kovarianz ist ein dimensionsloses Maß für die Stärke vom linearen Zusammenhang zweier metrischer Datensätze x1, x2, … , xn bzw. y1, y2, … yn , deren Merkmale metrisch und stetig sind. Im Unterschied zur Kovarianz ist bei der Korrelation eine Standardisierung erfolgt, was Vergleiche erlaubt. Die Korrelation bzw. der Korrelationskoeffizient r ist ein Maß für die lineare Abhängigkeit von 2 Datensätzen, wenn ein Zusammenhang existiert. Man kann von Änderungen eines Datensatzes, gemäß dem Korrelationskoeffizient r nach Pearson Vorhersagen über die Änderung des anderen Datensatzes treffen und vice versa, ohne dass es eine Kausalbeziehung zwischen den Datensätzen gibt. Achtung: Korrelation impliziert keinen kausalen Zusammenhang zwischen den Datensätzen.
Scheinkorrelation
Die Problematik hinter der Scheinkorrelation soll an Anhand eines Beispiels veranschaulicht werden: Seit Jahrzehnten sinkt die Anzahl an Störchen und die Anzahl an Geburten im Burgenland. D.h. die beiden Datensätze (Störche, Geburten) entwickeln sich in dieselbe Richtung und sind korreliert und man kann auch einen Korrelationskoeffizienten r > 0 berechnen. Dennoch gibt es keine Kausalität (kein Ursache- Wirkungsprinzip, kein Zusammenhang) zwischen den Datensätzen und es wäre daher falsch, auf Auswirkungen von einem Datensatz (Anzahl Störche) auf den anderen Datensatz (Anzahl Geburten) zu schließen. Wenn man also berechtigt von einem Datensatz auf einen anderen korrelierten Datensatz schließen will, muss man zusätzlich die Kausalität, etwa durch ein Experiment oder einer Regressionsanalyse nachweisen!
Regression
Die Regression geht über die Korrelation hinaus uns setzt einen Ursache Wirkungszusammenhang (Kausalität) voraus. Daher gibt es eine unabhängige Variable (X, Regressor, Ursache) und eine abhängige Variable (Y, Regressand, Wirkung).
Lineare Regression
Ziel der Linearen Regression ist es eine abhängige Variable (Y, Regressand) aus einer unabhängigen Variable (X, Regressor) zu berechnen, um aus dem bekannten Zustand von X Vorhersagen für den unbekannten Zustand von Y treffen zu können. Dazu sollen die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden (Gerade = linearer Zusammenhang) minimiert werden. Alle Punkte eines Streudiagramms (nicht einzelne ! Punkte) haben den minimalen Abstand zur Regressionsgeraden.