Kovarianz - Korrelation - Scheinkorrelation - Regression
Kovarianz
Die Kovarianz ist ein dimensionsloses Maß für die Stärke vom linearen Zusammenhang zweier Datensätze x1, x2, … , xn bzw. y1, y2, … yn , deren Merkmale metrisch und stetig sind.
Korrelation
Im Unterschied zur Kovarianz ist bei der Korrelation eine Standardisierung erfolgt, was Vergleiche erlaubt. Die Korrelation bzw. der Korrelationskoeffizient r ist ein Maß für die lineare Abhängigkeit von 2 Datensätzen, wenn ein Zusammenhang existiert. Man kann von Änderungen eines Datensatzes, gemäß dem Korrelationskoeffizient r nach Pearson Vorhersagen über die Änderung des anderen Datensatzes treffen und vice versa, ohne dass es eine Kausalbeziehung zwischen den Datensätzen gibt. Achtung: Korrelation impliziert keinen kausalen Zusammenhang zwischen den Datensätzen.
Scheinkorrelation
Von einer Scheinkorrelation spricht man, wenn es zwischen zwei Datensätzen zwar eine Korrelation gibt, diese aber auf keinen Ursache-Wirkungs Zusammenhang zurückgeführt werden kann.
Die Problematik bezüglich der Scheinkorrelation soll an Anhand eines Beispiels veranschaulicht werden: Seit Jahrzehnten sinkt die Anzahl an Störchen und die Anzahl an Geburten im Burgenland. D.h. die beiden Datensätze (Störche, Geburten) entwickeln sich in dieselbe Richtung und sind korreliert und man kann auch einen Korrelationskoeffizienten r > 0 berechnen. Dennoch gibt es keine Kausalität (kein Ursache- Wirkungsprinzip, kein Zusammenhang) zwischen den Datensätzen und es wäre daher falsch, auf Auswirkungen von einem Datensatz (Anzahl Störche) auf den anderen Datensatz (Anzahl Geburten) zu schließen. Wenn man also berechtigt von einem Datensatz auf einen anderen korrelierten Datensatz schließen will, muss man zusätzlich die Kausalität, etwa durch ein Experiment oder einer Regressionsanalyse nachweisen, um eine allfällige Scheinkorrelation auf Grund einer tatsächlich bestehenden Korrelation ohne kausalem Zusammenhang ausschließen zu können!
Regression
Die Regression geht über die Korrelation hinaus uns setzt einen Ursache Wirkungszusammenhang (Kausalität) voraus. Daher gibt es eine unabhängige Variable (X, Regressor, Ursache) und eine abhängige Variable (Y, Regressand, Wirkung).
Lineare Regression
Ziel der linearen Regression ist es eine abhängige Variable (Y, Regressand) aus einer unabhängigen Variable (X, Regressor) mittels einer linearen Funktion, der Regressionsgeraden zu berechnen, um aus dem bekannten Zustand von X Vorhersagen für den unbekannten Zustand von Y treffen zu können. Dazu sollen die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden (Gerade = linearer Zusammenhang) minimiert werden. Alle Punkte eines Streudiagramms (nicht einzelne ! Punkte) haben den minimalen Abstand zur Regressionsgeraden.
Kovarianz
Die Kovarianz ist ein dimensionsbehaftetes Maß für die Stärke vom linearen Zusammenhang zweier metrischer Datensätze x1, x2, … , xn bzw. y1, y2, … yn.
\(Cov\left( {x,y} \right) = \dfrac{{\sum\limits_{i = 1}^N {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{N - 1}}\)
Bessel Korrektur
Als Bessel-Korrektur (N-1) bezeichnet man die Verringerung der Stichprobenanzahl um 1 im Nenner.
\(Cov\left( {X,Y} \right) = E\left( {X - E\left( x \right)} \right) \cdot \left( {Y - E\left( Y \right)} \right) = E\left( {XY} \right) - E\left( X \right) \cdot E\left( Y \right)\)
Die Kovarianz ist leider anfällig gegenüber Ausreißer, nicht standardisiert und daher für Vergleiche ungeeignet. Standardisiert man die Kovarianz, erhält man die Korrelation.
\(Cov\left( {X,Y} \right) = 0\) ⇒ X und Y sind unkorreliert. D.h. aber nicht, dass sie auch unabhängig sein müssen.
Korrelationsanalyse
Mit einer Korrelationsanalyse werden Maßzahlen errechnet, um die Stärke eines linearen Zusammenhangs zweier Datensätze, deren Merkmale metrisch und stetig sind, zu quantifizieren. Beispiele für solch eine Maßzahl sind
- die Kovarianz
- der Korrelationskoeffizient r nach Pearson
Korrelationskoeffizient nach Pearson
Die Korrelation ist ein Maß für den linearen Zusammenhang zwischen zwei Datensätzen (Variablen). Der Korrelationskoeffizient nach Pearson ist eine von mehreren Möglichkeiten diesen Zusammenhang zu quantifizieren.
\(r(x,y) = \rho \left( {x,y} \right) = \dfrac{{Cov\left( {x,y} \right)}}{{\sqrt {Var\left( x \right) \cdot Var\left( y \right)} }} = \dfrac{{Cov\left( {x,y} \right)}}{{\sigma \left( x \right) \cdot \sigma \left( y \right)}}\)
Für den Korrelationskoeffizient r nach Pearson, dessen Wert zwischen -1 und 1 liegt gilt:
- Bei positiver Kovarianz / Korrelation r > 0 ändern sich die beiden Datensätze in dieselbe Richtung.
- Bei negativer Kovarianz / Korrelation r < 0 steigt ein Datensatz an während der andere Datensatz abnimmt.
- Bei einer Kovarianz / Korrelation r = 0 sind die beiden Datensätze unabhängig / unkorreliert voneinander.
Regressionsanalyse
Eine Regressionsanalyse geht über die Korrelationsanalyse hinaus (!) indem sie einen Ursache-Wirkungszusammenhang beschreibt. Ihr Ziel ist es einen mathematischen Zusammenhang zwischen unabhängigen und abhängigen Variablen herzustellen. Ist dieser Zusammenhang linear, so spricht man von einer Regressionsgeraden, andernfalls von einer Regressionsfunktion.
Regressionsgerade
Die Regressionsgerade stellt einen linearen Zusammenhang zwischen einer unabhängigen Variabel und einer abhängigen Variablen die vorhergesagt werden soll her. Die Regressionsgerade ist die bestmögliche Gerade, die man in einem Streudiagramm durch alle Daten legen kann, sodass alle Datenpunkte von der Geraden in Summe den kleinsten Abstand haben.
\(\eqalign{ & {\text{f}}\left( x \right){\text{ = y = k}} \cdot {\text{x + d}} \cr & k = \dfrac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }} = {r_{xy}} \cdot \dfrac{{{s_y}}}{{{s_x}}} \cr & d = \overline y - b \cdot \overline x \cr}\)
\({r_{xy}}\) |
Pearson Korrelation |
\({{\text{s}}_x},\,\,{s_y}\) |
Standardabweichungen |
\(\overline x ,\,\,\overline y \) |
Mittelwerte der gemessenen Daten xi und yi |
(x1,y1), ... (xn,yn) |
Wertepaare |