Kovarianz

Formel

Kovarianz - Korrelation - Scheinkorrelation - Regression

Die Kovarianz ist ein dimensionsloses Maß für die Stärke vom linearen Zusammenhang zweier Datensätze x₁, x₂, … , x_n bzw. y₁, y₂, … y_n, deren Merkmale metrisch und stetig sind.

Korrelation

Korrelation beschreibt eine statistische Beziehung zwischen zwei Variablen, bei der Veränderungen in einer Variable mit Veränderungen in der zweiten Variable zusammen auftreten. Wenn zwei Variablen korrelieren, bedeutet dies, dass eine Veränderung in einer Variable mit einer Veränderung in der anderen Variable einhergeht (=korreliert). Im Unterschied zur Kovarianz ist bei der Korrelation eine Standardisierung erfolgt, was Vergleiche erlaubt. Die Korrelation bzw. der Korrelationskoeffizient r ist ein Maß für die lineare Abhängigkeit von 2 Datensätzen. Der Korrelationskoeffizient besitzt Werte zwischen -1 bis +1.

r=-1: Es besteht ein gegenläufiger Zusammenhang. Eine Größe nimmt zu, die andere Größe nimmt ab
r=0: Es besteht kein linearer Zusammenhang
r=+1: Es besteht ein gleichläufiger Zusammenhang. Wenn eine Größe zunimmt, nimmt auch die andere Größe im selben Ausmaß zu

Ob ein Korrelationskoeffizient ab 0,5 oder erst ab 0,9 als "hoch" einzuschätzen ist, hängt von der jeweiligen Fragestellung ab. Man kann von Änderungen eines Datensatzes, gemäß dem Korrelationskoeffizient r nach Pearson Vorhersagen über die Änderung des anderen Datensatzes treffen und vice versa, ohne dass es eine Kausalbeziehung zwischen den Datensätzen gibt. Achtung: Korrelation impliziert keinen kausalen Zusammenhang zwischen den Datensätzen.

Scheinkorrelation

Von einer Scheinkorrelation spricht man, wenn es zwischen zwei Datensätzen zwar eine Korrelation gibt, diese aber auf keinen Ursache-Wirkungs Zusammenhang zurückgeführt werden kann. Korrelation bedeutet nämlich nicht zwangsläufig, dass eine Variable die Ursache für die Veränderung der anderen Variable ist.

Die Problematik bezüglich der Scheinkorrelation soll an Anhand eines Beispiels veranschaulicht werden: Seit Jahrzehnten sinkt die Anzahl an Störchen und die Anzahl an Geburten im Burgenland. D.h. die beiden Datensätze (Störche, Geburten) entwickeln sich in dieselbe Richtung und sind korreliert und man kann auch einen Korrelationskoeffizienten r > 0 berechnen. Dennoch gibt es keine Kausalität (kein Ursache- Wirkungsprinzip, kein Zusammenhang) zwischen den Datensätzen und es wäre daher falsch, auf Auswirkungen von einem Datensatz (Anzahl Störche) auf den anderen Datensatz (Anzahl Geburten) zu schließen.

Wenn eine Variable oder ein Ereignis eine Veränderung in einer anderen Variable oder einem anderen Ereignis verursacht, spricht man von Kausalität. Wenn man also berechtigt von einem Datensatz auf einen anderen korrelierten Datensatz schließen will, muss man zusätzlich die Kausalität, etwa durch ein Experiment oder einer Regressionsanalyse nachweisen, um eine allfällige Scheinkorrelation auf Grund einer tatsächlich bestehenden Korrelation ohne kausalem Zusammenhang ausschließen zu können!

Regression

Die Regression geht über die Korrelation hinaus uns setzt einen Ursache Wirkungszusammenhang (Kausalität) voraus. Daher gibt es eine unabhängige Variable (X, Regressor, Ursache) und eine abhängige Variable (Y, Regressand, Wirkung).

Lineare Regression

Ziel der linearen Regression ist es eine abhängige Variable (Y, Regressand) aus einer unabhängigen Variable (X, Regressor) mittels einer linearen Funktion, der Regressionsgeraden zu berechnen, um aus dem bekannten Zustand von X Vorhersagen für den unbekannten Zustand von Y treffen zu können. Dazu sollen die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden (Gerade = linearer Zusammenhang) minimiert werden. Alle Punkte eines Streudiagramms (nicht einzelne ! Punkte) haben den minimalen Abstand zur Regressionsgeraden.

Kovarianz

Die Kovarianz ist ein dimensionsbehaftetes Maß für die Stärke vom linearen Zusammenhang zweier metrischer Datensätze x₁, x₂, … , x_n bzw. y₁, y₂, … y_n.

\(Cov\left( {x,y} \right) = \dfrac{{\sum\limits_{i = 1}^N {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{N - 1}}\)

Die Kovarianz ist leider anfällig gegenüber Ausreißer, nicht standardisiert und daher für Vergleiche ungeeignet. Standardisiert man die Kovarianz, erhält man die Korrelation.

\(Cov\left( {X,Y} \right) = 0\) ⇒ X und Y sind unkorreliert. D.h. aber nicht, dass sie auch unabhängig sein müssen.

Korrelationsanalyse

Mit einer Korrelationsanalyse werden Maßzahlen errechnet, um die Stärke eines linearen Zusammenhangs zweier Datensätze, deren Merkmale metrisch und stetig sind, zu quantifizieren. Beispiele für solch eine Maßzahl sind

die Kovarianz
der Korrelationskoeffizient r nach Pearson

Korrelationskoeffizient nach Pearson

Die Korrelation ist ein Maß für den linearen Zusammenhang zwischen zwei Datensätzen (Variablen). Der Korrelationskoeffizient nach Pearson ist eine von mehreren Möglichkeiten diesen Zusammenhang zu quantifizieren.

Für einen Wert nahe bei +/- 1 besteht ein hoher linearer Zusammenhang
Für einen Wert nahe bei 0 besteht kein linearer Zusammenhang
Dessen ungeachtet kann aber ein nicht-linearer Zusammenhang bestehen

\(r(x,y) = \rho \left( {x,y} \right) = \dfrac{{Cov\left( {x,y} \right)}}{{\sqrt {Var\left( x \right) \cdot Var\left( y \right)} }} = \dfrac{{Cov\left( {x,y} \right)}}{{\sigma \left( x \right) \cdot \sigma \left( y \right)}}\)

Für den Korrelationskoeffizient r nach Pearson, dessen Wert zwischen -1 und 1 liegt gilt:

Bei positiver Kovarianz / Korrelation r > 0 ändern sich die beiden Datensätze in dieselbe Richtung.
Bei negativer Kovarianz / Korrelation r < 0 steigt ein Datensatz an während der andere Datensatz abnimmt.
Bei einer Kovarianz / Korrelation r = 0 sind die beiden Datensätze unabhängig / unkorreliert voneinander.

Regressionsanalyse

Eine Regressionsanalyse geht über die Korrelationsanalyse hinaus (!) indem sie einen Ursache-Wirkungszusammenhang beschreibt. Ihr Ziel ist es einen mathematischen Zusammenhang zwischen unabhängigen und abhängigen Variablen herzustellen. Ist dieser Zusammenhang linear, so spricht man von einer Regressionsgeraden, andernfalls von einer Regressionsfunktion.

Regressionsgerade

Die Regressionsgerade stellt einen linearen Zusammenhang zwischen einer unabhängigen Variabel und einer abhängigen Variablen die vorhergesagt werden soll her. Die Regressionsgerade ist die bestmögliche Gerade, die man in einem Streudiagramm durch alle Daten legen kann, sodass alle Datenpunkte von der Geraden in Summe den kleinsten Abstand haben.

\(\eqalign{ & {\text{f}}\left( x \right){\text{ = y = k}} \cdot {\text{x + d}} \cr & k = \dfrac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }} = {r_{xy}} \cdot \dfrac{{{s_y}}}{{{s_x}}} \cr & d = \overline y - b \cdot \overline x \cr}\)

\({r_{xy}}\)	Pearson Korrelation
\({{\text{s}}_x},\,\,{s_y}\)	Standardabweichungen
\(\overline x ,\,\,\overline y \)	Mittelwerte der gemessenen Daten x_i und y_i
(x₁,y₁), ... (x_n,y_n)	Wertepaare

Korrelation

Kovarianz

Kausalität

Regressionsgerade

Regressor

Regressand

Standardabweichung

Korrelationskoeffizient nach Pearson

Korrelationsanalyse

Regressionsanalyse

Scheinkorrelation

Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.

Startseite

Startseite

Wissenspfad

Zur aktuellen Lerneinheit empfohlenes Vorwissen

Beschreibende Statistik

Die beschreibende bzw. deskriptive Statistik stellt große Datenmengen (Vollerhebung, Grundgesamtheit) übersichtlich dar und verdichtet diese, damit charakteristische Eigenschaften der Datenmenge durch einfache Kennzahlen ausgedrückt werden können.

Aktuelle Lerneinheit

Kovarianz - Korrelation - Scheinkorrelation - Regression

Es werden die Unterschiede zwischen Kovarianz - Korrelation - (Schein-)Kausalität - Regression angeführt

Verbreitere dein Wissen zur aktuellen Lerneinheit

Datenerhebung für statistische Aussagen	Für die Datenerhebung zum Zweck von statistischen Aussagen ist eine Reihe von Begriffsbestimmungen zweckmäßig.
Boxplot	Darstellung einer „Box“ mit je einer „Antenne“ links und rechts von der Box, welche wichtige Lage- und Streumaße grafisch darstellen.
Streumaße	Streuungsmaße geben Auskunft über die Breite der Verteilung, also zur Variabilität der Werte
Lagemaße	Lagemaße sind Kennzahlen, die Auskunft zur zentralen Tendenz geben, wo auf einer vorgegebenen Skala sich die Werte einer Grundgesamtheit konzentrieren.
Listen und Skalen in der Stochastik	Stochastische Daten werden mit Hilfe von Listen uns Skalen in eine strukturierte Form gebracht, welche die Weiterverarbeitung der Daten erleichtert.

Aufgaben zu diesem Thema

Lösungsweg

Aufgabe 4100

Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 09. Mai 2018 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind

Bewegung eines Bootes - Aufgabe B_074

Teil b

Ein Boot wird von einem Motorboot geschleppt. Zur Zeit t = 0 s wird das Schleppseil gelöst. Die nachstehende Tabelle gibt die Geschwindigkeit des Bootes zu 4 verschiedenen Zeiten an.

Zeit in s	3	9	15	21
Geschwindigkeit in m/s	6,5	2,5	1,1	0,5

1. Teilaufgabe - Bearbeitungszeit 5:40

Ermitteln Sie mithilfe der Daten aus der obigen Tabelle eine Gleichung der exponentiellen Ausgleichsfunktion, die den zeitlichen Verlauf der Geschwindigkeit des Bootes beschreibt.
[1 Punkt]

2. Teilaufgabe - Bearbeitungszeit 5:40

Ermitteln Sie mit dieser Ausgleichsfunktion einen Schätzwert für die Geschwindigkeit des Bootes zur Zeit t = 5 s.
[1 Punkt]

3. Teilaufgabe - Bearbeitungszeit 5:40

Zusatzfragestellung, nicht in der original Matura enthalten!

Ermitteln Sie die Wegstrecke, die das Boot in den ersten 9 Sekunden zurück legt.

[1 Punkt]

Bewegung eines Bootes - Aufgabe B_074

kostenlose Mathematik Maturavorbereitung - BHS - Aufgabenpool Cluster HTL2

Mathematik Zentralmatura BHS - Mai 2018 - kostenlos vorgerechnet

Geogebra TrendExp2

GeoGebra TrendExp

Regressionsanalyse

Regression - nicht linear

BHS Mathe Matura kostenlose Vorbereitung - Aufgabenpool B_W1_5.2

BHS Mathe Matura kostenlose Vorbereitung - Aufgabenpool B_W2_5.2

BHS Mathe Matura kostenlose Vorbereitung - Aufgabenpool B_P_5.1

BHS Mathe Matura kostenlose Vorbereitung - Aufgabenpool B_T2_5.5

Fragen oder Feedback

Lösungsweg

Aufgabe 4347

Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 08. Mai 2019 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind

Studienabschlüsse - Aufgabe B_450

Teil b

Folgende Tabelle gibt die jeweilige Anzahl der Studienabschlüsse an öffentlichen Universitäten in Österreich in den Jahren 2007 bis 2014 an:

Jahr	2007	2008	2009	2010	2011	2012	2013	2014
Anzahl der Studienab- schlüsse an öffent- lichen Universitäten	22.121	23.910	27.232	27.926	31.115	34.460	37.312	34.300

Datenquelle: Statistik Austria (Hrsg.): Bildung in Zahlen 2014/15. Tabellenband. Wien: Statistik Austria 2016, S. 320.

Jemand vermutet, dass sich die Anzahl der Studienabschlüsse in Abhängigkeit von der Zeit t näherungsweise durch eine lineare Funktion beschreiben lässt.

1. Teilaufgabe - Bearbeitungszeit 5:40

Ermitteln Sie mithilfe der Regressionsrechnung eine Gleichung der zugehörigen linearen Funktion f. Wählen Sie t = 0 für das Jahr 2007.
[1 Punkt]

2. Teilaufgabe - Bearbeitungszeit 5:40

Beurteilen Sie mithilfe des Korrelationskoeffizienten, ob die Regressionsfunktion ein geeignetes Modell darstellt, um die Entwicklung der Anzahl der Studienabschlüsse zu beschreiben.

[1 Punkt]

3. Teilaufgabe - Bearbeitungszeit 5:40

Ermitteln Sie, mit wie vielen Studienabschlüssen gemäß diesem Modell im Jahr 2020 zu rechnen ist. [1 Punkt]

Mathematik Zentralmatura BHS - Mai 2019 - kostenlos vorgerechnet

Studienabschlüsse - Aufgabe B_450

Geogebra Regressionsgerade

GeoGebra Korrelationskoeffizient

Korrelation

Regressionsanalyse

kostenlose Mathematik Maturavorbereitung - BHS - Aufgabenpool Cluster BAfEP, BASOP, BRP

Regression - Korrelation und Methode der kleinsten Quadrate

BHS Mathe Matura kostenlose Vorbereitung - Aufgabenpool B_P_5.1