Regressionsgerade
Hier findest du folgende Inhalte
Formeln
Kovarianz - Korrelation - Scheinkorrelation - Regression
Kovarianz
Die Kovarianz ist ein dimensionsloses Maß für die Stärke vom linearen Zusammenhang zweier Datensätze x1, x2, … , xn bzw. y1, y2, … yn , deren Merkmale metrisch und stetig sind.
Korrelation
Korrelation beschreibt eine statistische Beziehung zwischen zwei Variablen, bei der Veränderungen in einer Variable mit Veränderungen in der zweiten Variable zusammen auftreten. Wenn zwei Variablen korrelieren, bedeutet dies, dass eine Veränderung in einer Variable mit einer Veränderung in der anderen Variable einhergeht (=korreliert). Im Unterschied zur Kovarianz ist bei der Korrelation eine Standardisierung erfolgt, was Vergleiche erlaubt. Die Korrelation bzw. der Korrelationskoeffizient r ist ein Maß für die lineare Abhängigkeit von 2 Datensätzen. Der Korrelationskoeffizient besitzt Werte zwischen -1 bis +1.
- r=-1: Es besteht ein gegenläufiger Zusammenhang. Eine Größe nimmt zu, die andere Größe nimmt ab
- r=0: Es besteht kein linearer Zusammenhang
- r=+1: Es besteht ein gleichläufiger Zusammenhang. Wenn eine Größe zunimmt, nimmt auch die andere Größe im selben Ausmaß zu
Ob ein Korrelationskoeffizient ab 0,5 oder erst ab 0,9 als "hoch" einzuschätzen ist, hängt von der jeweiligen Fragestellung ab. Man kann von Änderungen eines Datensatzes, gemäß dem Korrelationskoeffizient r nach Pearson Vorhersagen über die Änderung des anderen Datensatzes treffen und vice versa, ohne dass es eine Kausalbeziehung zwischen den Datensätzen gibt. Achtung: Korrelation impliziert keinen kausalen Zusammenhang zwischen den Datensätzen.
Scheinkorrelation
Von einer Scheinkorrelation spricht man, wenn es zwischen zwei Datensätzen zwar eine Korrelation gibt, diese aber auf keinen Ursache-Wirkungs Zusammenhang zurückgeführt werden kann. Korrelation bedeutet nämlich nicht zwangsläufig, dass eine Variable die Ursache für die Veränderung der anderen Variable ist.
Die Problematik bezüglich der Scheinkorrelation soll an Anhand eines Beispiels veranschaulicht werden: Seit Jahrzehnten sinkt die Anzahl an Störchen und die Anzahl an Geburten im Burgenland. D.h. die beiden Datensätze (Störche, Geburten) entwickeln sich in dieselbe Richtung und sind korreliert und man kann auch einen Korrelationskoeffizienten r > 0 berechnen. Dennoch gibt es keine Kausalität (kein Ursache- Wirkungsprinzip, kein Zusammenhang) zwischen den Datensätzen und es wäre daher falsch, auf Auswirkungen von einem Datensatz (Anzahl Störche) auf den anderen Datensatz (Anzahl Geburten) zu schließen.
Wenn eine Variable oder ein Ereignis eine Veränderung in einer anderen Variable oder einem anderen Ereignis verursacht, spricht man von Kausalität. Wenn man also berechtigt von einem Datensatz auf einen anderen korrelierten Datensatz schließen will, muss man zusätzlich die Kausalität, etwa durch ein Experiment oder einer Regressionsanalyse nachweisen, um eine allfällige Scheinkorrelation auf Grund einer tatsächlich bestehenden Korrelation ohne kausalem Zusammenhang ausschließen zu können!
Regression
Die Regression geht über die Korrelation hinaus uns setzt einen Ursache Wirkungszusammenhang (Kausalität) voraus. Daher gibt es eine unabhängige Variable (X, Regressor, Ursache) und eine abhängige Variable (Y, Regressand, Wirkung).
Lineare Regression
Ziel der linearen Regression ist es eine abhängige Variable (Y, Regressand) aus einer unabhängigen Variable (X, Regressor) mittels einer linearen Funktion, der Regressionsgeraden zu berechnen, um aus dem bekannten Zustand von X Vorhersagen für den unbekannten Zustand von Y treffen zu können. Dazu sollen die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden (Gerade = linearer Zusammenhang) minimiert werden. Alle Punkte eines Streudiagramms (nicht einzelne ! Punkte) haben den minimalen Abstand zur Regressionsgeraden.
Kovarianz
Die Kovarianz ist ein dimensionsbehaftetes Maß für die Stärke vom linearen Zusammenhang zweier metrischer Datensätze x1, x2, … , xn bzw. y1, y2, … yn.
\(Cov\left( {x,y} \right) = \dfrac{{\sum\limits_{i = 1}^N {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{N - 1}}\)
Die Kovarianz ist leider anfällig gegenüber Ausreißer, nicht standardisiert und daher für Vergleiche ungeeignet. Standardisiert man die Kovarianz, erhält man die Korrelation.
\(Cov\left( {X,Y} \right) = 0\) ⇒ X und Y sind unkorreliert. D.h. aber nicht, dass sie auch unabhängig sein müssen.
Korrelationsanalyse
Mit einer Korrelationsanalyse werden Maßzahlen errechnet, um die Stärke eines linearen Zusammenhangs zweier Datensätze, deren Merkmale metrisch und stetig sind, zu quantifizieren. Beispiele für solch eine Maßzahl sind
- die Kovarianz
- der Korrelationskoeffizient r nach Pearson
Korrelationskoeffizient nach Pearson
Die Korrelation ist ein Maß für den linearen Zusammenhang zwischen zwei Datensätzen (Variablen). Der Korrelationskoeffizient nach Pearson ist eine von mehreren Möglichkeiten diesen Zusammenhang zu quantifizieren.
- Für einen Wert nahe bei +/- 1 besteht ein hoher linearer Zusammenhang
- Für einen Wert nahe bei 0 besteht kein linearer Zusammenhang
- Dessen ungeachtet kann aber ein nicht-linearer Zusammenhang bestehen
\(r(x,y) = \rho \left( {x,y} \right) = \dfrac{{Cov\left( {x,y} \right)}}{{\sqrt {Var\left( x \right) \cdot Var\left( y \right)} }} = \dfrac{{Cov\left( {x,y} \right)}}{{\sigma \left( x \right) \cdot \sigma \left( y \right)}}\)
Für den Korrelationskoeffizient r nach Pearson, dessen Wert zwischen -1 und 1 liegt gilt:
- Bei positiver Kovarianz / Korrelation r > 0 ändern sich die beiden Datensätze in dieselbe Richtung.
- Bei negativer Kovarianz / Korrelation r < 0 steigt ein Datensatz an während der andere Datensatz abnimmt.
- Bei einer Kovarianz / Korrelation r = 0 sind die beiden Datensätze unabhängig / unkorreliert voneinander.
Regressionsanalyse
Eine Regressionsanalyse geht über die Korrelationsanalyse hinaus (!) indem sie einen Ursache-Wirkungszusammenhang beschreibt. Ihr Ziel ist es einen mathematischen Zusammenhang zwischen unabhängigen und abhängigen Variablen herzustellen. Ist dieser Zusammenhang linear, so spricht man von einer Regressionsgeraden, andernfalls von einer Regressionsfunktion.
Regressionsgerade
Die Regressionsgerade stellt einen linearen Zusammenhang zwischen einer unabhängigen Variabel und einer abhängigen Variablen die vorhergesagt werden soll her. Die Regressionsgerade ist die bestmögliche Gerade, die man in einem Streudiagramm durch alle Daten legen kann, sodass alle Datenpunkte von der Geraden in Summe den kleinsten Abstand haben.
\(\eqalign{ & {\text{f}}\left( x \right){\text{ = y = k}} \cdot {\text{x + d}} \cr & k = \dfrac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }} = {r_{xy}} \cdot \dfrac{{{s_y}}}{{{s_x}}} \cr & d = \overline y - b \cdot \overline x \cr}\)
\({r_{xy}}\) | Pearson Korrelation |
\({{\text{s}}_x},\,\,{s_y}\) | Standardabweichungen |
\(\overline x ,\,\,\overline y \) | Mittelwerte der gemessenen Daten xi und yi |
(x1,y1), ... (xn,yn) | Wertepaare |
Schon den nächsten Badeurlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Damit niemand mehr bei Mathe in's Schwimmen kommt!
Aufgaben
Aufgabe 4023
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 10. Mai 2017 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Weinbau - Aufgabe B_413
Teil d
Während der Vergärung von Traubenmost zu Wein wird CO2 gebildet. In der nachstehenden Tabelle sind 6 Messwerte eines Vergärungsprozesses angegeben.
Zeit in Sekunden | CO2 Druck in Kilopascal |
0 | 90 |
100 | 100 |
200 | 115 |
300 | 135 |
400 | 155 |
500 | 190 |
Die Abhängigkeit des CO2-Drucks von der Zeit soll beschrieben werden.
1. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie mithilfe der gegebenen Daten eine Gleichung der zugehörigen exponentiellen Regressionsfunktion.
[1 Punkt]
Schon den nächsten Badeurlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Damit niemand mehr bei Mathe in's Schwimmen kommt!
Aufgabe 4032
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 10. Mai 2017 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Leistungsdiagnostik im Sport - Aufgabe B_417
Teil c
Bei einem bestimmten Sportler wird die Herzschlagfrequenz in Abhängigkeit von der Laufgeschwindigkeit bestimmt:
Laufgeschwindigkeit in km/h | 11,0 | 11,5 | 12,0 | 12,5 | 13,0 | 13,5 | 14,0 | 14,5 |
Herzschlagfrequenz in min-1 | 140 | 150 | 162 | 168 | 175 | 182 | 190 | 200 |
Die Herzschlagfrequenz in Abhängigkeit von der Laufgeschwindigkeit soll mithilfe einer linearen Ausgleichsfunktion beschrieben werden.
1. Teilaufgabe - Bearbeitungszeit 5:40
Bestimmen Sie eine Gleichung dieser linearen Ausgleichsfunktion.
[1 Punkt]
Aufgabe 4083
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 09. Mai 2018 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Smartphones - Aufgabe B_079
Der Akku eines Smartphones entlädt sich aufgrund von Hintergrundanwendungen auch dann, wenn das Gerät nicht aktiv benutzt wird.
Teil a
Für ein bestimmtes Smartphone wird die zeitliche Entwicklung des Akku-Ladestands in Prozent beobachtet. Zur Zeit t = 0 ist der Akku vollständig aufgeladen.
Zeit t in Stunden | Akku-Ladestand in Prozent |
0 | 100 |
3 | 94 |
6 | 81 |
10 | 71 |
18 | 43 |
Die zeitliche Entwicklung des Akku-Ladestands in Prozent soll beschrieben werden.
1. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie eine Gleichung der zugehörigen linearen Regressionsfunktion.
[1 Punkt]
Bei einem Akku-Ladestand von 15 % sollte das Smartphone wieder ans Stromnetz angeschlossen werden.
2. Teilaufgabe - Bearbeitungszeit 5:40
Berechnen Sie, wie viele Stunden nach dem vollständigen Aufladen dies gemäß diesem linearen Regressionsmodell gemäß Teil a der Fall ist.
[1 Punkt]
Aufgabe 4122
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 09. Mai 2018 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Wiener Öffis - Aufgabe B_187
Wien betreibt das fünftgrößte Straßenbahnnetz weltweit und das fünftgrößte U-Bahn-Netz in der Europäischen Union. Seit 1995 steigt die Zahl der Passagiere ständig an.
Teil a
Fahrgastzahlen:
Jahr | 2002 | 2005 | 2008 | 2011 |
Fahrgastzahl der Wiener Linien in Millionen | 722,4 | 746,8 | 803,7 | 875,0 |
1. Teilaufgabe - Bearbeitungszeit 5:40
Interpretieren Sie das Ergebnis der folgenden Berechnung im gegebenen Sachzusammenhang:
\(\dfrac{{875,0 - 722,4}}{{722,4}} \approx 0,21\)
[1 Punkt]
Es wird angenommen, dass der Zusammenhang zwischen der Zeit t in Jahren und der Fahrgastzahl der Wiener Linien in Millionen pro Jahr näherungsweise durch eine lineare Funktion beschrieben werden kann.
2. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie eine Gleichung der zugehörigen linearen Regressionsfunktion. Wählen Sie t = 0 für das Jahr 2002.
[1 Punkt]
3. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie mithilfe dieser Regressionsfunktion eine Prognose für die Fahrgastzahl im Jahr 2018.
[1 Punkt]
Aufgabe 4393
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 28. Mai 2020 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
W-LAN - Aufgabe B_475
In einer Fabrikshalle wird mit Access-Points und Repeatern ein W-LAN eingerichtet. Ein Access-Point verbindet einen Laptop kabellos mit einem Netzwerk. Ein Repeater verstärkt das Signal. Die Datenübertragungsrate beschreibt die übertragene Datenmenge pro Zeiteinheit und wird meist in der Einheit Megabit pro Sekunde (Mbit/s) angegeben.
Teil a
Die Datenübertragungsrate zu einem Laptop hängt von seiner Entfernung von einem Access- Point ab. Es wurden folgende Daten erhoben:
Entfernung in m | 2 | 8 | 16 | 30 | 39 | 46 |
Datenübertragungsrate in Mbit/s | 547 | 456 | 400 | 139 | 108 | 25 |
Ein Mitarbeiter geht aufgrund der Messwerte von einem annähernd linearen Zusammenhang für die Datenübertragungsrate in Abhängigkeit von der Entfernung aus.
1. Teilaufgabe - Bearbeitungszeit 5:40
Erklären Sie, warum der zugehörige Korrelationskoeffizient negativ sein muss.
[1 Punkt]
2. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie eine Gleichung der zugehörigen linearen Regressionsfunktion.
[1 Punkt]
3. Teilaufgabe - Bearbeitungszeit 5:40
Interpretieren Sie den Wert der Steigung dieser Funktion im gegebenen Sachzusammenhang.
[1 Punkt]
Schon den nächsten Badeurlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Damit niemand mehr bei Mathe in's Schwimmen kommt!
Aufgabe 4414
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 28. Mai 2020 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Sozialausgaben - Aufgabe B_481
Sozialausgaben sind Geldleistungen, die der Staat Personen in bestimmten Lebenslagen zur Verfügung stellt.
Teil a
Die Sozialausgaben in Österreich für ausgewählte Jahre im Zeitraum von 1990 bis 2015 sind in der nachstehenden Tabelle angegeben (Werte gerundet).
Jahr | Sozialausgaben in Milliarden € |
1990 | 35,5 |
1995 | 51,0 |
2000 | 59,8 |
2005 | 71,2 |
2010 | 87,8 |
2015 | 102,5 |
Datenquelle: Statistik Austria (Hrsg.): Statistisches Jahrbuch Österreichs 2017. Wien: Verlag Österreich 2016, S. 224.
Die Sozialausgaben sollen in Abhängigkeit von der Zeit t in Jahren ab 1990 näherungsweise durch eine lineare Funktion beschrieben werden.
1. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie eine Gleichung der zugehörigen linearen Regressionsfunktion S1. Wählen Sie t = 0 für das Jahr 1990.
[1 Punkt]
2. Teilaufgabe - Bearbeitungszeit 5:40
Interpretieren Sie den Wert der Steigung von S1 im gegebenen Sachzusammenhang.
[1 Punkt]
3. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie mithilfe von S1 eine Prognose für die Sozialausgaben im Jahr 2020.
[1 Punkt]
Aufgabe 4459
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 21. Mai 2021 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Öffentlicher Verkehr in Wien - Aufgabe B_515
Teil c
Personen, die ein öffentliches Verkehrsmittel ohne gültige Fahrkarte benutzen, werden als Schwarzfahrer/innen bezeichnet. In der nachstehenden Tabelle ist der Anteil der Schwarzfahrer/innen in den öffentlichen Verkehrsmitteln in Wien für verschiedene Jahre angegeben.
Jahr | 2012 | 2013 | 2014 | 2015 | 2016 |
Anteil der Schwarzfahrer/innen in Prozent bezogen auf alle kontrollierten Personen | 2,7 | 2,4 | 2,1 | 1,8 | 1,7 |
Datenquelle: https://wien.orf.at/v2/news/stories/2822992/ [27.10.2017].
Der Anteil der Schwarzfahrer/innen in Prozent soll in Abhängigkeit von der Zeit t in Jahren beschrieben werden.
1. Teilaufgabe - Bearbeitungszeit 5:40
Ermitteln Sie mithilfe der Regressionsrechnung eine Gleichung der zugehörigen linearen Funktion f. Wählen Sie t = 0 für das Jahr 2012.
[0 / 1 P.]
In der nachstehenden Abbildung ist der Graph der Regressionsfunktion f dargestellt.
2. Teilaufgabe - Bearbeitungszeit 5:40
Tragen Sie in der obigen Abbildung die fehlenden Zahlen in die dafür vorgesehenen Kästchen ein. [0 / 1 P.]
Aufgabe 4487
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 17. September 2021 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Kino - Aufgabe B_519
Teil b
Die nachstehende Tabelle gibt die jährlichen Nettoeinnahmen aller Kinos in Österreich für einige Jahre an.
Jahr |
2005 |
2006 |
2011 |
2012 |
2015 |
jährliche Nettoeinnahmen in Millionen Euro |
94,8 |
104,3 |
115,7 |
118,5 |
127,2 |
Jahr | 2005 | 2006 | 2011 | 2012 | 2015 |
jährliche Nettoeinnahmen in Millionen Euro | 94,8 | 104,3 | 115,7 | 118,5 | 127,2 |
Datenquelle: https://www.statistik.at/web_de/statistiken/menschen_und_gesellschaft/k… [04.08.2021].
Die jährlichen Nettoeinnahmen in Millionen Euro sollen in Abhängigkeit von der Zeit t durch die lineare Funktion f beschrieben werden.
1. Teilaufgabe - Bearbeitungszeit 05:40
Stellen Sie mithilfe der Regressionsrechnung eine Gleichung der linearen Funktion f auf.
Wählen Sie t = 0 für das Jahr 2005.
[0 / 1 P.]
2. Teilaufgabe - Bearbeitungszeit 05:40
Interpretieren Sie den Wert der Steigung von f im gegebenen Sachzusammenhang.
[0 / 1 P.]
3. Teilaufgabe - Bearbeitungszeit 05:40
Zeichnen Sie im nachstehenden Koordinatensystem den Graphen von f ein.
[0 / 1 P.]
Aufgabe 4511
Standardisierte kompetenzorientierte schriftliche Reifeprüfung Angewandte Mathematik
Quelle: BHS Matura vom 17. September 2021 - Teil-B Aufgabe
Angabe mit freundlicher Genehmigung vom Bundesministerium für Bildung; Lösungsweg: Maths2Mind
Zinsentwicklung - Aufgabe B_528
Die Zinssätze für Kredite und Spareinlagen unterliegen zeitabhängigen Schwankungen.
Teil a
Der Zinssatz für einen Kredit bei einer Bank ist unter anderem auch davon abhängig, welchen Verwendungszweck dieser hat. Konsumkredite dienen der Finanzierung von Konsumgütern oder Dienstleistungen. Immobilienkredite dienen der Wohnbaufinanzierung. In der nachstehenden Tabelle ist die Entwicklung der Zinssätze für beide Verwendungszwecke im Zeitraum von 2000 bis 2004 in Österreich dargestellt.
Jahr | 2000 | 2001 | 2002 | 2003 | 2004 |
Zinssatz für Konsumkredite in % p.a. | 6,63 | 6,69 | 6,06 | 5,42 | 5,18 |
Zinssatz für Immobilienkredite in % p.a. | 5,87 | 5,93 | 5,35 | 4,41 | 3,90 |
Datenquelle: https://www.oenb.at/Statistik/Standardisierte-Tabellen/zinssaetze-und wechselkurse/Zinssaetze-der-Kreditinstitute.html [04.08.2021].
1. Teilaufgabe - Bearbeitungszeit 05:40
Stellen Sie eine Gleichung der Regressionsgeraden für den Zusammenhang zwischen dem Zinssatz für Konsumkredite x und dem Zinssatz für Immobilienkredite y im angegebenen Zeitraum auf.
[0 / 1 P.]
2. Teilaufgabe - Bearbeitungszeit 05:40
Beurteilen Sie mithilfe des Korrelationskoeffizienten, ob die Regressionsgerade ein geeignetes Modell darstellt, um diesen Zusammenhang zu beschreiben.
[0 / 1 P.]
Der Zinssatz im Jahr 2005 betrug für Konsumkredite 4,89 % p. a. und für Immobilienkredite 3,58 % p. a.
3. Teilaufgabe - Bearbeitungszeit 05:40
Berechnen Sie die Differenz zwischen dem tatsächlichen Zinssatz für Immobilienkredite im Jahr 2005 und dem mithilfe der Regressionsgeraden ermittelten entsprechenden Zinssatz.
[0 / 1 P.]
Schon den nächsten Badeurlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Damit niemand mehr bei Mathe in's Schwimmen kommt!