Beschreibende Statistik - Lagemaße
Hier findest du folgende Inhalte
Formeln
Beschreibende bzw. deskriptive Statistik
Die beschreibende bzw. deskriptive Statistik stellt große Datenmengen (Vollerhebung, Grundgesamtheit) übersichtlich dar und verdichtet diese, damit charakteristische Eigenschaften der Datenmenge durch einfache Kennzahlen ausgedrückt werden können. Bei den statistischen Kennzahlen unterscheidet man zwischen Lage- und Streumaßen
Lagemaße:
Die Lagemaße geben Auskunft zur zentralen Tendenz, darüber wo sich die Werte konzentrieren.
- Modalwert = Modus
- Arithmetisches Mittel
- Gewichtetes / gewogenes arithmetisches Mittel
- Geometrisches Mittel
- Median =Zentralwert
- Quantil
Streuungsmaße:
Die Steuungsmaße geben Auskunft über die Breite der Verteilung, also zur Variabilität der Werte.
- Spannweite
- Lineare Abweichung
- Varianz
- Standardabweichung
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung in Ruhe entspannen
Datenerhebung für statistische Aussagen
Bei der Datenerhebung für statistische Aussagen hat sich folgende Terminologie etabliert:
statistische Einheit
Eine statistische Einheit, auch Erhebungseinheit genannt, ist ein einzelnes Element der Grundgesamtheit (z.B. Herr Max Mustermann).
Grundgesamtheit G
Die Grundgesamtheit G ist die Menge aller Elemente / aller Erhebungseinheiten, auf die sich eine statistische Auswertung bezieht. (z.B.: Alle Österreicher)
Stichprobe
Die Stichprobe ist eine repräsentative Teilmenge, die der Grundgesamtheit zufällig entnommen wurde. (z.B.: 20 zufällig ausgewählte Österreicher). Sie gilt als repräsentativ, wenn sie die typischen Merkmale der Grundgesamtheit repräsentiert.
Stichprobenumfang n
Der Umfang n der Stichprobe entspricht der Anzahl der erhobenen Einheiten. Der Stichprobenumfang soll so gewählt werden, dass lediglich eine möglichst kleine Teilmenge der Grundgesamtheit zu untersuchen ist, die Aussagen aber dennoch für die Grundgesamtheit repräsentativ sind.
Merkmal X, Y
Ein Merkmal X, Y ist jene Eigenschaft der statistischen Einheit, die untersucht werden soll (z.B.: die Körpergröße, Geschlecht). Bei einer Erhebung entspricht einem Merkmal eine Frage. (z.B.: Wie groß sind Sie?,...) Merkmale nehmen unterschiedliche Merkmalsausprägungen an.
Nominales Merkmal
Ein nominales Merkmal ist ein konkret benennbares qualitatives Merkmal (z.B.: Rindsschnitzel, Schweinsschnitzel, Hühnerschnitzel,...)
Ordinales Merkmal
Ein ordinales Merkmal entspricht einem Rang in einer Ordnung (z.B.: Schulnoten 1 .. 5)
Metrisches Merkmal
Ein metrisches Merkmal ist ein quantitatives Merkmal, von dem es ein Bezugsmaß und Vielfache oder Teiler gibt. (z.B.: die PS-Zahl eines Fahrzeugs: 0,1PS, 1PS, 100PS)
Merkmalsausprägung x1, x2,..., y1, y2,...
Eine Merkmalsausprägung x1, x2, x3 …x1, x2, x3 … ist eine ganz bestimmte Eigenschaft, die eines der Merkmale X, Y annehmen kann. Durch eine Messung wird eine Merkmalsausprägung einem Skalenwert zugeordnet. Die Merkmalsausprägung ist der gemessene Wert vom Merkmal (z.B.: X1=180 cm, Y1=männlich). Bei einer Erhebung entspricht die Merkmalsausprägung einer tatsächlich gegebenen Antwort auf die Frage nach dem Merkmal. (z.B.: Ich bin 1,80 m groß)
Stetiges Merkmal
Ein stetiges Merkmal liegt vor, wenn die Merkmalsausprägung jeden Wert innerhalb eines Intervalls annehmen kann (z.B.: 180,1cm, 180,15cm, 180,157cm,...)
Diskretes Merkmal
Ein diskretes Merkmal liegt vor, wenn die Merkmalsausprägung nur bestimmte Werte annehmen kann (z.B.: männlich, weiblich, divers)
Nullhypothese H0
Eine Hypothese ist eine Aussage über den Zusammenhang von mindestens zwei Merkmalen einer statistischen Beobachtung, die über das aktuelle Wissen hinaus geht und eine Vermutung beinhaltet, die oft nicht direkt belegt werden kann.
Beim Test einer Hypothese stellt man eine Nullhypothese H0 und eine Gegenhypothese H1 dazu auf.
Die Nullhypothese H0, ist eine Annahme in einem Hypothesentest die besagt, dass es keinen signifikanten Zusammenhang zwischen untersuchten Variablen gibt. Sie wird aufgestellt, um zu prüfen, ob es ausreichende Beweise gibt, um sie abzulehnen um dann die Alternativhypothese, die sehr wohl einen signifikanten Zusammenhang zwischen untersuchten Variablen postuliert, zu akzeptieren.
Dann muss ein Signifikanzniveau \(\alpha\) dafür vorgegeben sein, dass man die Nullhypothese irrtümlich verwirft, obwohl sie zutreffen ist. Ein typisches Signifikanzniveau ist 0,05 (5%). Wenn das Ergebnis vom Hypothesentest einen p-Wert kleiner als das Signifikanzniveau ergibt, lehnt man die Nullhypothese ab.
Beim Hypothesentest unterscheidet man:
- Fehler 1. Art: Man verwirft die Nullhypothese irrtümlich, obwohl sie zutrifft und akzeptiert die (falsche) Gegenhypothese. Man schützt sich vor einem Fehler 1. Art, indem man das Signifikanzniveau absenkt.
- Fehler 2. Art: Man hält an der Nullhypothese fest, obwohl sie nicht zutrifft. Man kann die Wahrscheinlichkeit für einen Fehler 2. Art minimieren, indem man eine ausreichend große Stichprobe verwendet.
Kumulative Verteilungsfunktion
Die kumulative Verteilungsfunktion einer binomialverteilten Zufallsvariablen gibt die Wahrscheinlichkeit an, dass die Zufallsvariable X einen Wert kleiner oder gleich einem bestimmten Wert annimmt. Die kumulative Verteilungsfunktion einer binomialverteilten Zufallsvariablen kann verwendet werden, um Wahrscheinlichkeiten von Ereignissen zu bestimmen, wie zum Beispiel die Wahrscheinlichkeit, dass die Anzahl der Erfolge kleiner oder gleich einer bestimmten Zahl ist oder, dass die Anzahl der Erfolge innerhalb eines bestimmten Intervalls liegt. Die Wahrscheinlichkeit für einen Erfolg wird als p bezeichnet und die Anzahl der Versuche als n.
Für die kumulative Verteilungsfunktion einer nach B(n, p) binomialverteilten Zufallsvariablen gilt:
\(F_p^n\left( k \right) = P_p^n\left( {X \le k} \right) = \sum\limits_{i = 0}^k {B\left( {n;p;i} \right) = \sum\limits_{i = 0}^k {\left( {\begin{array}{*{20}{c}} n\\ i \end{array}} \right)} } \cdot {p^i} \cdot {\left( {1 - p} \right)^{n - i}}\)
Die Berechnung ist zeitaufwändig, weshalb man die Wahrscheinlichkeit aus einer Statistiktabelle herausliest oder mittels Software ermittelt.
Schließende Statistik
Die schließende Statistik ermöglicht es von einer (kleinen) Stichprobe auf die (große) Grundgesamtheit G zu schließen.
Beschreibende Statistik
Die beschreibende Statistik beschreibt die Grundgesamtheit einer Vollerhebung durch charakteristische Kennzahlen (Lage- und Streumaße)
Explorative Statistik
Die explorative Statistik beschäftigt sich mit der Analyse großer Datenmengen, wobei vor der Analyse keine Zusammenhänge zwischen den einzelnen Daten bekannt sind.
Urliste
Die Urliste beinhaltet die noch ungeordneten Daten, so wie sie bei der Erhebung erfasst wurden.
Geordnete Urliste
Zur Erleichterung der Auswertung werden die Daten der Urliste nach charakteristischen Merkmalen systematisch angeordnet.
Skalen
Skalen stellen die verschiedenen Merkmalsausprägungen vergleichend gegenüber
Nominalskala
Die Nominalskala dient der Klassifizierung qualitativer Merkmale. Die Merkmalsausprägungen sind verschiedenen (beliebigen) Zahlen zugeordnet. Es gibt keine Rangfolge zwischen den Ausprägungen (z.B. Staatsbürgerschaft: 1=Österreich, 2=Deutsch, 3=Schweiz). Es kann eine Aussage über Gleichheit oder Verschiedenheit der Merkmalsausprägung getroffen werden.
Rang- oder Ordinalskala
Die Rang- oder Ordinalskala wird verwendet, wenn eine Rangordnung der Merkmalsausprägungen vorhanden ist. Je höher der Messwert, umso ausgeprägter ist die spezifische Eigenschaft, aber die Abstände zwischen den Messwerten sind nicht aussagekräftig. (z.B. Prestige von Schülern einer Klassengemeinschaft: Schüler A genießt sehr hohes Prestige = 10, Schüler B hat weniger Prestige = 2). Die zugeordnete Zahl bildet nur die Ordnung ab, ist sonst aber willkürlich. Es kann eine Aussage über Gleichheit oder Verschiedenheit und über Größer-Kleiner Beziehung getroffen werden.
Metrische- oder Kardinalskala
Die Metrische- oder Kardinalskala wird verwendet, wenn quantitativ messbare Merkmalsausprägungen vorliegen. Man unterscheidet dabei noch ob die Skala einen natürlichen Nullpunkt besitzt oder nicht sowie ob die Skalen eine natürliche Einheit haben oder nicht. Es ist eine Rangordnung der Messwerte vorhanden und deren Differenzen sind aussagekräftig. (z.B. ist die Differenz zwischen 90 € und 80 € und die Differenz zwischen 50 € und 40 € jeweils 10 €, und diese 10 € entsprechen in beiden Fällen der selben Kaufkraft (z.B. einer Kinokarte). Es kann eine Aussage über Gleichheit oder Verschiedenheit, über Größer-Kleiner Beziehung getroffen werden und es können die Unterschiede quantifiziert werden.
Lagemaße
Lagemaße sind Kennzahlen, die Auskunft zur zentralen Tendenz geben, wo auf einer vorgegebenen Skala sich die Werte einer Grundgesamtheit konzentrieren.
Häufigkeitsverteilung
Die Häufigkeitsverteilung ist eine Liste, die für jeder Merkmalsausprägung deren Häufigkeit in der Urliste angibt.
Bespiel: Eine Münze wird 10 mal geworfen.
Die Urliste sieht wie folgt aus: (Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl, Kopf)
Ausprägung | absolute Häufigkeit | relative Häufigkeit | prozentuelle Häufigkeit |
Kopf | 6 | 0.6 | 60% |
Zahl | 4 | 0,4 | 40% |
absolute Häufigkeit Hi
Die Summe der Striche in einer Strichliste je Merkmalsausprägung nennt man die absolute Häufigkeit. Absolute Häufigkeiten haben nur dann eine Aussagekraft, wenn man die Gesamtzahl aller Erhebungseinheiten ebenfalls anführt. z.B.: 16 von 24 Schülern haben eine positive Schularbeitsnote erhalten. Addiert man alle einzelnen absoluten Häufigkeiten Hi, so erhält man die Gesamtzahl n aller Erhebungseinheiten bzw. den Umfang der Stichprobe.
\(\begin{array}{l} H\left( {{x_1}} \right),H\left( {{x_2}} \right),...,H\left( {{x_k}} \right)\\ {H_1} + {H_2} + ... + {H_k} = n \end{array}\)
relative Häufigkeit hi
Die relative Häufigkeit hi bzw. der Anteil je Merkmalsausprägung an der Gesamtzahl aller Erhebungseinheiten erhält man, indem man die jeweilige absolute Häufigkeit Hi auf die Gesamtzahl n bezieht (also in Relation setzt, mathematisch durch Division). z.B.: 16 von 24 Schülern sind 0,67. Addiert man alle einzelnen relativen Häufigkeiten hi, so erhält man 1.
\(\begin{array}{l} {h_1},{h_2},...,{h_k}\\ {h_i} = \dfrac{{{H_i}}}{n} \end{array}\)
prozentuelle Häufigkeit hi
Multipliziert man die relative Häufigkeit hi mit 100, so erhält man die prozentuelle Häufigkeit. Da die prozentuelle Häufigkeit die relative Häufigkeit in %-ausgedrückt ist, verwendet man ebenfalls hi als Formelzeichen. z.B.: 16 von 24 Schülern sind 67%. Addiert man alle einzelnen prozentuellen Häufigkeiten hi, so erhält man den Wert 100 (entsprechend 100% bei der relativen Häufigkeit).
\({h_i}\left[ \% \right] = {h_i} \cdot 100\)
Prozentpunkte
Die Änderung der prozentuellen Häufigkeit einer Merkmalsausprägung bezeichnet man als Prozentpunkt.
\(\Delta {h_i} = {h_{i,neu}} - {h_{i,alt}}\)
Beispiel:
Haben bei der nächsten Schularbeit 17 statt der 16 der 24 Schüler eine positive Note, so ist die
- absolute Änderung 1 (Schüler),
- bei der 1. Schularbeit hatten 67% (16 von 24) eine positive Note, bei der nächsten Schularbeit hatten 71% (17 von 24) eine positive Note
- die prozentuelle Änderung beträgt 4 Prozentpunkte (nunmehr 71% statt bisher 67% prozentueller Häufigkeit)
Durch die Angabe von 4 Prozentpunkten vermeidet damit eine Verwechslung zwischen der Änderung um 4% und der prozentuellen Häufigkeit von 71%. Beides sind ja Prozentwerte.
Modus bzw. Modalwert m
Der Modus bzw. Modalwert m ist jener Wert, der am häufigsten in einer Datenreihe (in einer Stichprobe) vorkommt. Der Modalwert wird durch Abzählen der einzelnen gemessenen Werte xi der Datenreihe gebildet.
Arithmetisches Mittel
Das arithmetische Mittel bzw. der Durchschnitt, ist ein Lagemaß, welches sich aus der Summe aller erhobenen Werte, direkt aus der Urliste, dividiert durch die Anzahl der Werte errechnet.
\(\overline x = \dfrac{{{x_1} + {x_2} + ...{x_n}}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{x_i}}\)
\(\overline x\) ... gesprochen als "x quer"
Der arithmetische Mittelwert, auch als Durchschnittswert bezeichnet, ist das wichtigste Zentralmaß in der beschreibenden Statistik. Man spricht von einem ungewichteten Mittelwert, da alle gemessenen Werte xi mit dem gleichen Gewicht 1/n in den Mittelwert eingehen. Die Summe aller Abweichungen der einzelnen Stichproben vom arithmetischen Mittelwert heben sich auf und sind daher Null. Große Ausreißer in der Stichprobe, asymmetrische oder mehrgipfelige Verteilungen beeinflussen das arithmetische Mittel sehr stark und führen zu nicht repräsentativen Aussagen.
Getrimmtes arithmetisches Mittel
Um den arithmetischen Mittelwert robuster zu machen, werden beim "getrimmten" arithmetischen Mittel die k kleinsten und die k größten Ausreißer nicht berücksichtigt, wobei: k << n/2 sein muss.
\(\overline x = \dfrac{{{x_1} + {x_2} + ...{x_n}}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{x_i}}\)
Bei einer Trimmung um k=3 bzw. um 3% würden bei einem Datensatz mit n=100 Werte die 3 größten und die 3 kleinsten Werte gestrichen werden, womit in obiger Formel n=94 und x4, x5, ... x96, x97 gilt.
Gewogenes bzw. gewichtetes arithmetisches Mittel
Das gewogene arithmetische Mittel errechnet sich, wenn nicht mehr die Urliste sondern bereits die absoluten Häufigkeiten H(xi) bzw. die relativen Häufigkeiten hi der Ausprägung xi vorliegen.
\(\eqalign{ & \overline x = {{{x_1} \cdot {H_1} + {x_2} \cdot {H_2} + ... + {x_m} \cdot {H_m}} \over n} = {1 \over n}\sum\limits_{i = 1}^m {{x_i} \cdot {H_i}} \cr & \overline x = {x_1} \cdot {h_1} + {x_2} \cdot {h_2} + ... + {x_m} \cdot {H_m} \cr}\)
Die absolute Häufigkeit Hi gibt an, wie viele Elemente mit dem entsprechenden i-ten Merkmal gezählt wurden.
Geometrisches Mittel
Hat man die Beobachtungswerte aus der Urliste gegeben, so bildet man das Produkt der n Stichproben und zieht anschließend die n-te Wurzel. Man erhält das ungewogene geometrische Mittel
\({\overline x _{geom}} = \sqrt[n]{{{x_1} \cdot {x_2} \cdot ... \cdot {x_n}}} = \sqrt[n]{{\prod\limits_{i = 1}^n {{x_i}} }}\)
Gewogenes geometrisches Mittel
Hat man die absoluten H(xi) bzw. die relativen hi Häufigkeiten gegeben, so errechnet sich das gewogene geometrische Mittel wie folgt:
\({\overline x _{geom}} = \sqrt[n]{{{x_1}^{{H_1}} \cdot {x_2}^{{H_2}} \cdot ... \cdot {x_n}^{{N_n}}}} = \sqrt[n]{{\prod\limits_{i = 1}^m {{x_i}^{{H_i}}} }}\)
\({\overline x _{geom}} = {x_1}^{{h_1}} \cdot {x_2}^{{h_2}} \cdot ... \cdot {x_n}^{{h_n}} = \prod\limits_{i = 1}^m {{x_i}^{{h_i}}} \)
Unterschied geometrisches und arithmetisches Mittel
- Das geometrische Mittel errechnet sich über ein Produkt und die anschließende n-te Wurzel, während sich das arithmetische Mittel über eine Summe und durch anschließende Division durch n errechnet.
- Das geometrische Mittel ist kleiner oder gleich dem arithmetischen Mittel. Es wird vorwiegend in den Finanz- und Wirtschaftswissenschaften für Wachstumsfaktoren eingesetzt, etwa zur Berechnung vom Durchschnitt einer prozentuellen Verzinsung.
- Das geometrische Mittel verwendet man, wenn die Stichproben von einander abhängig sind, etwa wie die Kapitalrendite über mehrere Jahre bei unterschiedlicher Verzinsung über die Jahre hinweg. Keiner der gemessenen Werte darf Null oder Negativ sein.
- Das arithmetische Mittel verwendet man, wenn die Stichproben von einander unabhängig sind, etwa wie die Noten bei einer Prüfung von den verschiedenen Schülern der Klasse.
Gleitender Mittelwert
Das gleitende Mittel ist eine Folge von arithmetische Mittelwerten über eine sich ändernde aber gleich groß bleibende Untermenge der insgesamt erhobenen Werte.
Beispiel: Es liegen die Einkommenswerte eines Angestellten je Monat für den Zeitraum von 10 Jahren vor. Der Angestellte will sein jeweiliges Monatsdurchschnittseinkommen kennen. Er berechnet immer die Gehaltssumme der letzen 12 Monate und dividiert diese durch 12. Dann streicht er das am weitesten in der Vergangenheit liegende Monat raus und ergänzt um das zeitlich nächst Monat und rechnet erneut die Gehaltssumme der letzen 12 Monate und dividiert diese durch 12. So erhält er den gleitenden Mittelwert seines Monatseinkommens während des Betrachtungszeitraums. Dieser Wert ist im Vergleich zum Monatseinkommen stark geglättet weil punktuelle Ereignisse (13. Gehalt, Prämie, Sabbatical ...) nicht stark durchschlagen.
Median
Der Median bzw. Zentralwert med ist der in der Mitte stehende Wert xi einer nach aufsteigender Größe geordneten Liste. Der Median teilt die geordnete Liste also in zwei Hälften, mit jeweils der Hälfte der Stichproben links bzw. rechts vom Median.
\(\eqalign{ & {\text{me}}{{\text{d}}_{{\text{n = gerade}}}} = \dfrac{{{x_{\left( {\dfrac{n}{2}} \right)}} + {x_{\left( {\dfrac{n}{2} + 1} \right)}}}}{2} \cr & {\text{me}}{{\text{d}}_{{\text{n = ungerade}}}} = {x_{\left( {\dfrac{{n + 1}}{2}} \right)}} \cr} \)
Quartil, Perzentil und Quantil
Quartile, Perzentile und Quantile sind Lagemaße einer Verteilung und werden in der beschreibenden Statistik verwendet.
Quartil
Quartilen teilen eine nach aufsteigender Größe geordnete Liste in 4 gleich große Viertel.
- Das 1. Quartil q1 ist der Median der unteren Hälfte. Mindestens 25% der Werte sind kleiner oder gleich q1, zugleich sind mindestens 75% der Werte größer oder gleich q1
- Das 2. Quartil q2=z ist der Median selbst. Mindestens 50% der Werte sind kleiner oder gleich q2, zugleich sind mindestens 50% der Werte größer oder gleich q2
- Das 3. Quartil q3 ist der Median der oberen Hälfte. Mindestens 75% der Werte sind kleiner oder gleich q3, zugleich sind mindestens 25% der Werte größer oder gleich q3
Illustration wie 3 Quartile die aufsteigenden Größen in 4 Viertel teilen.
Perzentil
Perzentile teilen eine nach aufsteigender Größe geordnete Liste in 100 gleich große Teile. Perzentile entsprechen also den vertrauten Prozentangaben.
Quantil
Quantile teilen eine nach aufsteigender Größe geordneten Liste in zwei (ungleiche) Teile. Das p-Quantil besagt, dass mindestens p% der Werte kleiner oder gleich einem bestimmten Wert sind und (1-p)% der Werte größer oder gleich diesem Wert sind. Quartile und Perzentile sind "besondere" Quantile.
Beispiel:
geordnete Liste von 10 Werten: 2,3,5,7,8,9,10,12,14,15
- 1. Quartil: 2,5 von 10 Werten --> aufgerundet der 3. Wert --> q1=5
- 2. Quantil; 5. plus 6. Wert halbe --> (8+9)/2=8,5 --> q2=8,5=Median
- 3. Quartil: 7,5 von 10 Werte n --> aufgerundet der 8. Wert --> q3=12
Boxplot
Darstellung einer „Box“ mit je einer „Antenne“ links und rechts von der Box, welche wichtige Lage- und Streumaße grafisch darstellen.
linkes Antennenende | Minimum | Kleinster Wert vom Datensatz |
linker Rand der Box | 1. Quartil \(x = 0,25 \cdot \left( {N + 1} \right)\) | 25% der Werte vom Datensatz sind kleiner gleich diesem Wert |
Strich innerhalb der Box | Median | Der in der Mitte stehende Wert xi einer nach aufsteigender Größe geordneten Liste Bei einer geraden Anzahl: Mittelwert aus linkem und rechten Wert |
rechter Rand der Box | 3. Quartil \(x = 0,75 \cdot \left( {N + 1} \right)\) | 75% der Werte vom Datensatz sind kleiner gleich diesem Wert |
rechtes Antennenende | Maximum | Größter Wert vom Datensatz |
linkes Antennenende bis zum rechten Antennenende | Spannweite | Gesamter Wertebereich vom Datensatz |
Ausdehnung der Box | Interquartilsabstand | Wertebereich, der die mittleren 50% der Werte vom Datensatz umfasst |
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung in Ruhe entspannen