Kombinatorik, Statistik und Data Mining
Hier findest du folgende Inhalte
Formeln
Beschreibende bzw. deskriptive Statistik
Die beschreibende bzw. deskriptive Statistik stellt große Datenmengen (Vollerhebung, Grundgesamtheit) übersichtlich dar und verdichtet diese, damit charakteristische Eigenschaften der Datenmenge durch einfache Kennzahlen ausgedrückt werden können. Bei den statistischen Kennzahlen unterscheidet man zwischen Lage- und Streumaßen
Lagemaße:
Die Lagemaße geben Auskunft zur zentralen Tendenz, darüber wo sich die Werte konzentrieren.
- Modalwert = Modus
- Arithmetisches Mittel
- Gewichtetes / gewogenes arithmetisches Mittel
- Geometrisches Mittel
- Median =Zentralwert
- Quantil
Streuungsmaße:
Die Steuungsmaße geben Auskunft über die Breite der Verteilung, also zur Variabilität der Werte.
- Spannweite
- Lineare Abweichung
- Varianz
- Standardabweichung
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
Schließende Statistik
Die schließende Statistik ermöglicht es von einer (kleinen) Stichprobe auf die (große) Grundgesamtheit G zu schließen.
Stichprobe
Die Stichprobe ist eine repräsentative Teilmenge, die der Grundgesamtheit zufällig entnommen wurde. Sie gilt als repräsentativ, wenn sie die typischen Merkmale der Grundgesamtheit repräsentiert.
Wahrscheinlichkeitsrechnung
Die Wahrscheinlichkeitsrechnung ist die Grundlage der schließenden Statistik. Sie dient dazu, die Ergebnisse von Zufallsexperimenten auszuwerten, da deren Ausgang ja nicht exakt vorhersagbar ist.
Einstufige Zufallsexperimente und deren Wahrscheinlichkeiten
Ein Zufallsexperiment ist ein grundsätzlich beliebig oft wiederholbarer "Versuch", welcher unter identischen Bedingungen zu 2 oder mehreren nicht vorhersagbaren Ergebnissenführt. Dabei ist das zeitlich jeweils nächste Ergebnis unabhängig von den zeitlich vorhergehenden Ergebnissen.
Ergebnismenge \(\Omega\)
Ein Ergebnis ist der spezifische Ausgang von einem Zufallsexperiment. Die Ergebnismenge, auch Ergebnisraum genannt, ist die Menge aller möglichen Ergebnisse Ai eines Zufallsexperiments, die grundsätzlich auftreten können.
\(\Omega = \left\{ {{A_1},{A_2},...,{A_n}} \right\}\)
- Ergebnis eines einmaligen Würfelwurfs: "2 Augen"
- Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Würfeln ist \(\Omega = \left\{ {1;2;3;4;5;6} \right\}\)
- Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Wurf einer Münze ist \(\Omega = \left\{ {{\rm{Kopf;Zahl}}} \right\}\)
- Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Würfeln mit 2 Würfeln ist \(\Omega = \left\{ {\left( {1;1} \right);\left( {1;2} \right);...;\left( {1;6} \right);\left( {2;1} \right);\left( {2;2} \right);....\left( {6;6} \right)} \right\}\)
Ereignismenge \(P\left( \Omega \right)\)
Ereignismengen, auch Ereignisräume genannt, sind Teilmengen der Ergebnismenge.
\(P\left( \Omega \right) = \left\{ {A\left| {A \subseteq \Omega } \right.} \right\}\)
Beispiel Würfel:
- Ergebnismenge: \(\Omega = \left\{ {{1},{2},...,{6}} \right\}\)
- Ereignismenge "nur" die gerade Augenzahl: \(\Omega = \left\{ {{2},{4},{6}} \right\}\)
Elementarereignis
Das Elementarereignis Ai ist eine Teilmenge der Ergebnismenge \(\Omega\) mit genau einem Element.
\({A_i} \in \Omega\)
Zur Veranschaulichung:
Wirft man einen Würfel, so umfasst die Ergebnismenge \(\Omega = \left\{ {1,2,3,4,5,6} \right\}\) genau 6 Elementarereignisse : 1 Auge, 2 Augen, 3 Augen, 4 Augen, 5 Augen, 6 Augen
Gegenereignis
Das Gegenereignis A‘ tritt genau dann ein, wenn das Ereignis A nicht eintritt. Alle Elemente des Ereignisses A und seines Gegenereignisses A‘ ergeben zusammen die Ergebnismenge \(\Omega\).
\(A' + A = \Omega\)
Die Verneinung vom Ereignis E heißt Gegenereignis \(\overline E \). Für ein Ereignis E und sein Gegenereignis \(\overline E \) gilt folgender Zusammenhang:
\(P\left( E \right) = 1 - P\left( {\overline E } \right)\)
Wahrscheinlichkeit
Die Wahrscheinlichkeit ist ein Maß dafür, wie wahrscheinlich der Eintritt eines Ereignisses ist. Bei der wiederholten Durchführung eines Zufallsexperiments tritt eine Abfolge von einzelnen Elementarereignissen Ai auf. Man kann zwar nicht vorhersagen genau welches Elementarereignis als nächstes auftritt, aber man kann eine Aussage darüber machen, wie häufig ein bestimmtes Elementarereignis im Vergleich zu den anderen Elementarereignissen auftritt. Die Wahrscheinlichkeit nach Laplace P(A)=P(X=x) leitet sich aus der Häufigkeit eines bestimmten Elementarereignisses, im Verhältniss zur Häufigkeit aller Elementarereignisse ab.
\(0 \leqslant P\left( A \right) \leqslant 1\) | Die Wahrscheinlichkeit dafür, dass ein beliebiges Elementarereignis eintritt, muss zwischen 0 und 1 liegen |
\(P\left( \Omega \right) = 1\) | Die Wahrscheinlichkeit dafür, dass alle Elementarereignisse eintreten, muss 1 sein. |
Gleichwahrscheinlichkeit
Eine Gleichwahrscheinlichkeit liegt vor, wenn jedes der n Elementarereignisse die gleiche Wahrscheinlichkeit 1/n hat.
Unbedingte Wahrscheinlichkeit P(A)
Die unbedingte Wahrscheinlichkeit gibt an, wie hoch die Wahrscheinlichkeit für den Eintritt eines Ereignisses ist, unabhängig von irgend welchen Vorbedingungen.
Beispiel: Wie hoch ist die Wahrscheinlichkeit, dass morgen in Wien die Temperatur 30° C überschreitet? Antwort: Nieder, weil es nur ca. 30 derartige Hitzetage pro Jahr gibt.
Bedingte Wahrscheinlichkeit P(B│A)
Die bedingte Wahrscheinlichkeit P(B|A) ist die Wahrscheinlichkeit für das Eintreten von B, unter der Voraussetzung (Bedingung), dass bereits das Ereignis A eingetreten ist, also bei von einander stochastisch abhängigen Ereignissen
\(P\left( {{B}\left| {{A}} \right.} \right) = \dfrac{{P\left( {{A} \cap {B}} \right)}}{{P\left( {{A}} \right)}}\)
Obige Formel ist lediglich die umformulierte Multiplikationsregeln für Wahrscheinlichkeiten ("Und Regel").
Beispiel: Heute wird in Wien eine Temperatur von 35° C gemessen. Wie hoch ist die Wahrscheinlichkeit, dass morgen in Wien die Temperatur 30° C überschreitet? Antwort: Hoch, da sich die Klimalage nur alle paar Tage verändert.
Gegenwahrscheinlichkeit
Die Gegenwahrscheinlichkeit vom Ereignis A ist die Wahrscheinlichkeit dafür, dass das Ereignis A nicht eintritt. Oft ist es einfacher die Gegenwahrscheinlichkeit von einem Ereignis auszurechnen und daraus die Wahrscheinlichkeit des Ereignisses selbst zurückzurechnen.
\(\eqalign{ & P\left( {A'} \right) = 1 - P\left( A \right) \cr & P\left( A \right) = 1 - P\left( {A'} \right) \cr}\)
Anmerkung zur Notation:
\(P\left( {A'} \right) = P\left( {\neg A} \right)\)
Bernoulli Experiment
Ein Bernoulli Experiment ist ein Zufallsexperiment, welches
- genau 2 mögliche Ergebnisse hat: Treffer / Niete.
- Die Wahrscheinlichkeit p für einen Treffer oder für eine Niete muss aber keinesfalls 50:50 bzw. 0,5 sein. Die Formel für die Laplace Wahrscheinlichkeit ("günstige" durch "mögliche") gilt auch für Bernoulli Experimente, da diese ja nur ein Sonderfall vom Laplace Experiment sind.
Beispiel: gerade und ungerade Tage im Jänner:
Jeder Tag muss entweder gerade oder ungerade sein, aber es gibt im Jänner 15 gerade aber 16 ungerade Tage.
\(\eqalign{ & P\left( {X = {\text{gerader Tag}}} \right) = \dfrac{{15}}{{31}} \cr & P\left( {X = {\text{ungerader Tag}}} \right) = \dfrac{{16}}{{31}} \cr} \)
Gegenwahrscheinlichkeiten in einem Bernoulli Experiment
Wenn in einem Bernoulli Experiment p die Wahrscheinlichkeit für einen Treffer ist, dann ist 1-p die Wahrscheinlichkeit für eine Niete, man nennt dies die Gegenwahrscheinlichkeit.
Laplace Experiment
Ein Laplace Experiment ist ein Zufallsexperiment, welches n mögliche Ergebnisse hat, wobei die Wahrscheinlichkeit für jedes der n Ergebnisse gleich groß ist. Man spricht dann von der Laplace Wahrscheinlichkeit.
Beispiel für ein Laplace Experiment: Würfelwurf; Es gibt 6 mögliche Elementarereignisse, die die gleiche Wahrscheinlichkeit haben. 1 Auge, 2 Augen, 3 Augen, 4 Augen, 5 Augen, 6 Augen
Laplace Wahrscheinlichkeit
Die Laplace Wahrscheinlichkeit P(E) gibt den relativen Anteil der „günstigen“ Versuchsausgänge zu den „möglichen“ Versuchsausgängen an. Sie ist also eine Maßzahl für die Chance, dass ein bestimmtes Ereignis E bei mehreren möglichen Ereignissen eintritt. Alle Elementarergebnisse / Ausgänge müssen die gleiche Eintrittswahrscheinlichkeit haben.
\(P\left( E \right) = \dfrac{{{\text{Anzahl der günstigen Fälle}}}}{{{\text{Anzahl der möglichen Fälle}}}}\)
wobei: \(0 \leqslant P\left( E \right) \leqslant 1{\text{ und }}P\left( 0 \right) = 0{\text{ sowie P}}\left( \Omega \right) = 1\)
E | Ereignisse A, B |
P(A) | Wahrscheinlichkeit für das Eintreten vom Ereignis A |
P(A)=1 | Das Ereignis tritt sicher ein |
P(A)=0 | Das Ereignis tritt sicher nicht ein |
Datenerhebung für statistische Aussagen
Bei der Datenerhebung für statistische Aussagen hat sich folgende Terminologie etabliert:
statistische Einheit
Eine statistische Einheit, auch Erhebungseinheit genannt, ist ein einzelnes Element der Grundgesamtheit (z.B. Herr Max Mustermann).
Grundgesamtheit G
Die Grundgesamtheit G ist die Menge aller Elemente / aller Erhebungseinheiten, auf die sich eine statistische Auswertung bezieht. (z.B.: Alle Österreicher)
Stichprobe
Die Stichprobe ist eine repräsentative Teilmenge, die der Grundgesamtheit zufällig entnommen wurde. (z.B.: 20 zufällig ausgewählte Österreicher). Sie gilt als repräsentativ, wenn sie die typischen Merkmale der Grundgesamtheit repräsentiert.
Stichprobenumfang n
Der Umfang n der Stichprobe entspricht der Anzahl der erhobenen Einheiten. Der Stichprobenumfang soll so gewählt werden, dass lediglich eine möglichst kleine Teilmenge der Grundgesamtheit zu untersuchen ist, die Aussagen aber dennoch für die Grundgesamtheit repräsentativ sind.
Merkmal X, Y
Ein Merkmal X, Y ist jene Eigenschaft der statistischen Einheit, die untersucht werden soll (z.B.: die Körpergröße, Geschlecht). Bei einer Erhebung entspricht einem Merkmal eine Frage. (z.B.: Wie groß sind Sie?,...) Merkmale nehmen unterschiedliche Merkmalsausprägungen an.
Nominales Merkmal
Ein nominales Merkmal ist ein konkret benennbares qualitatives Merkmal (z.B.: Rindsschnitzel, Schweinsschnitzel, Hühnerschnitzel,...)
Ordinales Merkmal
Ein ordinales Merkmal entspricht einem Rang in einer Ordnung (z.B.: Schulnoten 1 .. 5)
Metrisches Merkmal
Ein metrisches Merkmal ist ein quantitatives Merkmal, von dem es ein Bezugsmaß und Vielfache oder Teiler gibt. (z.B.: die PS-Zahl eines Fahrzeugs: 0,1PS, 1PS, 100PS)
Merkmalsausprägung x1, x2,..., y1, y2,...
Eine Merkmalsausprägung x1, x2, x3 …x1, x2, x3 … ist eine ganz bestimmte Eigenschaft, die eines der Merkmale X, Y annehmen kann. Durch eine Messung wird eine Merkmalsausprägung einem Skalenwert zugeordnet. Die Merkmalsausprägung ist der gemessene Wert vom Merkmal (z.B.: X1=180 cm, Y1=männlich). Bei einer Erhebung entspricht die Merkmalsausprägung einer tatsächlich gegebenen Antwort auf die Frage nach dem Merkmal. (z.B.: Ich bin 1,80 m groß)
Stetiges Merkmal
Ein stetiges Merkmal liegt vor, wenn die Merkmalsausprägung jeden Wert innerhalb eines Intervalls annehmen kann (z.B.: 180,1cm, 180,15cm, 180,157cm,...)
Diskretes Merkmal
Ein diskretes Merkmal liegt vor, wenn die Merkmalsausprägung nur bestimmte Werte annehmen kann (z.B.: männlich, weiblich, divers)
Nullhypothese H0
Eine Hypothese ist eine Aussage über den Zusammenhang von mindestens zwei Merkmalen einer statistischen Beobachtung, die über das aktuelle Wissen hinaus geht und eine Vermutung beinhaltet, die oft nicht direkt belegt werden kann.
Beim Test einer Hypothese stellt man eine Nullhypothese H0 und eine Gegenhypothese H1 dazu auf.
Die Nullhypothese H0, ist eine Annahme in einem Hypothesentest die besagt, dass es keinen signifikanten Zusammenhang zwischen untersuchten Variablen gibt. Sie wird aufgestellt, um zu prüfen, ob es ausreichende Beweise gibt, um sie abzulehnen um dann die Alternativhypothese, die sehr wohl einen signifikanten Zusammenhang zwischen untersuchten Variablen postuliert, zu akzeptieren.
Dann muss ein Signifikanzniveau \(\alpha\) dafür vorgegeben sein, dass man die Nullhypothese irrtümlich verwirft, obwohl sie zutreffen ist. Ein typisches Signifikanzniveau ist 0,05 (5%). Wenn das Ergebnis vom Hypothesentest einen p-Wert kleiner als das Signifikanzniveau ergibt, lehnt man die Nullhypothese ab.
Beim Hypothesentest unterscheidet man:
- Fehler 1. Art: Man verwirft die Nullhypothese irrtümlich, obwohl sie zutrifft und akzeptiert die (falsche) Gegenhypothese. Man schützt sich vor einem Fehler 1. Art, indem man das Signifikanzniveau absenkt.
- Fehler 2. Art: Man hält an der Nullhypothese fest, obwohl sie nicht zutrifft. Man kann die Wahrscheinlichkeit für einen Fehler 2. Art minimieren, indem man eine ausreichend große Stichprobe verwendet.
Kumulative Verteilungsfunktion
Die kumulative Verteilungsfunktion einer binomialverteilten Zufallsvariablen gibt die Wahrscheinlichkeit an, dass die Zufallsvariable X einen Wert kleiner oder gleich einem bestimmten Wert annimmt. Die kumulative Verteilungsfunktion einer binomialverteilten Zufallsvariablen kann verwendet werden, um Wahrscheinlichkeiten von Ereignissen zu bestimmen, wie zum Beispiel die Wahrscheinlichkeit, dass die Anzahl der Erfolge kleiner oder gleich einer bestimmten Zahl ist oder, dass die Anzahl der Erfolge innerhalb eines bestimmten Intervalls liegt. Die Wahrscheinlichkeit für einen Erfolg wird als p bezeichnet und die Anzahl der Versuche als n.
Für die kumulative Verteilungsfunktion einer nach B(n, p) binomialverteilten Zufallsvariablen gilt:
\(F_p^n\left( k \right) = P_p^n\left( {X \le k} \right) = \sum\limits_{i = 0}^k {B\left( {n;p;i} \right) = \sum\limits_{i = 0}^k {\left( {\begin{array}{*{20}{c}} n\\ i \end{array}} \right)} } \cdot {p^i} \cdot {\left( {1 - p} \right)^{n - i}}\)
Die Berechnung ist zeitaufwändig, weshalb man die Wahrscheinlichkeit aus einer Statistiktabelle herausliest oder mittels Software ermittelt.
Schließende Statistik
Die schließende Statistik ermöglicht es von einer (kleinen) Stichprobe auf die (große) Grundgesamtheit G zu schließen.
Beschreibende Statistik
Die beschreibende Statistik beschreibt die Grundgesamtheit einer Vollerhebung durch charakteristische Kennzahlen (Lage- und Streumaße)
Explorative Statistik
Die explorative Statistik beschäftigt sich mit der Analyse großer Datenmengen, wobei vor der Analyse keine Zusammenhänge zwischen den einzelnen Daten bekannt sind.
Urliste
Die Urliste beinhaltet die noch ungeordneten Daten, so wie sie bei der Erhebung erfasst wurden.
Geordnete Urliste
Zur Erleichterung der Auswertung werden die Daten der Urliste nach charakteristischen Merkmalen systematisch angeordnet.
Skalen
Skalen stellen die verschiedenen Merkmalsausprägungen vergleichend gegenüber
Nominalskala
Die Nominalskala dient der Klassifizierung qualitativer Merkmale. Die Merkmalsausprägungen sind verschiedenen (beliebigen) Zahlen zugeordnet. Es gibt keine Rangfolge zwischen den Ausprägungen (z.B. Staatsbürgerschaft: 1=Österreich, 2=Deutsch, 3=Schweiz). Es kann eine Aussage über Gleichheit oder Verschiedenheit der Merkmalsausprägung getroffen werden.
Rang- oder Ordinalskala
Die Rang- oder Ordinalskala wird verwendet, wenn eine Rangordnung der Merkmalsausprägungen vorhanden ist. Je höher der Messwert, umso ausgeprägter ist die spezifische Eigenschaft, aber die Abstände zwischen den Messwerten sind nicht aussagekräftig. (z.B. Prestige von Schülern einer Klassengemeinschaft: Schüler A genießt sehr hohes Prestige = 10, Schüler B hat weniger Prestige = 2). Die zugeordnete Zahl bildet nur die Ordnung ab, ist sonst aber willkürlich. Es kann eine Aussage über Gleichheit oder Verschiedenheit und über Größer-Kleiner Beziehung getroffen werden.
Metrische- oder Kardinalskala
Die Metrische- oder Kardinalskala wird verwendet, wenn quantitativ messbare Merkmalsausprägungen vorliegen. Man unterscheidet dabei noch ob die Skala einen natürlichen Nullpunkt besitzt oder nicht sowie ob die Skalen eine natürliche Einheit haben oder nicht. Es ist eine Rangordnung der Messwerte vorhanden und deren Differenzen sind aussagekräftig. (z.B. ist die Differenz zwischen 90 € und 80 € und die Differenz zwischen 50 € und 40 € jeweils 10 €, und diese 10 € entsprechen in beiden Fällen der selben Kaufkraft (z.B. einer Kinokarte). Es kann eine Aussage über Gleichheit oder Verschiedenheit, über Größer-Kleiner Beziehung getroffen werden und es können die Unterschiede quantifiziert werden.
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
Mehrstufige Zufallsexperimente und deren Wahrscheinlichkeiten
Führt man ein Zufallsexperiment mehrfach hintereinander aus, so spricht man von einem mehrstufigen Zufallsexperiment. Einfache Beispiele dafür sind das mehrfache Werfen einer Münze oder das mehrfache Werfen eines Würfels.
Formel von Bernoulli für Bernoulli-Ketten
Wird ein Bernoulli-Experiment n mal durchgeführt, so spricht man von einer Bernoulli-Kette der Länge n. Die bernoullische Formel gibt die Wahrscheinlichkeit für k Treffer bei n Wiederholungen eines Bernoulli-Experiments - einer sogenannten Bernoulli-Kette - an. Dabei ist für jeden einzelnen der k Treffer, p die Wahrscheinlichkeit für einen Treffer und (1-p) die Wahrscheinlichkeit für eine Niete. Die einzelnen Teilexperimente müssen von einander unabhängig sein. Jedes Einzelexperiment darf nur zwei mögliche Ausgänge haben.
\(P\left( {X = k} \right) = \left( \begin{gathered} n \\ k \\ \end{gathered} \right) \cdot {p^k} \cdot {\left( {1 - p} \right)^{n - k}}\)
P(X=k) | Wahrscheinlichkeit einer Binomialverteilung |
n | Anzahl der Wiederholungen eines Bernoulli-Experiments |
p | Wahrscheinlichkeit für einen Treffer im Bernoulli-Experiment |
k | Anzahl der Treffer bei n Wiederholungen, deren Reihenfolge ist irrelevant |
Beispiel: Würfel (→p=1/6=0,16667) wird 10 Mal geworfen (→n=10). Wie hoch ist die Wahrscheinlichkeit genau 3 Mal zwei Augen zu werfen (→k=3)
\(P\left( {K = 3} \right) = \left( {\begin{array}{*{20}{c}} {10}\\ 3 \end{array}} \right) \cdot {\left( {\dfrac{1}{6}} \right)^3} \cdot {\left( {1 - \dfrac{1}{6}} \right)^{10 - 3}} \approx 0,155 \buildrel \wedge \over = 15,5\% \)
Baumdiagramme
Baumdiagramme unterstützen visuell bei der Berechnung der Wahrscheinlichkeit bei mehrstufigen Zufallsexperimenten. Ein Baumdiagramm besteht aus Knoten und Zweigen. Ein Pfad startet bei einem Knoten, verläuft über einen oder mehrere Zweige und endet in einem Knoten.
Zweigwahrscheinlichkeiten
- Neben jeden Zweig schreibt man die Wahrscheinlichkeit, mit der das vom Zweig repräsentierte Zufallsereignis eintritt.
- Die Wahrscheinlichkeit aller Zweige, die von einem Konten weglaufen, summieren sich immer auf 1.
Pfadregeln bei der Lösung von Aufgaben mittels Baumdiagramm
- Produktregel: Die Wahrscheinlichkeit eines Ereignisses, welches durch einen Pfad dargestellt wird, ist gleich dem Produkt aller Einzelwahrscheinlichkeiten entlang dieses Pfades.
- Summenregel: Die Wahrscheinlichkeit eines Ereignisses, welches durch mehrere Pfade dargestellt wird, ist gleich der Summe aller zugehörigen Pfadwahrscheinlichkeiten
Illustration eines Baumdiagramms
Produktregel für die Wahrscheinlichkeit von unabhängigen Ereignissen ("Und" Regel)
Die Produktregel besagt, dass die Wahrscheinlichkeit eines Ereignisses, welches durch einen Pfad (mehrere Zweige in Serie) dargestellt wird (Pfadwahrscheinlichkeit), gleich ist dem Produkt aller Einzelwahrscheinlichkeiten entlang dieses Pfades. Mit anderen Worten: Sollten A und B unabhängige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass unabhängig voneinander das Ereignis A und auch das Ereignis B eintreten, ist gleich dem Produkt der beiden Einzelwahrscheinlichkeiten.
Das eine und das andere Ereignis treten ein: Schnittmenge:
\(P\left( {A \cap B} \right) = P\left( {A \wedge B} \right) = P\left( {{\text{A und B}}} \right) = P\left( A \right) \cdot P\left( B \right)\)
Merksatz: "Bei unabhängigen Ereignissen ist die Wahrscheinlichkeit von A und B ist gleich der Wahrscheinlichkeit von A mal B"
Beispiel: Ziehen mit Zurücklegen
Produktregeln für die Wahrscheinlichkeit von beliebigen Ereignissen ("Und Regel")
Sollten A und B zwei nicht notwendiger Weise unabhängige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass das Ereignis A und auch das Ereignis B eintreten, ist gleich der Eintrittswahrscheinlichkeit für A mal der Eintrittswahrscheinlichkeit für B, unter der Voraussetzung, dass bereits Ereignis A eingetreten ist.
\(P\left( {{A} \cap {B}} \right) = P\left( {{A}} \right) \cdot P\left( {{B}\left| {{A}} \right.} \right)\)
Beispiel: Ziehen ohne Zurücklegen
Summenregel für die Wahrscheinlichkeit von unabhängigen Ereignissen ("Oder" Regel)
Die Summenregel besagt, dass die Wahrscheinlichkeit eines Ereignisses, welches durch mehrere parallele Pfade dargestellt wird, gleich ist der Summe aller zugehörigen Pfadwahrscheinlichkeiten. Mit anderen Worten: Sollten A und B unvereinbare / disjunkte / einander gegenseitig ausschließende Ereignisse sein, dann gilt wegen \(P\left( {{A} \cap {B}} \right) = 0\) vereinfachend: Die Wahrscheinlichkeit, dass entweder das eine oder das andere von 2 disjunkten Ereignissen eintritt, ist gleich der Summe der Einzelwahrscheinlichkeiten.
Entweder das eine oder das andere Ereignisse tritt ein: Vereinigungsmenge
\(P\left( {A \cup B} \right) = P\left( {A \vee B} \right) = P\left( {{\text{A oder B}}} \right) = P\left( A \right) + P\left( B \right)\)
Nachfolgende Illustration veranschaulicht den Zusammenhang
Summenregeln für Wahrscheinlichkeiten von beliebigen Ereignissen ("Oder Regel")
Sollten A1 und A2 zwei beliebige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass entweder das beliebige Ereignis A eintritt oder das beliebiges Ereignis B eintritt, ist gleich der Summe ihrer Einzelwahrscheinlichkeiten, abzüglich der Wahrscheinlichkeit für das gemeinsame Eintreten beider Ereignisse.
\(P\left( {{A} \cup {B}} \right) = P\left( {{A}} \right) + P\left( {{B}} \right) - P\left( {{A} \cap {B}} \right) = P\left( {{A}} \right) + P\left( {{B}} \right) - P\left( {{A}} \right) \cdot P\left( {{B}} \right)\)
Für drei beliebige - also nicht notwendigerweise disjunkte - Ereignisse gilt:
\(P\left( {A \cup B \cup C} \right) = P\left( A \right) + P\left( B \right) + P\left( C \right) - P\left( {A \cap B} \right) - P\left( {A \cap C} \right) - P\left( {B \cap C} \right) + P\left( {A \cap B \cap C} \right)\)
Nachfolgende Illustration veranschaulicht den Zusammenhang
Satz von Bayes - Formel für die bedingte Wahrscheinlichkeit von B unter der Bedingung A
Die bedingte Wahrscheinlichkeit P(B|A) ist die Wahrscheinlichkeit für das Eintreten von B, unter der Voraussetzung (Bedingung), dass bereits das Ereignis A eingetreten ist, also bei von einander stochastisch abhängigen Ereignissen
\(P\left( {{B}\left| {{A}} \right.} \right) = \dfrac{{P\left( {{A} \cap {B}} \right)}}{{P\left( {{A}} \right)}}\)
Der Satz von Bayes ermöglicht es die bedingte Wahrscheinlichkeit von \(P\left( {{A}\left| {{B}} \right.} \right)\) auszurechnen, wenn nur die umgekehrte bedingte Wahrscheinlichkeit \({P\left( {{B}\left| {{A}} \right.} \right)}\) und die beiden A-Priori-Wahrscheinlichkeiten \({P\left( {{A}} \right)}\) bzw. \({P\left( {{B}} \right)}\) bekannt sind und umgekehrt.
\(\eqalign{ & P\left( {A\left| B \right.} \right) = \dfrac{{P\left( {A \cap B} \right)}}{{P\left( B \right)}} = \cr & = \dfrac{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right)}}{{P\left( B \right)}} = \dfrac{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right)}}{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right) + P\left( {\overline A } \right) \cdot P\left( {B\left| {\overline A } \right.} \right)}} \cr} \)
\(P\left( {{A}\left| {{B}} \right.} \right)\) | Bedingte Wahrscheinlichkeit vom Ereignis A unter der Bedingung, dass Ereignis B schon eingetreten ist |
\({P\left( {{B}\left| {{A}} \right.} \right)}\) | Bedingte Wahrscheinlichkeit vom Ereignis B unter der Bedingung, dass Ereignis A schon eingetreten ist |
\({P\left( {{A}} \right)}\) | A-priori-Wahrscheinlichkeit für den Eintritt vom Ereignis A |
\({P\left( {{B}} \right)}\) | A-priori-Wahrscheinlichkeit für den Eintritt vom Ereignis B |
Vierfeldtafel zur Bestimmung bedingter Wahrscheinlichkeiten
Eine Vierfeldtafel eignet sich zur Bestimmung der Zusammenhänge zweier Ereignisse A und B
- Zuerst erfolgt die Beschriftung vom Ereignis und dem zugehörigen Gegenereignis in der 1. Zeile und der 1. Spalte
- Dann erfolgt die Beschriftung der Wahrscheinlichkeiten vom Ereignis A bzw. B und der Wahrscheinlichkeit vom zugehörigen Gegenereignis in der 4. Zeile und in der 4. Spalte
- Die Wahrscheinlichkeiten der Ereignisse \(A\) und \({\overline A }\) bzw. \(B\) und \({\overline B }\) addieren sich jeweils auf 1, was wir im Feld rechts unten eintragen.
- In die eigentlichen 4 Felder der Vierfeldtafel trägt man letztlich die Wahrscheinlichkeiten der Schnittmengen ein.
\(B\) | \({\overline B }\) | ||
\(A\) | \({P\left( {A \cap B} \right)}\) | \({P\left( {A \cap \overline B } \right)}\) | \({P\left( A \right)}\) |
\({\overline A }\) | \({P\left( {\overline A \cap B} \right)}\) | \({P\left( {\overline A \cap \overline B } \right)}\) | \({P\left( {\overline A } \right)}\) |
\({\sum }\) | \({P\left( B \right)}\) | \({P\left( {\overline B } \right)}\) | 1 |
- Die Wahrscheinlichkeiten in der 4. Zeile errechnet sich aus der Summe der beiden darüber stehenden Wahrscheinlichkeiten
- Die Wahrscheinlichkeiten in der 4. Spalte errechnet sich aus der Summe der beiden links stehenden Wahrscheinlichkeiten
Anstelle von Wahrscheinlichkeiten können in den Felder der Vierfeldtafel auch absoluten Häufigkeiten oder Prozentwerte stehen.
Abhängige bzw. unabhängige Ereignisse:
Zwei Ereignisse A bzw. B sind von einander abhängig, wenn das Eintreten vom Ereignis A das Eintreten vom Ereignis B beeinflusst. Unabhängige Ereignisse kann man einfacher berechnen als von einander abhängige Ereignisse.
Die Ereignisse A und B sind voneinander
- abhängig, wenn gilt: \(P\left( A \right) \cdot P\left( B \right) \ne P\left( {A \cap B} \right)\)
- unabhängig, wenn gilt: \(P\left( A \right) \cdot P\left( B \right) = P\left( {A \cap B} \right)\)
In obiger Vierfeldtafel können wir die 3 Werte wie folgt ablesen:
- P(A) lesen wir in der 1. Zeile in der letzten Zeile ab
- P(B) lesen wir in der 1. Spalte in der letzten Zeile ab
- P(A ∩ B) lesen wir in der 1. Zeile in der 1. Spalte ab
Visualisierung im Baumdiagramm
Satz von der totalen Wahrscheinlichkeit
Der Satz von der totalen Wahrscheinlichkeit ermöglicht es die Einzelwahrscheinlichkeiten aus den bedingten Wahrscheinlichkeiten zu berechnen.
\(\eqalign{ & P\left( A \right) = \sum\limits_{i = 1}^n {P\left( {{B_i}} \right) \cdot P\left( {A\left| {{B_i}} \right.} \right)} \cr & {\text{mit }}{{\text{B}}_1} \cup {B_2} \cup ... \cup {B_n} = \Omega \cr} \)
Beispiel:
n=2:
\(P\left( A \right) = P\left( B \right) \cdot P\left( {A\left| B \right.} \right) + P\left( {\overline B } \right) \cdot P\left( {A\left| {\overline B } \right.} \right)\)
Lagemaße
Lagemaße sind Kennzahlen, die Auskunft zur zentralen Tendenz geben, wo auf einer vorgegebenen Skala sich die Werte einer Grundgesamtheit konzentrieren.
Häufigkeitsverteilung
Die Häufigkeitsverteilung ist eine Liste, die für jeder Merkmalsausprägung deren Häufigkeit in der Urliste angibt.
Bespiel: Eine Münze wird 10 mal geworfen.
Die Urliste sieht wie folgt aus: (Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl, Kopf)
Ausprägung | absolute Häufigkeit | relative Häufigkeit | prozentuelle Häufigkeit |
Kopf | 6 | 0.6 | 60% |
Zahl | 4 | 0,4 | 40% |
absolute Häufigkeit Hi
Die Summe der Striche in einer Strichliste je Merkmalsausprägung nennt man die absolute Häufigkeit. Absolute Häufigkeiten haben nur dann eine Aussagekraft, wenn man die Gesamtzahl aller Erhebungseinheiten ebenfalls anführt. z.B.: 16 von 24 Schülern haben eine positive Schularbeitsnote erhalten. Addiert man alle einzelnen absoluten Häufigkeiten Hi, so erhält man die Gesamtzahl n aller Erhebungseinheiten bzw. den Umfang der Stichprobe.
\(\begin{array}{l} H\left( {{x_1}} \right),H\left( {{x_2}} \right),...,H\left( {{x_k}} \right)\\ {H_1} + {H_2} + ... + {H_k} = n \end{array}\)
relative Häufigkeit hi
Die relative Häufigkeit hi bzw. der Anteil je Merkmalsausprägung an der Gesamtzahl aller Erhebungseinheiten erhält man, indem man die jeweilige absolute Häufigkeit Hi auf die Gesamtzahl n bezieht (also in Relation setzt, mathematisch durch Division). z.B.: 16 von 24 Schülern sind 0,67. Addiert man alle einzelnen relativen Häufigkeiten hi, so erhält man 1.
\(\begin{array}{l} {h_1},{h_2},...,{h_k}\\ {h_i} = \dfrac{{{H_i}}}{n} \end{array}\)
prozentuelle Häufigkeit hi
Multipliziert man die relative Häufigkeit hi mit 100, so erhält man die prozentuelle Häufigkeit. Da die prozentuelle Häufigkeit die relative Häufigkeit in %-ausgedrückt ist, verwendet man ebenfalls hi als Formelzeichen. z.B.: 16 von 24 Schülern sind 67%. Addiert man alle einzelnen prozentuellen Häufigkeiten hi, so erhält man den Wert 100 (entsprechend 100% bei der relativen Häufigkeit).
\({h_i}\left[ \% \right] = {h_i} \cdot 100\)
Prozentpunkte
Die Änderung der prozentuellen Häufigkeit einer Merkmalsausprägung bezeichnet man als Prozentpunkt.
\(\Delta {h_i} = {h_{i,neu}} - {h_{i,alt}}\)
Beispiel:
Haben bei der nächsten Schularbeit 17 statt der 16 der 24 Schüler eine positive Note, so ist die
- absolute Änderung 1 (Schüler),
- bei der 1. Schularbeit hatten 67% (16 von 24) eine positive Note, bei der nächsten Schularbeit hatten 71% (17 von 24) eine positive Note
- die prozentuelle Änderung beträgt 4 Prozentpunkte (nunmehr 71% statt bisher 67% prozentueller Häufigkeit)
Durch die Angabe von 4 Prozentpunkten vermeidet damit eine Verwechslung zwischen der Änderung um 4% und der prozentuellen Häufigkeit von 71%. Beides sind ja Prozentwerte.
Modus bzw. Modalwert m
Der Modus bzw. Modalwert m ist jener Wert, der am häufigsten in einer Datenreihe (in einer Stichprobe) vorkommt. Der Modalwert wird durch Abzählen der einzelnen gemessenen Werte xi der Datenreihe gebildet.
Arithmetisches Mittel
Das arithmetische Mittel bzw. der Durchschnitt, ist ein Lagemaß, welches sich aus der Summe aller erhobenen Werte, direkt aus der Urliste, dividiert durch die Anzahl der Werte errechnet.
\(\overline x = \dfrac{{{x_1} + {x_2} + ...{x_n}}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{x_i}}\)
\(\overline x\) ... gesprochen als "x quer"
Der arithmetische Mittelwert, auch als Durchschnittswert bezeichnet, ist das wichtigste Zentralmaß in der beschreibenden Statistik. Man spricht von einem ungewichteten Mittelwert, da alle gemessenen Werte xi mit dem gleichen Gewicht 1/n in den Mittelwert eingehen. Die Summe aller Abweichungen der einzelnen Stichproben vom arithmetischen Mittelwert heben sich auf und sind daher Null. Große Ausreißer in der Stichprobe, asymmetrische oder mehrgipfelige Verteilungen beeinflussen das arithmetische Mittel sehr stark und führen zu nicht repräsentativen Aussagen.
Getrimmtes arithmetisches Mittel
Um den arithmetischen Mittelwert robuster zu machen, werden beim "getrimmten" arithmetischen Mittel die k kleinsten und die k größten Ausreißer nicht berücksichtigt, wobei: k << n/2 sein muss.
\(\overline x = \dfrac{{{x_1} + {x_2} + ...{x_n}}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{x_i}}\)
Bei einer Trimmung um k=3 bzw. um 3% würden bei einem Datensatz mit n=100 Werte die 3 größten und die 3 kleinsten Werte gestrichen werden, womit in obiger Formel n=94 und x4, x5, ... x96, x97 gilt.
Gewogenes bzw. gewichtetes arithmetisches Mittel
Das gewogene arithmetische Mittel errechnet sich, wenn nicht mehr die Urliste sondern bereits die absoluten Häufigkeiten H(xi) bzw. die relativen Häufigkeiten hi der Ausprägung xi vorliegen.
\(\eqalign{ & \overline x = {{{x_1} \cdot {H_1} + {x_2} \cdot {H_2} + ... + {x_m} \cdot {H_m}} \over n} = {1 \over n}\sum\limits_{i = 1}^m {{x_i} \cdot {H_i}} \cr & \overline x = {x_1} \cdot {h_1} + {x_2} \cdot {h_2} + ... + {x_m} \cdot {H_m} \cr}\)
Die absolute Häufigkeit Hi gibt an, wie viele Elemente mit dem entsprechenden i-ten Merkmal gezählt wurden.
Geometrisches Mittel
Hat man die Beobachtungswerte aus der Urliste gegeben, so bildet man das Produkt der n Stichproben und zieht anschließend die n-te Wurzel. Man erhält das ungewogene geometrische Mittel
\({\overline x _{geom}} = \sqrt[n]{{{x_1} \cdot {x_2} \cdot ... \cdot {x_n}}} = \sqrt[n]{{\prod\limits_{i = 1}^n {{x_i}} }}\)
Gewogenes geometrisches Mittel
Hat man die absoluten H(xi) bzw. die relativen hi Häufigkeiten gegeben, so errechnet sich das gewogene geometrische Mittel wie folgt:
\({\overline x _{geom}} = \sqrt[n]{{{x_1}^{{H_1}} \cdot {x_2}^{{H_2}} \cdot ... \cdot {x_n}^{{N_n}}}} = \sqrt[n]{{\prod\limits_{i = 1}^m {{x_i}^{{H_i}}} }}\)
\({\overline x _{geom}} = {x_1}^{{h_1}} \cdot {x_2}^{{h_2}} \cdot ... \cdot {x_n}^{{h_n}} = \prod\limits_{i = 1}^m {{x_i}^{{h_i}}} \)
Unterschied geometrisches und arithmetisches Mittel
- Das geometrische Mittel errechnet sich über ein Produkt und die anschließende n-te Wurzel, während sich das arithmetische Mittel über eine Summe und durch anschließende Division durch n errechnet.
- Das geometrische Mittel ist kleiner oder gleich dem arithmetischen Mittel. Es wird vorwiegend in den Finanz- und Wirtschaftswissenschaften für Wachstumsfaktoren eingesetzt, etwa zur Berechnung vom Durchschnitt einer prozentuellen Verzinsung.
- Das geometrische Mittel verwendet man, wenn die Stichproben von einander abhängig sind, etwa wie die Kapitalrendite über mehrere Jahre bei unterschiedlicher Verzinsung über die Jahre hinweg. Keiner der gemessenen Werte darf Null oder Negativ sein.
- Das arithmetische Mittel verwendet man, wenn die Stichproben von einander unabhängig sind, etwa wie die Noten bei einer Prüfung von den verschiedenen Schülern der Klasse.
Gleitender Mittelwert
Das gleitende Mittel ist eine Folge von arithmetische Mittelwerten über eine sich ändernde aber gleich groß bleibende Untermenge der insgesamt erhobenen Werte.
Beispiel: Es liegen die Einkommenswerte eines Angestellten je Monat für den Zeitraum von 10 Jahren vor. Der Angestellte will sein jeweiliges Monatsdurchschnittseinkommen kennen. Er berechnet immer die Gehaltssumme der letzen 12 Monate und dividiert diese durch 12. Dann streicht er das am weitesten in der Vergangenheit liegende Monat raus und ergänzt um das zeitlich nächst Monat und rechnet erneut die Gehaltssumme der letzen 12 Monate und dividiert diese durch 12. So erhält er den gleitenden Mittelwert seines Monatseinkommens während des Betrachtungszeitraums. Dieser Wert ist im Vergleich zum Monatseinkommen stark geglättet weil punktuelle Ereignisse (13. Gehalt, Prämie, Sabbatical ...) nicht stark durchschlagen.
Median
Der Median bzw. Zentralwert med ist der in der Mitte stehende Wert xi einer nach aufsteigender Größe geordneten Liste. Der Median teilt die geordnete Liste also in zwei Hälften, mit jeweils der Hälfte der Stichproben links bzw. rechts vom Median.
\(\eqalign{ & {\text{me}}{{\text{d}}_{{\text{n = gerade}}}} = \dfrac{{{x_{\left( {\dfrac{n}{2}} \right)}} + {x_{\left( {\dfrac{n}{2} + 1} \right)}}}}{2} \cr & {\text{me}}{{\text{d}}_{{\text{n = ungerade}}}} = {x_{\left( {\dfrac{{n + 1}}{2}} \right)}} \cr} \)
Quartil, Perzentil und Quantil
Quartile, Perzentile und Quantile sind Lagemaße einer Verteilung und werden in der beschreibenden Statistik verwendet.
Quartil
Quartilen teilen eine nach aufsteigender Größe geordnete Liste in 4 gleich große Viertel.
- Das 1. Quartil q1 ist der Median der unteren Hälfte. Mindestens 25% der Werte sind kleiner oder gleich q1, zugleich sind mindestens 75% der Werte größer oder gleich q1
- Das 2. Quartil q2=z ist der Median selbst. Mindestens 50% der Werte sind kleiner oder gleich q2, zugleich sind mindestens 50% der Werte größer oder gleich q2
- Das 3. Quartil q3 ist der Median der oberen Hälfte. Mindestens 75% der Werte sind kleiner oder gleich q3, zugleich sind mindestens 25% der Werte größer oder gleich q3
Illustration wie 3 Quartile die aufsteigenden Größen in 4 Viertel teilen.
Perzentil
Perzentile teilen eine nach aufsteigender Größe geordnete Liste in 100 gleich große Teile. Perzentile entsprechen also den vertrauten Prozentangaben.
Quantil
Quantile teilen eine nach aufsteigender Größe geordneten Liste in zwei (ungleiche) Teile. Das p-Quantil besagt, dass mindestens p% der Werte kleiner oder gleich einem bestimmten Wert sind und (1-p)% der Werte größer oder gleich diesem Wert sind. Quartile und Perzentile sind "besondere" Quantile.
Beispiel:
geordnete Liste von 10 Werten: 2,3,5,7,8,9,10,12,14,15
- 1. Quartil: 2,5 von 10 Werten --> aufgerundet der 3. Wert --> q1=5
- 2. Quantil; 5. plus 6. Wert halbe --> (8+9)/2=8,5 --> q2=8,5=Median
- 3. Quartil: 7,5 von 10 Werte n --> aufgerundet der 8. Wert --> q3=12
Histogramm der Häufigkeitsverteilung
Ein Histogramm ist eine graphische Darstellung der Häufigkeitsverteilung von in Klassen eingeteilten Daten. Die Klassen können, müssen aber nicht gleich breit sein. Über jeder Klasse wird ein Rechteck errichtet, dessen Fläche (!) proportional zur Häufigkeit dieser Klasse ist. Man benötigt zur Darstellung von Histogrammen also die jeweilige Balkenbreite (Klassenbreite) und die Balkenhöhe (=relativer / prozentueller Anteil der Messwerte). Bei den ähnlich aussehenen Säulen- bzw. Balkendiagramme kommt es nur auf die Höhe vom Balken an, beim Histogramm jedoch auf die Fläche.
- Ehe man ein Histogramm erstellen kann, muss man die N Messwerte der Größe nach ordnen.
- Dann definiert man eine übersichtliche Anzahl von Klassen (diese haben jeweils eine Unter- und eine Obergrenze). Die Klassenbreite bi ist frei wählbar
- Man ordnet alle Messwerte jeweils einer Klasse zu.
- Im letzten Schritt errichtet man über jeder Klasse ein Rechteck, dessen Höhe \({h_i} = \dfrac{{{n_i}}}{N}\) dem relativen (=prozentuellen) Anteil der Messwerte je Klasse entspricht.
Achtung: Verwechsle das Histogramm nicht mit einem Säulendiagramm, das sehr ähnlich aussieht, aber ganz etwas anderes darstellt.
Histogramm | Säulendiagramm | |
Flächenproportionale Darstellung einer Häufigkeitsverteilung. Aneinander angrenzende Rechtecke, mit klassenspezifischer Breite und häufigkeitsspezifischem Flächeninhalt |
Höhenproportionale Darstellung einer Häufigkeitsverteilung Senkrecht auf die x-Achse stehende, nicht aneinander grenzende Säulen mit relevanter Höhe und mit bedeutungslosem Flächeninhalt |
|
Breite macht Aussage über | Klassenbreite | bedeutungslos |
Höhe macht Aussage über | errechnet sich aus Fläche und Breite | proportional zur Häufigkeit der jeweiligen Merkmalsausprägung |
Fläche macht Aussage über | proportional zur Häufigkeit der jeweiligen Klasse | bedeutungslos |
Achtung: Verwechsle die Häufigkeitsverteilung nicht mit der Wahrscheinlichkeitsverteilung
- Häufigkeitsverteilung: Ein Merkmal einer Untersuchungsgesamtheit wird nach bestimmten Kriterien / Ausprägungen ( sogenannten Klassen) geordnet und gezählt. Zur grafischen Veranschaulichung dient das Histogramm.
- Wahrscheinlichkeitsverteilung: Eine Zahl zwischen null (0%) und eins (100%) gibt an, wie sich die Wahrscheinlichkeiten auf die möglichen Zufallsergebnisse verteilen.
Boxplot
Darstellung einer „Box“ mit je einer „Antenne“ links und rechts von der Box, welche wichtige Lage- und Streumaße grafisch darstellen.
linkes Antennenende | Minimum | Kleinster Wert vom Datensatz |
linker Rand der Box | 1. Quartil \(x = 0,25 \cdot \left( {N + 1} \right)\) | 25% der Werte vom Datensatz sind kleiner gleich diesem Wert |
Strich innerhalb der Box | Median | Der in der Mitte stehende Wert xi einer nach aufsteigender Größe geordneten Liste Bei einer geraden Anzahl: Mittelwert aus linkem und rechten Wert |
rechter Rand der Box | 3. Quartil \(x = 0,75 \cdot \left( {N + 1} \right)\) | 75% der Werte vom Datensatz sind kleiner gleich diesem Wert |
rechtes Antennenende | Maximum | Größter Wert vom Datensatz |
linkes Antennenende bis zum rechten Antennenende | Spannweite | Gesamter Wertebereich vom Datensatz |
Ausdehnung der Box | Interquartilsabstand | Wertebereich, der die mittleren 50% der Werte vom Datensatz umfasst |
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
Gleichverteilung - Disparität - Konzentration
Von Gleichverteilung spricht man, wenn jeder Merkmalsträger den gleichen Anteil an der Merkmalssumme auf sich vereint.
Disparität und Konzentration sind Maße für die Ungleichheit bei der Verteilung der Merkmalsumme auf einzelne Merkmalsträger.
- Eine hohe Disparität liegt dann vor, wen ein kleiner %-Anteil der Merkmalsträger einen hohen Anteil an der Merkmalssumme hat. Z.B. welchen Anteil am Gesamteinkommen der Bevölkerung eines Landes die 10% der Reichsten auf sich vereinen.
- Eine hohe Konzentration liegt vor, wenn eine kleine Anzahl an Merkmalsträgern einen hohen Anteil der Merkmalssumme hat. Z.B. welchen Anteil am Gesamteinkommen der Bevölkerung eines Landes die 10.000 der Reichsten auf sich vereinen.
Lorenzkurve
Die Lorenz Kurve ist ein grafisches Maß für die Disparität. Die Fläche zwischen der Lorentzkurve und der Diagonalen (Gerade der Gleichverteilung) wird als Lorentzfläche bezeichnet.
\(Lorenz-Fläche = \dfrac{{n - 1}}{{2n}} - \dfrac{1}{n} \cdot \sum\limits_{i = 1}^{n - 1} {{v_i}} \)
Die Lorentzkurve ist eine graphische Darstellung von Ungleichheiten in der Verteilung von Merkmalsträger (x-Achse, Anteil der Bevölkerung) und zugehöriger Merkmalssumme (y-Achse, Anteil am Einkommen). Die Lorentzkurve geht immer durch die Punkte \(\left( {0\left| 0 \right.} \right)\) und \(\left( {100\left| 100 \right.} \right)\)der Gleichverteilung. Die Ungleichheit kann aus der Abweichung von der Verbindung der Punkte \(\left( {0\left| 0 \right.} \right)\) und \(\left( {100\left| 100 \right.} \right)\) abgelesen werden. Je weiter entfernt, um so ungleicher.
Die Lorentzkurve ist der Streckenzug durch die Punkte \(\left( {0\left| 0 \right.} \right)\), \(\left( {{u_1}\left| {{v_1}} \right.} \right)...\left( {{u_n}\left| {{v_n}} \right.} \right)\) und \(\left( {1\left| 1 \right.} \right)\) mit den summierten Anteilen \({u_j} = \dfrac{j}{n}\) und \({v_j} = \dfrac{{\sum\limits_{i = 1}^j {{x_i}} }}{{\sum\limits_{i = 1}^n {{x_i}} }}\) auf der y-Achse.
Gini-Koeffizient
Der Gini-Koeffizient ist eine Zahl, die der Fläche unter der Gleichverteilungsgeraden und der Lorentzkurve entspricht. Je weiter die Lorentzkurve unter der Gleichverteilungsgeraden liegt, umso größer ist die Fläche, umso ungerechter ist die Verteilung (Disparität) und um so größer ist der Gini-Koeffizient.
\(G = 1 - \dfrac{2}{n} \cdot \left( {\sum\limits_{i = 1}^n {{L_i} - 0,5} } \right)\) | Li ... kumulierte Anteile an der Merkmalsumme |
\(G = 2\int\limits_0^1 {\left( {x - L\left( x \right)} \right)} \,\,dx\) | L(x) ... Lorentzfunktion |
Mathematisch ist der Gini-Koeffizient G der dimensionslose Quotient zweier Flächen. G=(Fläche zwischen der Gleichverteilungsgeraden und der Lorentzkurve) in Relation zur darunter liegenden (Dreiecksfläche zwischen der Gleichverteilungsgeraden und der x-Achse).
- G=0 entspricht einer Gleichverteilung, also fehlender Konzentration bzw. fehlender Disparität.
- \(G \to 1\) entspricht „Einer oder Wenige besitzen fast alles, also hoher Konzentration bzw. hoher Dispersität.
Ein Gini-Koeffizient alleine macht keine Aussagen, denn es gibt kein absolutes Maß dafür, ab wann eine Verteilung „unfair“ wird. Man kann aber mit dem Gini-Koeffizient unterschiedliche Verteilungen einander gegenüberstellen.
Zufallsvariable
Eine Zufallsvariable X ist eine Funktion, die jedem Ergebnis ω vom Ergebnisraum Ω eines Zufallsexperiments eine reelle Zahl x zuordnet.
\(X:\Omega \to R;\,\,\,X:\omega \to X\left( \omega \right) = x\)
Das Ergebnis einfacher Zufallsexperimente ist etwa eine Augenzahl beim Würfeln oder "Kopf" oder "Zahl" beim Werfen einer Münze. Bei komplexeren Zufallsexperimenten ist das Ergebnis vom Experiment meist praktischer Weise eine Zahl. Der Großbuchstabe X steht dabei für die Zufallsvariable und der Kleinbuchstabe x steht für den einen, ganz konkreten Wert, den X annimmt. Man sagt auch, dass x die Zufallsvariable X "realisiert" und dass diese konkrete Realisation mit einer bestimmten Wahrscheinlichkeit eintritt.
Man unterscheidet zwischen
- diskreten Zufallsvariablen, die durch eine Wahrscheinlichkeitsfunktion beschrieben werden
- stetigen Zufallsvariablen, die durch eine Dichtefunktion beschrieben werden
Wahrscheinlichkeitsverteilung
Die Wahrscheinlichkeitsverteilung beschreibt, mit welcher Wahrscheinlichkeit die einzelnen Ergebnisse eines Zufallsexperiments auftreten. Sie lässt sich auf 2 Arten, bei gleichem Informationsgehalt aber unterschiedlicher Darstellung, beschreiben:
Wahrscheinlichkeitsverteilung für diskrete Zufallsvariablen
Für diskrete Zufallsvariablen (Bernoulli Verteilung, Binomialverteilung, Poissonverteilung, hypergeometrische Verteilung) liegt die Wahrscheinlichkeit für das Auftreten von jedem einzelnen Wert zwischen 0 und 1. Die Summe der Einzelwahrscheinlichkeiten beträgt 1 (entsprechend 100%). Die Beschreibung erfolgt durch die
- Wahrscheinlichkeitsfunktion f(x): \(f\left( x \right) = P\left( {X = x} \right)\)
- Verteilungsfunktion F(x): \(F\left( x \right) = P\left( {X \leqslant x} \right) = \sum\limits_{{x_i} \leqslant x} {f\left( {{x_i}} \right)} \)
Wahrscheinlichkeitsverteilung für stetige Zufallsvariablen
Für stetige Zufallsvariablen (Normalverteilung, Gleichverteilung, Exponentialverteilung) beträgt die Wahrscheinlichkeit für das Auftreten jedes einzelnen Werts der Zufallsvariablen exakt Null. Die Beschreibung erfolgt durch die
- Dichtefunktion f(x): \(P\left( {a < X \le b} \right) = \int\limits_a^b {f\left( x \right)} \,\,dx = F\left( b \right) - F\left( a \right)\) wobei \(\int\limits_{ - \infty }^\infty {f\left( x \right)} \,\,{\mathop{\rm dx}\nolimits} = 1\)
- Die Dichtefunktion ist für stetige Zufallsvariablen das Äquivalent zur Wahrscheinlichkeitsfunktion von diskreten Zufallsvariablen. Sie kann nur positive Werte annehmen und die gesamte Fläche unter ihrem Graph hat den Wert 1. Aus der Dichtefunktion f(x) lässt sich keine Wahrscheinlichkeit P(X) ablesen, da die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen konkreten Wert x annimmt immer Null ist. Es gilt also: \(f\left( x \right) \ne P\left( {X = x} \right)\)
- Die Dichtefunktion ist für stetige Zufallsvariablen das Äquivalent zur Wahrscheinlichkeitsfunktion von diskreten Zufallsvariablen. Sie kann nur positive Werte annehmen und die gesamte Fläche unter ihrem Graph hat den Wert 1. Aus der Dichtefunktion f(x) lässt sich keine Wahrscheinlichkeit P(X) ablesen, da die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen konkreten Wert x annimmt immer Null ist. Es gilt also: \(f\left( x \right) \ne P\left( {X = x} \right)\)
- Verteilungsfunktion F(x): \(F\left( x \right) = P\left( {X \leqslant x} \right) = \int\limits_{ - \infty }^x {f\left( t \right)\,\,dt} \)
- Auf der y-Achse der Verteilungsfunktion kann man die Wahrscheinlichkeit \(P\left( {X \le {x_1}} \right)\) ablesen, höchstens den Wert x1 zu erreichen.
Diskrete Zufallsvariable
Die Anzahl der Ergebnisse des Zufallsexperiments ist endlich / abzählbar. Eine diskrete Zufallsvariable ist durch die Angabe ihres Wertebereichs \({x_1},{x_2},...,{x_n}\) und den Einzelwahrscheinlichkeiten fur das Auftreten von jedem Wert des Wertebereichs, also \(P\left( {X = {x_1}} \right) = {p_1},\,\,\,P\left( {X = {x_2}} \right) = {p_2},...P\left( {X = {x_n}} \right) = {p_n}\) vollständig definiert. Man spricht von der Wahrscheinlichkeitsfunktion, welche es nur für diskrete Zufallsvariablen gibt. (Bei stetigen Zufallsvariablen gibt es entsprechend die Dichtefunktion.)
Spezielle Verteilungen diskreter Zufallsvariabler sind
- Bernoulli-Verteilung
- Binomialverteilung (mit Zurücklegen)
- Poissonverteilung
- hypergeometrische Verteilung (ohne Zurücklegen)
Wahrscheinlichkeitsfunktion
Die Wahrscheinlichkeitsfunktion, welche es nur für diskrete Zufallsvariablen gibt, beschreibt eine diskrete Wahrscheinlichkeitsverteilung, indem sie jedem \(x \in {\Bbb R}\) einer Zufallsvariablen X genau eine Wahrscheinlichkeit P aus dem Intervall \(\left[ {0;1} \right]\) zuordnet.
\(f:x \to p\)
\(f:x \to \left\{ {\begin{array}{*{20}{l}} {P\left( {X = {x_i}} \right)}&{für\,\,x = {x_i}}\\ 0&{für\,\,\,x \ne {x_i}} \end{array}} \right.\)
Funktionsgraph der Wahrscheinlichkeitsfunktion
Im Funktionsgraph der Wahrscheinlichkeitsverteilung werden über jedem (diskreten) Wert x die jeweilige Wahrscheinlichkeit P(X=x) dargestellt, wobei die einzelnen Wahrscheinlichkeiten P(X=x) mit Hilfe der Laplace-Wahrscheinlichkeit berechnet werden. Im Stabdiagramm wird über jedem (diskreten) Wert x ein Stab (dünner Balken) aufgetragen, dessen Höhe der jeweilige Wahrscheinlichkeit P(X=x) entspricht.
Verteilungsfunktion
Die Verteilungsfunktion einer diskreten Zufallsvariablen, auch kumulative Verteilfunktion genannt, gibt die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X höchstens den Wert x annimmt.
\(F\left( x \right) = P\left( {X \leqslant x} \right)\)
Sie ist eine monoton steigende Treppenfunktion mit Sprüngen an den Stellen xi und daher nicht stetig. Geometrisch entspricht die Wahrscheinlichkeit P(X=x) der Sprunghöhe der Verteilungsfunktion F(x) an der Stelle x.
F(x) ist für jedes x definiert und nimmt Werte von mindestens 0 bis höchstens 1 an.
\(\eqalign{ & \mathop {\lim }\limits_{x \to - \infty } F(x) = 0 \cr & \mathop {\lim }\limits_{x \to \infty } F(x) = 1 \cr} \)
Darüber hinaus gilt:
\(\eqalign{ & P\left( {X \geqslant x} \right) = 1 - P\left( {X < x} \right) \cr & P\left( {X > x} \right) = 1 - P\left( {X \leqslant x} \right) \cr} \)
Mittelwert einer Vollerhebung bzw. einer Stichprobe
Der arithmetische Mittelwert bezieht sich immer auf die grundsätzlich abzählbare Anzahl n an Durchgängen eines Zufallsexperiments. Er ist definiert als die Summe aller beobachteten Werte dividiert durch die Anzahl der beobachteten Werte.
\(\overline x = \dfrac{1}{n} \cdot \sum\limits_{i = 1}^n {{x_i}} \)
Unterschied Mittelwert und Erwartungswert
Wiederholt man das Zufallsexperiment unendlich oft, geht also \(n \to \infty \), so wird aus dem Mittelwert der Erwartungswert.
Erwartungswert
Der Erwartungswert einer diskreten Zufallsvariablen X, welche die diskreten Werte x1, x2, ..., xn mit den zugehörigen Wahrscheinlichkeiten P(X=x1), P(X=x2), ... P(X=xn) annimmt, errechnet sich aus der Summe der Produkte vom jeweiligen Wert xi und seiner Wahrscheinlichkeit P(X=xi). Merkregel: "Was passiert" mal "mit welcher Wahrscheinlichkeit passiert es".
\(E\left( X \right) = \mu = {x_1} \cdot P\left( {X = {x_1}} \right) + {x_2} \cdot P\left( {X = {x_2}} \right) + ... + {x_n} \cdot P\left( {X = {x_n}} \right) = \sum\limits_{i = 1}^n {{x_i} \cdot P\left( {X = {x_i}} \right)} \)
mit: \(P\left( E \right) = \frac{{{\text{Anzahl günstige Fälle}}}}{{{\text{Anzahl möglicher Fälle}}}}\)
Der Erwartungswert ist ein Maß für die mittlere Lage der Verteilung, und somit ein Lageparameter der beschreibenden Statistik.
- Ist die Wahrscheinlichkeit für jeden Versuch die selbe (z.B. bei binomialverteilten Experimenten), dann ist der Erwartungswert gleich dem arithmetischen Mittel.
- Ist die Wahrscheinlichkeit für jeden Versuch unterschiedlich , dann ist der Erwartungswert gemäß obiger Formel ein gewichtetes arithmetisches Mittel.
Erwartungswert für den Fall dass die diskrete Verteilung eine Binomialverteilung ist,
die nur zwei Werte (Erfolg / Misserfolg) annehmen kann und deren Trefferwahrscheinlichkeit immer p ist:
\(E\left( X \right) = n \cdot p\)
Physikalische Analogie
- Physikalisch entspricht der Erwartungswert dem Schwerpunkt. Man muss sich dabei die Massen R(X=xi) an den Positionen xi entlang vom Zahlenstrahl x platziert vorstellen.
- Physikalisch entspricht die Varianz dem Trägheitsmoment, wenn man den oben beschriebenen Zahlenstrahl um eine Achse dreht, die senkrecht auf den Zahlenstrahl steht und die durch den Schwerpunkt verläuft.
Varianz
Die Varianz einer diskreten Zufallsvariablen ist die mittlere quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert und somit ein Streumaß der beschreibenden Statistik.
\({\sigma _x}^2 = Var\left( X \right) = {\sum\limits_{i = 1}^n {\left( {{x_i} - E\left( x \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right)\)
Verschiebungssatz
Der Verschiebungssatz für diskrete Zufallsvariablen kann den Rechenaufwand für die Berechnung der Varianz verringern, es kann aber zum Verlust von Rechengenauigkeit kommen.
\({\sigma _x}^2 = Var\left( X \right) = E\left( {{X^2}} \right) - E{\left( X \right)^2} = \sum\limits_{i = 1}^n {{x_i}^2 \cdot P\left( {X = {x_i}} \right) - E{{\left( X \right)}^2}} \)
Standardabweichung
Die Varianz hat den Nachteil, als Einheit das Quadrat der Einheit der zugrunde liegenden Zufallsvariablen zu haben. Das ist bei der Standardabweichung (auf Grund der Quadratwurzel) und beim Erwartungswert nicht der Fall.
\({\sigma _x} = \sqrt {Var\left( X \right)} \)
Physikalische Analogie für den Erwartungswert und für die Varianz:
- Physikalisch entspricht der Erwartungswert dem Schwerpunkt. Man muss sich dabei die Massen R(X=xi) an den Positionen xi entlang vom Zahlenstrahl x plaziert vorstellen.
- Physikalisch entspricht die Varianz dem Trägheitsmoment, wenn man den oben beschriebenen Zahlenstrahl um eine Achse dreht, die senkrecht auf den Zahlenstrahl steht und die durch den Schwerpunkt verläuft
Illustration zur Veranschaulichung einer kleinen Varianz:
\(\eqalign{ & {x_1} = 3;\,\,\,\,\,{x_2} = 4;\,\,\,\,\,{x_3} = 5; \cr & P\left( {{x_1}} \right) = 0,2;\,\,\,\,\,P\left( {{x_2}} \right) = 0,6;\,\,\,\,\,P\left( {{x_3}} \right) = 0,2; \cr & E(X) = \mu = \sum\limits_{i = 1}^3 {{x_i} \cdot P\left( {X = {x_i}} \right)} = 3 \cdot 0,2 + 4 \cdot 0,6 + 5 \cdot 0,2 = 4 \cr & Var(X) = {\sum\limits_{i = 1}^3 {\left( {{x_i} - E\left( X \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right) = {\left( {3 - 4} \right)^2} \cdot 0,2 + {\left( {4 - 4} \right)^2} \cdot 0,6 + {\left( {5 - 4} \right)^2} \cdot 0,2 = 0,4 \cr} \)
Alternativ errechnet sich die Varianz unter Zuhilfenahme vom Verschiebungssatz wie folgt:
\(Var(X) = \sum\limits_{i = 3}^3 {{x_i}^2 \cdot P\left( {X = {x_i}} \right)} - {\left( {E\left( X \right)} \right)^2} = {3^2} \cdot 0,2 + {4^2} \cdot 0,6 + {5^2} \cdot 0,2 - {4^2} = 0,4\)
Illustration zur Veranschaulichung einer großen Varianz mit dem gleichen Erwartungswert:
\(\eqalign{ & {x_1} = 2;\,\,\,\,\,{x_2} = 4;\,\,\,\,\,{x_3} = 6; \cr & P\left( {{x_1}} \right) = 0,2;\,\,\,\,\,P\left( {{x_2}} \right) = 0,6;\,\,\,\,\,P\left( {{x_3}} \right) = 0,2; \cr & E(X) = \mu = \sum\limits_{i = 1}^3 {{x_i} \cdot P\left( {X = {x_i}} \right)} = 2 \cdot 0,2 + 4 \cdot 0,6 + 6 \cdot 0,2 = 4 \cr & Var(X) = {\sum\limits_{i = 1}^3 {\left( {{x_i} - E\left( X \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right) = {\left( {2 - 4} \right)^2} \cdot 0,2 + {\left( {4 - 4} \right)^2} \cdot 0,6 + {\left( {6 - 4} \right)^2} \cdot 0,2 = 1,6 \cr} \)
Alternativ errechnet sich die Varianz unter Zuhilfenahme vom Verschiebungssatz wie folgt:
\(Var(X) = \sum\limits_{i = 3}^3 {{x_i}^2 \cdot P\left( {X = {x_i}} \right)} - {\left( {E\left( X \right)} \right)^2} = {2^2} \cdot 0,2 + {4^2} \cdot 0,6 + {6^2} \cdot 0,2 - {4^2} = 1,6\)