Kombinatorik, Statistik und Data Mining

Wahrscheinlichkeitsrechnung

Schließende Statistik

Die schließende Statistik ermöglicht es von einer (kleinen) Stichprobe auf die (große) Grundgesamtheit G zu schließen.

Stichprobe

Die Stichprobe ist eine repräsentative Teilmenge, die der Grundgesamtheit zufällig entnommen wurde. Sie gilt als repräsentativ, wenn sie die typischen Merkmale der Grundgesamtheit repräsentiert.

Wahrscheinlichkeitsrechnung

Die Wahrscheinlichkeitsrechnung ist die Grundlage der schließenden Statistik. Sie dient dazu, die Ergebnisse von Zufallsexperimenten auszuwerten, da deren Ausgang ja nicht exakt vorhersagbar ist.

Schließende Statistik

Einstufige Zufallsexperimente und deren Wahrscheinlichkeiten

Ein Zufallsexperiment ist ein grundsätzlich beliebig oft wiederholbarer "Versuch", welcher unter identischen Bedingungen zu 2 oder mehreren nicht vorhersagbaren Ergebnissenführt. Dabei ist das zeitlich jeweils nächste Ergebnis unabhängig von den zeitlich vorhergehenden Ergebnissen.

Ergebnismenge \(\Omega\)

Ein Ergebnis ist der spezifische Ausgang von einem Zufallsexperiment. Die Ergebnismenge, auch Ergebnisraum genannt, ist die Menge aller möglichen Ergebnisse A_i eines Zufallsexperiments, die grundsätzlich auftreten können.

\(\Omega = \left\{ {{A_1},{A_2},...,{A_n}} \right\}\)

Ergebnis eines einmaligen Würfelwurfs: "2 Augen"
Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Würfeln ist \(\Omega = \left\{ {1;2;3;4;5;6} \right\}\)
Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Wurf einer Münze ist \(\Omega = \left\{ {{\rm{Kopf;Zahl}}} \right\}\)
Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Würfeln mit 2 Würfeln ist \(\Omega = \left\{ {\left( {1;1} \right);\left( {1;2} \right);...;\left( {1;6} \right);\left( {2;1} \right);\left( {2;2} \right);....\left( {6;6} \right)} \right\}\)

Ereignismenge \(P\left( \Omega \right)\)

Ereignismengen, auch Ereignisräume genannt, sind Teilmengen der Ergebnismenge.

\(P\left( \Omega \right) = \left\{ {A\left| {A \subseteq \Omega } \right.} \right\}\)

Beispiel Würfel:

Ergebnismenge: \(\Omega = \left\{ {{1},{2},...,{6}} \right\}\)
Ereignismenge "nur" die gerade Augenzahl: \(\Omega = \left\{ {{2},{4},{6}} \right\}\)

Elementarereignis

Das Elementarereignis A_i ist eine Teilmenge der Ergebnismenge \(\Omega\) mit genau einem Element.

\({A_i} \in \Omega\)

Zur Veranschaulichung:
Wirft man einen Würfel, so umfasst die Ergebnismenge \(\Omega = \left\{ {1,2,3,4,5,6} \right\}\) genau 6 Elementarereignisse : 1 Auge, 2 Augen, 3 Augen, 4 Augen, 5 Augen, 6 Augen

Gegenereignis

Das Gegenereignis A‘ tritt genau dann ein, wenn das Ereignis A nicht eintritt. Alle Elemente des Ereignisses A und seines Gegenereignisses A‘ ergeben zusammen die Ergebnismenge \(\Omega\).
\(A' + A = \Omega\)

Die Verneinung vom Ereignis E heißt Gegenereignis \(\overline E \). Für ein Ereignis E und sein Gegenereignis \(\overline E \) gilt folgender Zusammenhang:
\(P\left( E \right) = 1 - P\left( {\overline E } \right)\)

Wahrscheinlichkeit

Die Wahrscheinlichkeit ist ein Maß dafür, wie wahrscheinlich der Eintritt eines Ereignisses ist. Bei der wiederholten Durchführung eines Zufallsexperiments tritt eine Abfolge von einzelnen Elementarereignissen A_i auf. Man kann zwar nicht vorhersagen genau welches Elementarereignis als nächstes auftritt, aber man kann eine Aussage darüber machen, wie häufig ein bestimmtes Elementarereignis im Vergleich zu den anderen Elementarereignissen auftritt. Die Wahrscheinlichkeit nach Laplace P(A)=P(X=x) leitet sich aus der Häufigkeit eines bestimmten Elementarereignisses, im Verhältniss zur Häufigkeit aller Elementarereignisse ab.

\(0 \leqslant P\left( A \right) \leqslant 1\)	Die Wahrscheinlichkeit dafür, dass ein beliebiges Elementarereignis eintritt, muss zwischen 0 und 1 liegen
\(P\left( \Omega \right) = 1\)	Die Wahrscheinlichkeit dafür, dass alle Elementarereignisse eintreten, muss 1 sein.

Gleichwahrscheinlichkeit

Eine Gleichwahrscheinlichkeit liegt vor, wenn jedes der n Elementarereignisse die gleiche Wahrscheinlichkeit 1/n hat.

Unbedingte Wahrscheinlichkeit P(A)

Die unbedingte Wahrscheinlichkeit gibt an, wie hoch die Wahrscheinlichkeit für den Eintritt eines Ereignisses ist, unabhängig von irgend welchen Vorbedingungen.

Beispiel: Wie hoch ist die Wahrscheinlichkeit, dass morgen in Wien die Temperatur 30° C überschreitet? Antwort: Nieder, weil es nur ca. 30 derartige Hitzetage pro Jahr gibt.

Bedingte Wahrscheinlichkeit P(B│A)

Die bedingte Wahrscheinlichkeit P(B|A) ist die Wahrscheinlichkeit für das Eintreten von B, unter der Voraussetzung (Bedingung), dass bereits das Ereignis A eingetreten ist, also bei von einander stochastisch abhängigen Ereignissen

\(P\left( {{B}\left| {{A}} \right.} \right) = \dfrac{{P\left( {{A} \cap {B}} \right)}}{{P\left( {{A}} \right)}}\)

Obige Formel ist lediglich die umformulierte Multiplikationsregeln für Wahrscheinlichkeiten ("Und Regel").

Beispiel: Heute wird in Wien eine Temperatur von 35° C gemessen. Wie hoch ist die Wahrscheinlichkeit, dass morgen in Wien die Temperatur 30° C überschreitet? Antwort: Hoch, da sich die Klimalage nur alle paar Tage verändert.

Gegenwahrscheinlichkeit

Die Gegenwahrscheinlichkeit vom Ereignis A ist die Wahrscheinlichkeit dafür, dass das Ereignis A nicht eintritt. Oft ist es einfacher die Gegenwahrscheinlichkeit von einem Ereignis auszurechnen und daraus die Wahrscheinlichkeit des Ereignisses selbst zurückzurechnen.

\(\eqalign{ & P\left( {A'} \right) = 1 - P\left( A \right) \cr & P\left( A \right) = 1 - P\left( {A'} \right) \cr}\)

Anmerkung zur Notation:

\(P\left( {A'} \right) = P\left( {\neg A} \right)\)

Bernoulli Experiment

Ein Bernoulli Experiment ist ein Zufallsexperiment, welches

genau 2 mögliche Ergebnisse hat: Treffer / Niete.
Die Wahrscheinlichkeit p für einen Treffer oder für eine Niete muss aber keinesfalls 50:50 bzw. 0,5 sein. Die Formel für die Laplace Wahrscheinlichkeit ("günstige" durch "mögliche") gilt auch für Bernoulli Experimente, da diese ja nur ein Sonderfall vom Laplace Experiment sind.

Beispiel: gerade und ungerade Tage im Jänner:
Jeder Tag muss entweder gerade oder ungerade sein, aber es gibt im Jänner 15 gerade aber 16 ungerade Tage.

\(\eqalign{ & P\left( {X = {\text{gerader Tag}}} \right) = \dfrac{{15}}{{31}} \cr & P\left( {X = {\text{ungerader Tag}}} \right) = \dfrac{{16}}{{31}} \cr} \)

Gegenwahrscheinlichkeiten in einem Bernoulli Experiment

Wenn in einem Bernoulli Experiment p die Wahrscheinlichkeit für einen Treffer ist, dann ist 1-p die Wahrscheinlichkeit für eine Niete, man nennt dies die Gegenwahrscheinlichkeit.

Laplace Experiment

Ein Laplace Experiment ist ein Zufallsexperiment, welches n mögliche Ergebnisse hat, wobei die Wahrscheinlichkeit für jedes der n Ergebnisse gleich groß ist. Man spricht dann von der Laplace Wahrscheinlichkeit.

Beispiel für ein Laplace Experiment: Würfelwurf; Es gibt 6 mögliche Elementarereignisse, die die gleiche Wahrscheinlichkeit haben. 1 Auge, 2 Augen, 3 Augen, 4 Augen, 5 Augen, 6 Augen

Laplace Wahrscheinlichkeit

Die Laplace Wahrscheinlichkeit P(E) gibt den relativen Anteil der „günstigen“ Versuchsausgänge zu den „möglichen“ Versuchsausgängen an. Sie ist also eine Maßzahl für die Chance, dass ein bestimmtes Ereignis E bei mehreren möglichen Ereignissen eintritt. Alle Elementarergebnisse / Ausgänge müssen die gleiche Eintrittswahrscheinlichkeit haben.

\(P\left( E \right) = \dfrac{{{\text{Anzahl der günstigen Fälle}}}}{{{\text{Anzahl der möglichen Fälle}}}}\)

wobei: \(0 \leqslant P\left( E \right) \leqslant 1{\text{ und }}P\left( 0 \right) = 0{\text{ sowie P}}\left( \Omega \right) = 1\)

E	Ereignisse A, B
P(A)	Wahrscheinlichkeit für das Eintreten vom Ereignis A
P(A)=1	Das Ereignis tritt sicher ein
P(A)=0	Das Ereignis tritt sicher nicht ein

Laplace Wahrscheinlichkeit

Bernoulli Experiment

Laplace Experiment

Gegenwahrscheinlichkeit

Wahrscheinlichkeit P

Gleichwahrscheinlichkeit

Bedingte Wahrscheinlichkeit

Skalen verschiedener Merkmalsausprägungen

Datenerhebung für statistische Aussagen

Bei der Datenerhebung für statistische Aussagen hat sich folgende Terminologie etabliert:

statistische Einheit

Eine statistische Einheit, auch Erhebungseinheit genannt, ist ein einzelnes Element der Grundgesamtheit (z.B. Herr Max Mustermann).

Grundgesamtheit G

Die Grundgesamtheit G ist die Menge aller Elemente / aller Erhebungseinheiten, auf die sich eine statistische Auswertung bezieht. (z.B.: Alle Österreicher)

Stichprobe

Die Stichprobe ist eine repräsentative Teilmenge, die der Grundgesamtheit zufällig entnommen wurde. (z.B.: 20 zufällig ausgewählte Österreicher). Sie gilt als repräsentativ, wenn sie die typischen Merkmale der Grundgesamtheit repräsentiert.

Stichprobenumfang n

Der Umfang n der Stichprobe entspricht der Anzahl der erhobenen Einheiten. Der Stichprobenumfang soll so gewählt werden, dass lediglich eine möglichst kleine Teilmenge der Grundgesamtheit zu untersuchen ist, die Aussagen aber dennoch für die Grundgesamtheit repräsentativ sind.

Merkmal X, Y

Ein Merkmal X, Y ist jene Eigenschaft der statistischen Einheit, die untersucht werden soll (z.B.: die Körpergröße, Geschlecht). Bei einer Erhebung entspricht einem Merkmal eine Frage. (z.B.: Wie groß sind Sie?,...) Merkmale nehmen unterschiedliche Merkmalsausprägungen an.

Nominales Merkmal

Ein nominales Merkmal ist ein konkret benennbares qualitatives Merkmal (z.B.: Rindsschnitzel, Schweinsschnitzel, Hühnerschnitzel,...)

Ordinales Merkmal

Ein ordinales Merkmal entspricht einem Rang in einer Ordnung (z.B.: Schulnoten 1 .. 5)

Metrisches Merkmal

Ein metrisches Merkmal ist ein quantitatives Merkmal, von dem es ein Bezugsmaß und Vielfache oder Teiler gibt. (z.B.: die PS-Zahl eines Fahrzeugs: 0,1PS, 1PS, 100PS)

Merkmalsausprägung x₁, x₂,..., y₁, y₂,...

Eine Merkmalsausprägung x₁, x₂, x₃ …x₁, x₂, x₃ … ist eine ganz bestimmte Eigenschaft, die eines der Merkmale X, Y annehmen kann. Durch eine Messung wird eine Merkmalsausprägung einem Skalenwert zugeordnet. Die Merkmalsausprägung ist der gemessene Wert vom Merkmal (z.B.: X₁=180 cm, Y₁=männlich). Bei einer Erhebung entspricht die Merkmalsausprägung einer tatsächlich gegebenen Antwort auf die Frage nach dem Merkmal. (z.B.: Ich bin 1,80 m groß)

Stetiges Merkmal

Ein stetiges Merkmal liegt vor, wenn die Merkmalsausprägung jeden Wert innerhalb eines Intervalls annehmen kann (z.B.: 180,1cm, 180,15cm, 180,157cm,...)

Diskretes Merkmal

Ein diskretes Merkmal liegt vor, wenn die Merkmalsausprägung nur bestimmte Werte annehmen kann (z.B.: männlich, weiblich, divers)

Nullhypothese H₀

Eine Hypothese ist eine Aussage über den Zusammenhang von mindestens zwei Merkmalen einer statistischen Beobachtung, die über das aktuelle Wissen hinaus geht und eine Vermutung beinhaltet, die oft nicht direkt belegt werden kann.

Beim Test einer Hypothese stellt man eine Nullhypothese H₀ und eine Gegenhypothese H₁ dazu auf.

Die Nullhypothese H₀, ist eine Annahme in einem Hypothesentest die besagt, dass es keinen signifikanten Zusammenhang zwischen untersuchten Variablen gibt. Sie wird aufgestellt, um zu prüfen, ob es ausreichende Beweise gibt, um sie abzulehnen um dann die Alternativhypothese, die sehr wohl einen signifikanten Zusammenhang zwischen untersuchten Variablen postuliert, zu akzeptieren.

Dann muss ein Signifikanzniveau \(\alpha\) dafür vorgegeben sein, dass man die Nullhypothese irrtümlich verwirft, obwohl sie zutreffen ist. Ein typisches Signifikanzniveau ist 0,05 (5%). Wenn das Ergebnis vom Hypothesentest einen p-Wert kleiner als das Signifikanzniveau ergibt, lehnt man die Nullhypothese ab.

Beim Hypothesentest unterscheidet man:

Fehler 1. Art: Man verwirft die Nullhypothese irrtümlich, obwohl sie zutrifft und akzeptiert die (falsche) Gegenhypothese. Man schützt sich vor einem Fehler 1. Art, indem man das Signifikanzniveau absenkt.
Fehler 2. Art: Man hält an der Nullhypothese fest, obwohl sie nicht zutrifft. Man kann die Wahrscheinlichkeit für einen Fehler 2. Art minimieren, indem man eine ausreichend große Stichprobe verwendet.

Kumulative Verteilungsfunktion

Die kumulative Verteilungsfunktion einer binomialverteilten Zufallsvariablen gibt die Wahrscheinlichkeit an, dass die Zufallsvariable X einen Wert kleiner oder gleich einem bestimmten Wert annimmt. Die kumulative Verteilungsfunktion einer binomialverteilten Zufallsvariablen kann verwendet werden, um Wahrscheinlichkeiten von Ereignissen zu bestimmen, wie zum Beispiel die Wahrscheinlichkeit, dass die Anzahl der Erfolge kleiner oder gleich einer bestimmten Zahl ist oder, dass die Anzahl der Erfolge innerhalb eines bestimmten Intervalls liegt. Die Wahrscheinlichkeit für einen Erfolg wird als p bezeichnet und die Anzahl der Versuche als n.

Für die kumulative Verteilungsfunktion einer nach B(n, p) binomialverteilten Zufallsvariablen gilt:
\(F_p^n\left( k \right) = P_p^n\left( {X \le k} \right) = \sum\limits_{i = 0}^k {B\left( {n;p;i} \right) = \sum\limits_{i = 0}^k {\left( {\begin{array}{*{20}{c}} n\\ i \end{array}} \right)} } \cdot {p^i} \cdot {\left( {1 - p} \right)^{n - i}}\)

Die Berechnung ist zeitaufwändig, weshalb man die Wahrscheinlichkeit aus einer Statistiktabelle herausliest oder mittels Software ermittelt.

Schließende Statistik

Die schließende Statistik ermöglicht es von einer (kleinen) Stichprobe auf die (große) Grundgesamtheit G zu schließen.

Beschreibende Statistik

Die beschreibende Statistik beschreibt die Grundgesamtheit einer Vollerhebung durch charakteristische Kennzahlen (Lage- und Streumaße)

Explorative Statistik

Die explorative Statistik beschäftigt sich mit der Analyse großer Datenmengen, wobei vor der Analyse keine Zusammenhänge zwischen den einzelnen Daten bekannt sind.

Schließende Statistik

Beschreibende Statistik

Fehler 1. Art Hypothesentest

Fehler 2. Art Hypothesentest

Kumulative Verteilungsfunktion einer binomial verteilten Zufallsvariablen

Skalen verschiedener Merkmalsausprägungen

Urliste

Die Urliste beinhaltet die noch ungeordneten Daten, so wie sie bei der Erhebung erfasst wurden.

Geordnete Urliste

Zur Erleichterung der Auswertung werden die Daten der Urliste nach charakteristischen Merkmalen systematisch angeordnet.

Skalen

Skalen stellen die verschiedenen Merkmalsausprägungen vergleichend gegenüber

Nominalskala

Die Nominalskala dient der Klassifizierung qualitativer Merkmale. Die Merkmalsausprägungen sind verschiedenen (beliebigen) Zahlen zugeordnet. Es gibt keine Rangfolge zwischen den Ausprägungen (z.B. Staatsbürgerschaft: 1=Österreich, 2=Deutsch, 3=Schweiz). Es kann eine Aussage über Gleichheit oder Verschiedenheit der Merkmalsausprägung getroffen werden.

Rang- oder Ordinalskala

Die Rang- oder Ordinalskala wird verwendet, wenn eine Rangordnung der Merkmalsausprägungen vorhanden ist. Je höher der Messwert, umso ausgeprägter ist die spezifische Eigenschaft, aber die Abstände zwischen den Messwerten sind nicht aussagekräftig. (z.B. Prestige von Schülern einer Klassengemeinschaft: Schüler A genießt sehr hohes Prestige = 10, Schüler B hat weniger Prestige = 2). Die zugeordnete Zahl bildet nur die Ordnung ab, ist sonst aber willkürlich. Es kann eine Aussage über Gleichheit oder Verschiedenheit und über Größer-Kleiner Beziehung getroffen werden.

Metrische- oder Kardinalskala

Die Metrische- oder Kardinalskala wird verwendet, wenn quantitativ messbare Merkmalsausprägungen vorliegen. Man unterscheidet dabei noch ob die Skala einen natürlichen Nullpunkt besitzt oder nicht sowie ob die Skalen eine natürliche Einheit haben oder nicht. Es ist eine Rangordnung der Messwerte vorhanden und deren Differenzen sind aussagekräftig. (z.B. ist die Differenz zwischen 90 € und 80 € und die Differenz zwischen 50 € und 40 € jeweils 10 €, und diese 10 € entsprechen in beiden Fällen der selben Kaufkraft (z.B. einer Kinokarte). Es kann eine Aussage über Gleichheit oder Verschiedenheit, über Größer-Kleiner Beziehung getroffen werden und es können die Unterschiede quantifiziert werden.

Urliste

Geordnete Urliste

Mehrstufige Zufallsexperimente und deren Wahrscheinlichkeiten

Führt man ein Zufallsexperiment mehrfach hintereinander aus, so spricht man von einem mehrstufigen Zufallsexperiment. Einfache Beispiele dafür sind das mehrfache Werfen einer Münze oder das mehrfache Werfen eines Würfels.

Formel von Bernoulli für Bernoulli-Ketten

Wird ein Bernoulli-Experiment n mal durchgeführt, so spricht man von einer Bernoulli-Kette der Länge n. Die bernoullische Formel gibt die Wahrscheinlichkeit für k Treffer bei n Wiederholungen eines Bernoulli-Experiments - einer sogenannten Bernoulli-Kette - an. Dabei ist für jeden einzelnen der k Treffer, p die Wahrscheinlichkeit für einen Treffer und (1-p) die Wahrscheinlichkeit für eine Niete. Die einzelnen Teilexperimente müssen von einander unabhängig sein. Jedes Einzelexperiment darf nur zwei mögliche Ausgänge haben.

\(P\left( {X = k} \right) = \left( \begin{gathered} n \\ k \\ \end{gathered} \right) \cdot {p^k} \cdot {\left( {1 - p} \right)^{n - k}}\)

P(X=k)	Wahrscheinlichkeit einer Binomialverteilung
n	Anzahl der Wiederholungen eines Bernoulli-Experiments
p	Wahrscheinlichkeit für einen Treffer im Bernoulli-Experiment
k	Anzahl der Treffer bei n Wiederholungen, deren Reihenfolge ist irrelevant

Beispiel: Würfel (→p=1/6=0,16667) wird 10 Mal geworfen (→n=10). Wie hoch ist die Wahrscheinlichkeit genau 3 Mal zwei Augen zu werfen (→k=3)

\(P\left( {K = 3} \right) = \left( {\begin{array}{*{20}{c}} {10}\\ 3 \end{array}} \right) \cdot {\left( {\dfrac{1}{6}} \right)^3} \cdot {\left( {1 - \dfrac{1}{6}} \right)^{10 - 3}} \approx 0,155 \buildrel \wedge \over = 15,5\% \)

Baumdiagramme

Baumdiagramme unterstützen visuell bei der Berechnung der Wahrscheinlichkeit bei mehrstufigen Zufallsexperimenten. Ein Baumdiagramm besteht aus Knoten und Zweigen. Ein Pfad startet bei einem Knoten, verläuft über einen oder mehrere Zweige und endet in einem Knoten.

Zweigwahrscheinlichkeiten

Neben jeden Zweig schreibt man die Wahrscheinlichkeit, mit der das vom Zweig repräsentierte Zufallsereignis eintritt.
Die Wahrscheinlichkeit aller Zweige, die von einem Konten weglaufen, summieren sich immer auf 1.

Pfadregeln bei der Lösung von Aufgaben mittels Baumdiagramm

Produktregel: Die Wahrscheinlichkeit eines Ereignisses, welches durch einen Pfad dargestellt wird, ist gleich dem Produkt aller Einzelwahrscheinlichkeiten entlang dieses Pfades.
Summenregel: Die Wahrscheinlichkeit eines Ereignisses, welches durch mehrere Pfade dargestellt wird, ist gleich der Summe aller zugehörigen Pfadwahrscheinlichkeiten

Illustration eines Baumdiagramms

Produktregel für die Wahrscheinlichkeit von unabhängigen Ereignissen ("Und" Regel)

Die Produktregel besagt, dass die Wahrscheinlichkeit eines Ereignisses, welches durch einen Pfad (mehrere Zweige in Serie) dargestellt wird (Pfadwahrscheinlichkeit), gleich ist dem Produkt aller Einzelwahrscheinlichkeiten entlang dieses Pfades. Mit anderen Worten: Sollten A und B unabhängige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass unabhängig voneinander das Ereignis A und auch das Ereignis B eintreten, ist gleich dem Produkt der beiden Einzelwahrscheinlichkeiten.

Das eine und das andere Ereignis treten ein: Schnittmenge:

\(P\left( {A \cap B} \right) = P\left( {A \wedge B} \right) = P\left( {{\text{A und B}}} \right) = P\left( A \right) \cdot P\left( B \right)\)

Merksatz: "Bei unabhängigen Ereignissen ist die Wahrscheinlichkeit von A und B ist gleich der Wahrscheinlichkeit von A mal B"

Beispiel: Ziehen mit Zurücklegen

Produktregeln für die Wahrscheinlichkeit von beliebigen Ereignissen ("Und Regel")

Sollten A und B zwei nicht notwendiger Weise unabhängige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass das Ereignis A und auch das Ereignis B eintreten, ist gleich der Eintrittswahrscheinlichkeit für A mal der Eintrittswahrscheinlichkeit für B, unter der Voraussetzung, dass bereits Ereignis A eingetreten ist.

\(P\left( {{A} \cap {B}} \right) = P\left( {{A}} \right) \cdot P\left( {{B}\left| {{A}} \right.} \right)\)

Beispiel: Ziehen ohne Zurücklegen

Summenregel für die Wahrscheinlichkeit von unabhängigen Ereignissen ("Oder" Regel)

Die Summenregel besagt, dass die Wahrscheinlichkeit eines Ereignisses, welches durch mehrere parallele Pfade dargestellt wird, gleich ist der Summe aller zugehörigen Pfadwahrscheinlichkeiten. Mit anderen Worten: Sollten A und B unvereinbare / disjunkte / einander gegenseitig ausschließende Ereignisse sein, dann gilt wegen \(P\left( {{A} \cap {B}} \right) = 0\) vereinfachend: Die Wahrscheinlichkeit, dass entweder das eine oder das andere von 2 disjunkten Ereignissen eintritt, ist gleich der Summe der Einzelwahrscheinlichkeiten.

Entweder das eine oder das andere Ereignisse tritt ein: Vereinigungsmenge

\(P\left( {A \cup B} \right) = P\left( {A \vee B} \right) = P\left( {{\text{A oder B}}} \right) = P\left( A \right) + P\left( B \right)\)

Nachfolgende Illustration veranschaulicht den Zusammenhang

Summenregeln für Wahrscheinlichkeiten von beliebigen Ereignissen ("Oder Regel")

Sollten A1 und A2 zwei beliebige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass entweder das beliebige Ereignis A eintritt oder das beliebiges Ereignis B eintritt, ist gleich der Summe ihrer Einzelwahrscheinlichkeiten, abzüglich der Wahrscheinlichkeit für das gemeinsame Eintreten beider Ereignisse.

\(P\left( {{A} \cup {B}} \right) = P\left( {{A}} \right) + P\left( {{B}} \right) - P\left( {{A} \cap {B}} \right) = P\left( {{A}} \right) + P\left( {{B}} \right) - P\left( {{A}} \right) \cdot P\left( {{B}} \right)\)

Für drei beliebige - also nicht notwendigerweise disjunkte - Ereignisse gilt:
\(P\left( {A \cup B \cup C} \right) = P\left( A \right) + P\left( B \right) + P\left( C \right) - P\left( {A \cap B} \right) - P\left( {A \cap C} \right) - P\left( {B \cap C} \right) + P\left( {A \cap B \cap C} \right)\)

Nachfolgende Illustration veranschaulicht den Zusammenhang

Satz von Bayes - Formel für die bedingte Wahrscheinlichkeit von B unter der Bedingung A

\(P\left( {{B}\left| {{A}} \right.} \right) = \dfrac{{P\left( {{A} \cap {B}} \right)}}{{P\left( {{A}} \right)}}\)

Der Satz von Bayes ermöglicht es die bedingte Wahrscheinlichkeit von \(P\left( {{A}\left| {{B}} \right.} \right)\) auszurechnen, wenn nur die umgekehrte bedingte Wahrscheinlichkeit \({P\left( {{B}\left| {{A}} \right.} \right)}\) und die beiden A-Priori-Wahrscheinlichkeiten \({P\left( {{A}} \right)}\) bzw. \({P\left( {{B}} \right)}\) bekannt sind und umgekehrt.

\(\eqalign{ & P\left( {A\left| B \right.} \right) = \dfrac{{P\left( {A \cap B} \right)}}{{P\left( B \right)}} = \cr & = \dfrac{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right)}}{{P\left( B \right)}} = \dfrac{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right)}}{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right) + P\left( {\overline A } \right) \cdot P\left( {B\left| {\overline A } \right.} \right)}} \cr} \)

\(P\left( {{A}\left\| {{B}} \right.} \right)\)	Bedingte Wahrscheinlichkeit vom Ereignis A unter der Bedingung, dass Ereignis B schon eingetreten ist
\({P\left( {{B}\left\| {{A}} \right.} \right)}\)	Bedingte Wahrscheinlichkeit vom Ereignis B unter der Bedingung, dass Ereignis A schon eingetreten ist
\({P\left( {{A}} \right)}\)	A-priori-Wahrscheinlichkeit für den Eintritt vom Ereignis A
\({P\left( {{B}} \right)}\)	A-priori-Wahrscheinlichkeit für den Eintritt vom Ereignis B

Vierfeldtafel zur Bestimmung bedingter Wahrscheinlichkeiten

Eine Vierfeldtafel eignet sich zur Bestimmung der Zusammenhänge zweier Ereignisse A und B

Zuerst erfolgt die Beschriftung vom Ereignis und dem zugehörigen Gegenereignis in der 1. Zeile und der 1. Spalte
Dann erfolgt die Beschriftung der Wahrscheinlichkeiten vom Ereignis A bzw. B und der Wahrscheinlichkeit vom zugehörigen Gegenereignis in der 4. Zeile und in der 4. Spalte
Die Wahrscheinlichkeiten der Ereignisse \(A\) und \({\overline A }\) bzw. \(B\) und \({\overline B }\) addieren sich jeweils auf 1, was wir im Feld rechts unten eintragen.
In die eigentlichen 4 Felder der Vierfeldtafel trägt man letztlich die Wahrscheinlichkeiten der Schnittmengen ein.

	\(B\)	\({\overline B }\)
\(A\)	\({P\left( {A \cap B} \right)}\)	\({P\left( {A \cap \overline B } \right)}\)	\({P\left( A \right)}\)
\({\overline A }\)	\({P\left( {\overline A \cap B} \right)}\)	\({P\left( {\overline A \cap \overline B } \right)}\)	\({P\left( {\overline A } \right)}\)
\({\sum }\)	\({P\left( B \right)}\)	\({P\left( {\overline B } \right)}\)	1

Die Wahrscheinlichkeiten in der 4. Zeile errechnet sich aus der Summe der beiden darüber stehenden Wahrscheinlichkeiten
Die Wahrscheinlichkeiten in der 4. Spalte errechnet sich aus der Summe der beiden links stehenden Wahrscheinlichkeiten

Anstelle von Wahrscheinlichkeiten können in den Felder der Vierfeldtafel auch absoluten Häufigkeiten oder Prozentwerte stehen.

Abhängige bzw. unabhängige Ereignisse:

Zwei Ereignisse A bzw. B sind von einander abhängig, wenn das Eintreten vom Ereignis A das Eintreten vom Ereignis B beeinflusst. Unabhängige Ereignisse kann man einfacher berechnen als von einander abhängige Ereignisse.

Die Ereignisse A und B sind voneinander

abhängig, wenn gilt: \(P\left( A \right) \cdot P\left( B \right) \ne P\left( {A \cap B} \right)\)
unabhängig, wenn gilt: \(P\left( A \right) \cdot P\left( B \right) = P\left( {A \cap B} \right)\)

In obiger Vierfeldtafel können wir die 3 Werte wie folgt ablesen:

P(A) lesen wir in der 1. Zeile in der letzten Zeile ab
P(B) lesen wir in der 1. Spalte in der letzten Zeile ab
P(A ∩ B) lesen wir in der 1. Zeile in der 1. Spalte ab

Visualisierung im Baumdiagramm

Satz von der totalen Wahrscheinlichkeit

Der Satz von der totalen Wahrscheinlichkeit ermöglicht es die Einzelwahrscheinlichkeiten aus den bedingten Wahrscheinlichkeiten zu berechnen.

\(\eqalign{ & P\left( A \right) = \sum\limits_{i = 1}^n {P\left( {{B_i}} \right) \cdot P\left( {A\left| {{B_i}} \right.} \right)} \cr & {\text{mit }}{{\text{B}}_1} \cup {B_2} \cup ... \cup {B_n} = \Omega \cr} \)

Beispiel:
n=2:

\(P\left( A \right) = P\left( B \right) \cdot P\left( {A\left| B \right.} \right) + P\left( {\overline B } \right) \cdot P\left( {A\left| {\overline B } \right.} \right)\)

Baumdiagramm

Bernoulli-Kette

Bernoulli-Formel

Produktregeln für Wahrscheinlichkeiten

Summenregeln für Wahrscheinlichkeiten

Satz von Bayes

Vierfeldtafel

Satz von der totalen Wahrscheinlichkeit

Abhängige Ereignisse

Unabhängige Ereignisse

Wahrscheinlichkeit mehrstufiger Zufallsexperimente

Bedingte Wahrscheinlichkeit

Getrimmtes arithmetisches Mittel

Lagemaße

Lagemaße sind Kennzahlen, die Auskunft zur zentralen Tendenz geben, wo auf einer vorgegebenen Skala sich die Werte einer Grundgesamtheit konzentrieren.

Häufigkeitsverteilung

Die Häufigkeitsverteilung ist eine Liste, die für jeder Merkmalsausprägung deren Häufigkeit in der Urliste angibt.

Bespiel: Eine Münze wird 10 mal geworfen.
Die Urliste sieht wie folgt aus: (Kopf, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl, Kopf, Zahl, Kopf)

Ausprägung	absolute Häufigkeit	relative Häufigkeit	prozentuelle Häufigkeit
Kopf	6	0.6	60%
Zahl	4	0,4	40%

absolute Häufigkeit H_i

Die Summe der Striche in einer Strichliste je Merkmalsausprägung nennt man die absolute Häufigkeit. Absolute Häufigkeiten haben nur dann eine Aussagekraft, wenn man die Gesamtzahl aller Erhebungseinheiten ebenfalls anführt. z.B.: 16 von 24 Schülern haben eine positive Schularbeitsnote erhalten. Addiert man alle einzelnen absoluten Häufigkeiten H_i, so erhält man die Gesamtzahl n aller Erhebungseinheiten bzw. den Umfang der Stichprobe.
\(\begin{array}{l} H\left( {{x_1}} \right),H\left( {{x_2}} \right),...,H\left( {{x_k}} \right)\\ {H_1} + {H_2} + ... + {H_k} = n \end{array}\)

relative Häufigkeit h_i

Die relative Häufigkeit h_i bzw. der Anteil je Merkmalsausprägung an der Gesamtzahl aller Erhebungseinheiten erhält man, indem man die jeweilige absolute Häufigkeit H_i auf die Gesamtzahl n bezieht (also in Relation setzt, mathematisch durch Division). z.B.: 16 von 24 Schülern sind 0,67. Addiert man alle einzelnen relativen Häufigkeiten h_i, so erhält man 1.
\(\begin{array}{l} {h_1},{h_2},...,{h_k}\\ {h_i} = \dfrac{{{H_i}}}{n} \end{array}\)

prozentuelle Häufigkeit h_i

Multipliziert man die relative Häufigkeit h_i mit 100, so erhält man die prozentuelle Häufigkeit. Da die prozentuelle Häufigkeit die relative Häufigkeit in %-ausgedrückt ist, verwendet man ebenfalls h_i als Formelzeichen. z.B.: 16 von 24 Schülern sind 67%. Addiert man alle einzelnen prozentuellen Häufigkeiten h_i, so erhält man den Wert 100 (entsprechend 100% bei der relativen Häufigkeit).
\({h_i}\left[ \% \right] = {h_i} \cdot 100\)

Prozentpunkte

Die Änderung der prozentuellen Häufigkeit einer Merkmalsausprägung bezeichnet man als Prozentpunkt.
\(\Delta {h_i} = {h_{i,neu}} - {h_{i,alt}}\)

Beispiel:
Haben bei der nächsten Schularbeit 17 statt der 16 der 24 Schüler eine positive Note, so ist die

absolute Änderung 1 (Schüler),
bei der 1. Schularbeit hatten 67% (16 von 24) eine positive Note, bei der nächsten Schularbeit hatten 71% (17 von 24) eine positive Note
die prozentuelle Änderung beträgt 4 Prozentpunkte (nunmehr 71% statt bisher 67% prozentueller Häufigkeit)

Durch die Angabe von 4 Prozentpunkten vermeidet damit eine Verwechslung zwischen der Änderung um 4% und der prozentuellen Häufigkeit von 71%. Beides sind ja Prozentwerte.

Modus bzw. Modalwert m

Der Modus bzw. Modalwert m ist jener Wert, der am häufigsten in einer Datenreihe (in einer Stichprobe) vorkommt. Der Modalwert wird durch Abzählen der einzelnen gemessenen Werte x_i der Datenreihe gebildet.

Arithmetisches Mittel

Das arithmetische Mittel bzw. der Durchschnitt, ist ein Lagemaß, welches sich aus der Summe aller erhobenen Werte, direkt aus der Urliste, dividiert durch die Anzahl der Werte errechnet.

\(\overline x = \dfrac{{{x_1} + {x_2} + ...{x_n}}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{x_i}}\)

\(\overline x\) ... gesprochen als "x quer"

Der arithmetische Mittelwert, auch als Durchschnittswert bezeichnet, ist das wichtigste Zentralmaß in der beschreibenden Statistik. Man spricht von einem ungewichteten Mittelwert, da alle gemessenen Werte x_i mit dem gleichen Gewicht 1/n in den Mittelwert eingehen. Die Summe aller Abweichungen der einzelnen Stichproben vom arithmetischen Mittelwert heben sich auf und sind daher Null. Große Ausreißer in der Stichprobe, asymmetrische oder mehrgipfelige Verteilungen beeinflussen das arithmetische Mittel sehr stark und führen zu nicht repräsentativen Aussagen.

Getrimmtes arithmetisches Mittel

Um den arithmetischen Mittelwert robuster zu machen, werden beim "getrimmten" arithmetischen Mittel die k kleinsten und die k größten Ausreißer nicht berücksichtigt, wobei: k << n/2 sein muss.

\(\overline x = \dfrac{{{x_1} + {x_2} + ...{x_n}}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{x_i}}\)

Bei einer Trimmung um k=3 bzw. um 3% würden bei einem Datensatz mit n=100 Werte die 3 größten und die 3 kleinsten Werte gestrichen werden, womit in obiger Formel n=94 und x₄, x₅, ... x₉₆, x₉₇ gilt.

Gewogenes bzw. gewichtetes arithmetisches Mittel

Das gewogene arithmetische Mittel errechnet sich, wenn nicht mehr die Urliste sondern bereits die absoluten Häufigkeiten H(x_i) bzw. die relativen Häufigkeiten h_ider Ausprägung x_i vorliegen.

\(\eqalign{ & \overline x = {{{x_1} \cdot {H_1} + {x_2} \cdot {H_2} + ... + {x_m} \cdot {H_m}} \over n} = {1 \over n}\sum\limits_{i = 1}^m {{x_i} \cdot {H_i}} \cr & \overline x = {x_1} \cdot {h_1} + {x_2} \cdot {h_2} + ... + {x_m} \cdot {H_m} \cr}\)

Die absolute Häufigkeit H_i gibt an, wie viele Elemente mit dem entsprechenden i-ten Merkmal gezählt wurden.

Geometrisches Mittel

Hat man die Beobachtungswerte aus der Urliste gegeben, so bildet man das Produkt der n Stichproben und zieht anschließend die n-te Wurzel. Man erhält das ungewogene geometrische Mittel

\({\overline x _{geom}} = \sqrt[n]{{{x_1} \cdot {x_2} \cdot ... \cdot {x_n}}} = \sqrt[n]{{\prod\limits_{i = 1}^n {{x_i}} }}\)

Gewogenes geometrisches Mittel

Hat man die absoluten H(x_i) bzw. die relativen h_i Häufigkeiten gegeben, so errechnet sich das gewogene geometrische Mittel wie folgt:

\({\overline x _{geom}} = \sqrt[n]{{{x_1}^{{H_1}} \cdot {x_2}^{{H_2}} \cdot ... \cdot {x_n}^{{N_n}}}} = \sqrt[n]{{\prod\limits_{i = 1}^m {{x_i}^{{H_i}}} }}\)

\({\overline x _{geom}} = {x_1}^{{h_1}} \cdot {x_2}^{{h_2}} \cdot ... \cdot {x_n}^{{h_n}} = \prod\limits_{i = 1}^m {{x_i}^{{h_i}}} \)

Unterschied geometrisches und arithmetisches Mittel

Das geometrische Mittel errechnet sich über ein Produkt und die anschließende n-te Wurzel, während sich das arithmetische Mittel über eine Summe und durch anschließende Division durch n errechnet.
Das geometrische Mittel ist kleiner oder gleich dem arithmetischen Mittel. Es wird vorwiegend in den Finanz- und Wirtschaftswissenschaften für Wachstumsfaktoren eingesetzt, etwa zur Berechnung vom Durchschnitt einer prozentuellen Verzinsung.
Das geometrische Mittel verwendet man, wenn die Stichproben von einander abhängig sind, etwa wie die Kapitalrendite über mehrere Jahre bei unterschiedlicher Verzinsung über die Jahre hinweg. Keiner der gemessenen Werte darf Null oder Negativ sein.
Das arithmetische Mittel verwendet man, wenn die Stichproben von einander unabhängig sind, etwa wie die Noten bei einer Prüfung von den verschiedenen Schülern der Klasse.

Gleitender Mittelwert

Das gleitende Mittel ist eine Folge von arithmetische Mittelwerten über eine sich ändernde aber gleich groß bleibende Untermenge der insgesamt erhobenen Werte.

Beispiel: Es liegen die Einkommenswerte eines Angestellten je Monat für den Zeitraum von 10 Jahren vor. Der Angestellte will sein jeweiliges Monatsdurchschnittseinkommen kennen. Er berechnet immer die Gehaltssumme der letzen 12 Monate und dividiert diese durch 12. Dann streicht er das am weitesten in der Vergangenheit liegende Monat raus und ergänzt um das zeitlich nächst Monat und rechnet erneut die Gehaltssumme der letzen 12 Monate und dividiert diese durch 12. So erhält er den gleitenden Mittelwert seines Monatseinkommens während des Betrachtungszeitraums. Dieser Wert ist im Vergleich zum Monatseinkommen stark geglättet weil punktuelle Ereignisse (13. Gehalt, Prämie, Sabbatical ...) nicht stark durchschlagen.

Median

Der Median bzw. Zentralwert med ist der in der Mitte stehende Wert x_i einer nach aufsteigender Größe geordneten Liste. Der Median teilt die geordnete Liste also in zwei Hälften, mit jeweils der Hälfte der Stichproben links bzw. rechts vom Median.

\(\eqalign{ & {\text{me}}{{\text{d}}_{{\text{n = gerade}}}} = \dfrac{{{x_{\left( {\dfrac{n}{2}} \right)}} + {x_{\left( {\dfrac{n}{2} + 1} \right)}}}}{2} \cr & {\text{me}}{{\text{d}}_{{\text{n = ungerade}}}} = {x_{\left( {\dfrac{{n + 1}}{2}} \right)}} \cr} \)

Quartil, Perzentil und Quantil

Quartile, Perzentile und Quantile sind Lagemaße einer Verteilung und werden in der beschreibenden Statistik verwendet.

Quartil

Quartilen teilen eine nach aufsteigender Größe geordnete Liste in 4 gleich große Viertel.

Das 1. Quartil q₁ist der Median der unteren Hälfte. Mindestens 25% der Werte sind kleiner oder gleich q₁, zugleich sind mindestens 75% der Werte größer oder gleich q₁
Das 2. Quartil q₂=z ist der Median selbst. Mindestens 50% der Werte sind kleiner oder gleich q₂, zugleich sind mindestens 50% der Werte größer oder gleich q₂
Das 3. Quartil q₃ist der Median der oberen Hälfte. Mindestens 75% der Werte sind kleiner oder gleich q₃, zugleich sind mindestens 25% der Werte größer oder gleich q₃

Illustration wie 3 Quartile die aufsteigenden Größen in 4 Viertel teilen.

Perzentil

Perzentile teilen eine nach aufsteigender Größe geordnete Liste in 100 gleich große Teile. Perzentile entsprechen also den vertrauten Prozentangaben.

Quantil

Quantile teilen eine nach aufsteigender Größe geordneten Liste in zwei (ungleiche) Teile. Das p-Quantil besagt, dass mindestens p% der Werte kleiner oder gleich einem bestimmten Wert sind und (1-p)% der Werte größer oder gleich diesem Wert sind. Quartile und Perzentile sind "besondere" Quantile.

Beispiel:
geordnete Liste von 10 Werten: 2,3,5,7,8,9,10,12,14,15

1. Quartil: 2,5 von 10 Werten --> aufgerundet der 3. Wert --> q₁=5
2. Quantil; 5. plus 6. Wert halbe --> (8+9)/2=8,5 --> q₂=8,5=Median
3. Quartil: 7,5 von 10 Werte n --> aufgerundet der 8. Wert --> q₃=12

prozentuelle Häufigkeit

Prozentpunkte

Arithmetisches Mittel

Gewogenes arithmetisches Mittel

Gewogenes geometrische Mittel

Quartil

Quantile

Perzentil

gleitender Mittelwert

Histogramm der Wahrscheinlichkeitsfunktion

Histogramm der Häufigkeitsverteilung

Ein Histogramm ist eine graphische Darstellung der Häufigkeitsverteilung von in Klassen eingeteilten Daten. Die Klassen können, müssen aber nicht gleich breit sein. Über jeder Klasse wird ein Rechteck errichtet, dessen Fläche (!) proportional zur Häufigkeit dieser Klasse ist. Man benötigt zur Darstellung von Histogrammen also die jeweilige Balkenbreite (Klassenbreite) und die Balkenhöhe (=relativer / prozentueller Anteil der Messwerte). Bei den ähnlich aussehenen Säulen- bzw. Balkendiagramme kommt es nur auf die Höhe vom Balken an, beim Histogramm jedoch auf die Fläche.

Ehe man ein Histogramm erstellen kann, muss man die N Messwerte der Größe nach ordnen.
Dann definiert man eine übersichtliche Anzahl von Klassen (diese haben jeweils eine Unter- und eine Obergrenze). Die Klassenbreite b_i ist frei wählbar
Man ordnet alle Messwerte jeweils einer Klasse zu.
Im letzten Schritt errichtet man über jeder Klasse ein Rechteck, dessen Höhe \({h_i} = \dfrac{{{n_i}}}{N}\) dem relativen (=prozentuellen) Anteil der Messwerte je Klasse entspricht.

Achtung: Verwechsle das Histogramm nicht mit einem Säulendiagramm, das sehr ähnlich aussieht, aber ganz etwas anderes darstellt.

	Histogramm	Säulendiagramm
	Flächenproportionale Darstellung einer Häufigkeitsverteilung. Aneinander angrenzende Rechtecke, mit klassenspezifischer Breite und häufigkeitsspezifischem Flächeninhalt	Höhenproportionale Darstellung einer Häufigkeitsverteilung Senkrecht auf die x-Achse stehende, nicht aneinander grenzende Säulen mit relevanter Höhe und mit bedeutungslosem Flächeninhalt
Breite macht Aussage über	Klassenbreite	bedeutungslos
Höhe macht Aussage über	errechnet sich aus Fläche und Breite	proportional zur Häufigkeit der jeweiligen Merkmalsausprägung
Fläche macht Aussage über	proportional zur Häufigkeit der jeweiligen Klasse	bedeutungslos

Achtung: Verwechsle die Häufigkeitsverteilung nicht mit der Wahrscheinlichkeitsverteilung

Häufigkeitsverteilung: Ein Merkmal einer Untersuchungsgesamtheit wird nach bestimmten Kriterien / Ausprägungen ( sogenannten Klassen) geordnet und gezählt. Zur grafischen Veranschaulichung dient das Histogramm.
Wahrscheinlichkeitsverteilung: Eine Zahl zwischen null (0%) und eins (100%) gibt an, wie sich die Wahrscheinlichkeiten auf die möglichen Zufallsergebnisse verteilen.

Klassenbreite

Klassenhöhe

Höhe des Histogrammbalkens

Breite des Histogrammbalkens

Unterschied Histogramm und Säulendiagramm

Boxplot

Darstellung einer „Box“ mit je einer „Antenne“ links und rechts von der Box, welche wichtige Lage- und Streumaße grafisch darstellen.

linkes Antennenende	Minimum	Kleinster Wert vom Datensatz
linker Rand der Box	1. Quartil \(x = 0,25 \cdot \left( {N + 1} \right)\)	25% der Werte vom Datensatz sind kleiner gleich diesem Wert
Strich innerhalb der Box	Median	Der in der Mitte stehende Wert x_i einer nach aufsteigender Größe geordneten Liste Bei einer geraden Anzahl: Mittelwert aus linkem und rechten Wert
rechter Rand der Box	3. Quartil \(x = 0,75 \cdot \left( {N + 1} \right)\)	75% der Werte vom Datensatz sind kleiner gleich diesem Wert
rechtes Antennenende	Maximum	Größter Wert vom Datensatz
linkes Antennenende bis zum rechten Antennenende	Spannweite	Gesamter Wertebereich vom Datensatz
Ausdehnung der Box	Interquartilsabstand	Wertebereich, der die mittleren 50% der Werte vom Datensatz umfasst

Gleichverteilung - Disparität - Konzentration

Von Gleichverteilung spricht man, wenn jeder Merkmalsträger den gleichen Anteil an der Merkmalssumme auf sich vereint.

Disparität und Konzentration sind Maße für die Ungleichheit bei der Verteilung der Merkmalsumme auf einzelne Merkmalsträger.

Eine hohe Disparität liegt dann vor, wen ein kleiner %-Anteil der Merkmalsträger einen hohen Anteil an der Merkmalssumme hat. Z.B. welchen Anteil am Gesamteinkommen der Bevölkerung eines Landes die 10% der Reichsten auf sich vereinen.
Eine hohe Konzentration liegt vor, wenn eine kleine Anzahl an Merkmalsträgern einen hohen Anteil der Merkmalssumme hat. Z.B. welchen Anteil am Gesamteinkommen der Bevölkerung eines Landes die 10.000 der Reichsten auf sich vereinen.

Lorenzkurve

Die Lorenz Kurve ist ein grafisches Maß für die Disparität. Die Fläche zwischen der Lorentzkurve und der Diagonalen (Gerade der Gleichverteilung) wird als Lorentzfläche bezeichnet.

\(Lorenz-Fläche = \dfrac{{n - 1}}{{2n}} - \dfrac{1}{n} \cdot \sum\limits_{i = 1}^{n - 1} {{v_i}} \)

Die Lorentzkurve ist eine graphische Darstellung von Ungleichheiten in der Verteilung von Merkmalsträger (x-Achse, Anteil der Bevölkerung) und zugehöriger Merkmalssumme (y-Achse, Anteil am Einkommen). Die Lorentzkurve geht immer durch die Punkte \(\left( {0\left| 0 \right.} \right)\) und \(\left( {100\left| 100 \right.} \right)\)der Gleichverteilung. Die Ungleichheit kann aus der Abweichung von der Verbindung der Punkte \(\left( {0\left| 0 \right.} \right)\) und \(\left( {100\left| 100 \right.} \right)\) abgelesen werden. Je weiter entfernt, um so ungleicher.

Die Lorentzkurve ist der Streckenzug durch die Punkte \(\left( {0\left| 0 \right.} \right)\), \(\left( {{u_1}\left| {{v_1}} \right.} \right)...\left( {{u_n}\left| {{v_n}} \right.} \right)\) und \(\left( {1\left| 1 \right.} \right)\) mit den summierten Anteilen \({u_j} = \dfrac{j}{n}\) und \({v_j} = \dfrac{{\sum\limits_{i = 1}^j {{x_i}} }}{{\sum\limits_{i = 1}^n {{x_i}} }}\) auf der y-Achse.

Gini-Koeffizient

Der Gini-Koeffizient ist eine Zahl, die der Fläche unter der Gleichverteilungsgeraden und der Lorentzkurve entspricht. Je weiter die Lorentzkurve unter der Gleichverteilungsgeraden liegt, umso größer ist die Fläche, umso ungerechter ist die Verteilung (Disparität) und um so größer ist der Gini-Koeffizient.

\(G = 1 - \dfrac{2}{n} \cdot \left( {\sum\limits_{i = 1}^n {{L_i} - 0,5} } \right)\)	L_i ... kumulierte Anteile an der Merkmalsumme
\(G = 2\int\limits_0^1 {\left( {x - L\left( x \right)} \right)} \,\,dx\)	L(x) ... Lorentzfunktion

Mathematisch ist der Gini-Koeffizient G der dimensionslose Quotient zweier Flächen. G=(Fläche zwischen der Gleichverteilungsgeraden und der Lorentzkurve) in Relation zur darunter liegenden (Dreiecksfläche zwischen der Gleichverteilungsgeraden und der x-Achse).

G=0 entspricht einer Gleichverteilung, also fehlender Konzentration bzw. fehlender Disparität.
\(G \to 1\) entspricht „Einer oder Wenige besitzen fast alles, also hoher Konzentration bzw. hoher Dispersität.

Ein Gini-Koeffizient alleine macht keine Aussagen, denn es gibt kein absolutes Maß dafür, ab wann eine Verteilung „unfair“ wird. Man kann aber mit dem Gini-Koeffizient unterschiedliche Verteilungen einander gegenüberstellen.

Zufallsvariable

Eine Zufallsvariable X ist eine Funktion, die jedem Ergebnis ω vom Ergebnisraum Ω eines Zufallsexperiments eine reelle Zahl x zuordnet.

\(X:\Omega \to R;\,\,\,X:\omega \to X\left( \omega \right) = x\)

Das Ergebnis einfacher Zufallsexperimente ist etwa eine Augenzahl beim Würfeln oder "Kopf" oder "Zahl" beim Werfen einer Münze. Bei komplexeren Zufallsexperimenten ist das Ergebnis vom Experiment meist praktischer Weise eine Zahl. Der Großbuchstabe X steht dabei für die Zufallsvariable und der Kleinbuchstabe x steht für den einen, ganz konkreten Wert, den X annimmt. Man sagt auch, dass x die Zufallsvariable X "realisiert" und dass diese konkrete Realisation mit einer bestimmten Wahrscheinlichkeit eintritt.

Man unterscheidet zwischen

diskreten Zufallsvariablen, die durch eine Wahrscheinlichkeitsfunktion beschrieben werden
stetigen Zufallsvariablen, die durch eine Dichtefunktion beschrieben werden

Wahrscheinlichkeitsverteilung

Die Wahrscheinlichkeitsverteilung beschreibt, mit welcher Wahrscheinlichkeit die einzelnen Ergebnisse eines Zufallsexperiments auftreten. Sie lässt sich auf 2 Arten, bei gleichem Informationsgehalt aber unterschiedlicher Darstellung, beschreiben:

Wahrscheinlichkeitsverteilung für diskrete Zufallsvariablen

Für diskrete Zufallsvariablen (Bernoulli Verteilung, Binomialverteilung, Poissonverteilung, hypergeometrische Verteilung) liegt die Wahrscheinlichkeit für das Auftreten von jedem einzelnen Wert zwischen 0 und 1. Die Summe der Einzelwahrscheinlichkeiten beträgt 1 (entsprechend 100%). Die Beschreibung erfolgt durch die

Wahrscheinlichkeitsfunktion f(x): \(f\left( x \right) = P\left( {X = x} \right)\)
Verteilungsfunktion F(x): \(F\left( x \right) = P\left( {X \leqslant x} \right) = \sum\limits_{{x_i} \leqslant x} {f\left( {{x_i}} \right)} \)

Wahrscheinlichkeitsverteilung für stetige Zufallsvariablen

Für stetige Zufallsvariablen (Normalverteilung, Gleichverteilung, Exponentialverteilung) beträgt die Wahrscheinlichkeit für das Auftreten jedes einzelnen Werts der Zufallsvariablen exakt Null. Die Beschreibung erfolgt durch die

Dichtefunktion f(x): \(P\left( {a < X \le b} \right) = \int\limits_a^b {f\left( x \right)} \,\,dx = F\left( b \right) - F\left( a \right)\) wobei \(\int\limits_{ - \infty }^\infty {f\left( x \right)} \,\,{\mathop{\rm dx}\nolimits} = 1\)
- Die Dichtefunktion ist für stetige Zufallsvariablen das Äquivalent zur Wahrscheinlichkeitsfunktion von diskreten Zufallsvariablen. Sie kann nur positive Werte annehmen und die gesamte Fläche unter ihrem Graph hat den Wert 1. Aus der Dichtefunktion f(x) lässt sich keine Wahrscheinlichkeit P(X) ablesen, da die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen konkreten Wert x annimmt immer Null ist. Es gilt also: \(f\left( x \right) \ne P\left( {X = x} \right)\)
Verteilungsfunktion F(x): \(F\left( x \right) = P\left( {X \leqslant x} \right) = \int\limits_{ - \infty }^x {f\left( t \right)\,\,dt} \)
- Auf der y-Achse der Verteilungsfunktion kann man die Wahrscheinlichkeit \(P\left( {X \le {x_1}} \right)\) ablesen, höchstens den Wert x₁ zu erreichen.

Zufallsvariable

Wahrscheinlichkeitsverteilung

Wahrscheinlichkeit P

Diskrete Zufallsvariable

Stetige Zufallsvariable

Wahrscheinlichkeitsfunktion

Verteilungsfunktion

Dichtefunktion

Wahrscheinlichkeitsfunktion diskreter Zufallsvariablen

Verteilungsfunktion diskreter Zufallsvariablen

Diskrete Zufallsvariable

Die Anzahl der Ergebnisse des Zufallsexperiments ist endlich / abzählbar. Eine diskrete Zufallsvariable ist durch die Angabe ihres Wertebereichs \({x_1},{x_2},...,{x_n}\) und den Einzelwahrscheinlichkeiten fur das Auftreten von jedem Wert des Wertebereichs, also \(P\left( {X = {x_1}} \right) = {p_1},\,\,\,P\left( {X = {x_2}} \right) = {p_2},...P\left( {X = {x_n}} \right) = {p_n}\) vollständig definiert. Man spricht von der Wahrscheinlichkeitsfunktion, welche es nur für diskrete Zufallsvariablen gibt. (Bei stetigen Zufallsvariablen gibt es entsprechend die Dichtefunktion.)

Spezielle Verteilungen diskreter Zufallsvariabler sind

Bernoulli-Verteilung
Binomialverteilung (mit Zurücklegen)
Poissonverteilung
hypergeometrische Verteilung (ohne Zurücklegen)

Wahrscheinlichkeitsfunktion

Die Wahrscheinlichkeitsfunktion, welche es nur für diskrete Zufallsvariablen gibt, beschreibt eine diskrete Wahrscheinlichkeitsverteilung, indem sie jedem \(x \in {\Bbb R}\) einer Zufallsvariablen X genau eine Wahrscheinlichkeit P aus dem Intervall \(\left[ {0;1} \right]\) zuordnet.

\(f:x \to p\)

\(f:x \to \left\{ {\begin{array}{*{20}{l}} {P\left( {X = {x_i}} \right)}&{für\,\,x = {x_i}}\\ 0&{für\,\,\,x \ne {x_i}} \end{array}} \right.\)

Funktionsgraph der Wahrscheinlichkeitsfunktion

Im Funktionsgraph der Wahrscheinlichkeitsverteilung werden über jedem (diskreten) Wert x die jeweilige Wahrscheinlichkeit P(X=x) dargestellt, wobei die einzelnen Wahrscheinlichkeiten P(X=x) mit Hilfe der Laplace-Wahrscheinlichkeit berechnet werden. Im Stabdiagramm wird über jedem (diskreten) Wert x ein Stab (dünner Balken) aufgetragen, dessen Höhe der jeweilige Wahrscheinlichkeit P(X=x) entspricht.

Verteilungsfunktion

Die Verteilungsfunktion einer diskreten Zufallsvariablen, auch kumulative Verteilfunktion genannt, gibt die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X höchstens den Wert x annimmt.

\(F\left( x \right) = P\left( {X \leqslant x} \right)\)

Sie ist eine monoton steigende Treppenfunktion mit Sprüngen an den Stellen x_i und daher nicht stetig. Geometrisch entspricht die Wahrscheinlichkeit P(X=x) der Sprunghöhe der Verteilungsfunktion F(x) an der Stelle x.

F(x) ist für jedes x definiert und nimmt Werte von mindestens 0 bis höchstens 1 an.

\(\eqalign{ & \mathop {\lim }\limits_{x \to - \infty } F(x) = 0 \cr & \mathop {\lim }\limits_{x \to \infty } F(x) = 1 \cr} \)

Darüber hinaus gilt:

\(\eqalign{ & P\left( {X \geqslant x} \right) = 1 - P\left( {X < x} \right) \cr & P\left( {X > x} \right) = 1 - P\left( {X \leqslant x} \right) \cr} \)

Mittelwert einer Vollerhebung bzw. einer Stichprobe

Der arithmetische Mittelwert bezieht sich immer auf die grundsätzlich abzählbare Anzahl n an Durchgängen eines Zufallsexperiments. Er ist definiert als die Summe aller beobachteten Werte dividiert durch die Anzahl der beobachteten Werte.
\(\overline x = \dfrac{1}{n} \cdot \sum\limits_{i = 1}^n {{x_i}} \)

Unterschied Mittelwert und Erwartungswert

Wiederholt man das Zufallsexperiment unendlich oft, geht also \(n \to \infty \), so wird aus dem Mittelwert der Erwartungswert.

Erwartungswert

Der Erwartungswert einer diskreten Zufallsvariablen X, welche die diskreten Werte x₁, x₂, ..., x_nmit den zugehörigen Wahrscheinlichkeiten P(X=x₁), P(X=x₂), ... P(X=x_n) annimmt, errechnet sich aus der Summe der Produkte vom jeweiligen Wert x_i und seiner Wahrscheinlichkeit P(X=x_i). Merkregel: "Was passiert" mal "mit welcher Wahrscheinlichkeit passiert es".

\(E\left( X \right) = \mu = {x_1} \cdot P\left( {X = {x_1}} \right) + {x_2} \cdot P\left( {X = {x_2}} \right) + ... + {x_n} \cdot P\left( {X = {x_n}} \right) = \sum\limits_{i = 1}^n {{x_i} \cdot P\left( {X = {x_i}} \right)} \)

mit: \(P\left( E \right) = \frac{{{\text{Anzahl günstige Fälle}}}}{{{\text{Anzahl möglicher Fälle}}}}\)

Der Erwartungswert ist ein Maß für die mittlere Lage der Verteilung, und somit ein Lageparameter der beschreibenden Statistik.

Ist die Wahrscheinlichkeit für jeden Versuch die selbe (z.B. bei binomialverteilten Experimenten), dann ist der Erwartungswert gleich dem arithmetischen Mittel.
Ist die Wahrscheinlichkeit für jeden Versuch unterschiedlich , dann ist der Erwartungswert gemäß obiger Formel ein gewichtetes arithmetisches Mittel.

Erwartungswert für den Fall dass die diskrete Verteilung eine Binomialverteilung ist,

die nur zwei Werte (Erfolg / Misserfolg) annehmen kann und deren Trefferwahrscheinlichkeit immer p ist:

\(E\left( X \right) = n \cdot p\)

Physikalische Analogie

Physikalisch entspricht der Erwartungswert dem Schwerpunkt. Man muss sich dabei die Massen R(X=x_i) an den Positionen x_i entlang vom Zahlenstrahl x platziert vorstellen.
Physikalisch entspricht die Varianz dem Trägheitsmoment, wenn man den oben beschriebenen Zahlenstrahl um eine Achse dreht, die senkrecht auf den Zahlenstrahl steht und die durch den Schwerpunkt verläuft.

Varianz

Die Varianz einer diskreten Zufallsvariablen ist die mittlere quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert und somit ein Streumaß der beschreibenden Statistik.
\({\sigma _x}^2 = Var\left( X \right) = {\sum\limits_{i = 1}^n {\left( {{x_i} - E\left( x \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right)\)

Verschiebungssatz

Der Verschiebungssatz für diskrete Zufallsvariablen kann den Rechenaufwand für die Berechnung der Varianz verringern, es kann aber zum Verlust von Rechengenauigkeit kommen.
\({\sigma _x}^2 = Var\left( X \right) = E\left( {{X^2}} \right) - E{\left( X \right)^2} = \sum\limits_{i = 1}^n {{x_i}^2 \cdot P\left( {X = {x_i}} \right) - E{{\left( X \right)}^2}} \)

Standardabweichung

Die Varianz hat den Nachteil, als Einheit das Quadrat der Einheit der zugrunde liegenden Zufallsvariablen zu haben. Das ist bei der Standardabweichung (auf Grund der Quadratwurzel) und beim Erwartungswert nicht der Fall.
\({\sigma _x} = \sqrt {Var\left( X \right)} \)

Physikalische Analogie für den Erwartungswert und für die Varianz:

Physikalisch entspricht der Erwartungswert dem Schwerpunkt. Man muss sich dabei die Massen R(X=xi) an den Positionen xi entlang vom Zahlenstrahl x plaziert vorstellen.
Physikalisch entspricht die Varianz dem Trägheitsmoment, wenn man den oben beschriebenen Zahlenstrahl um eine Achse dreht, die senkrecht auf den Zahlenstrahl steht und die durch den Schwerpunkt verläuft

Illustration zur Veranschaulichung einer kleinen Varianz:

\(\eqalign{ & {x_1} = 3;\,\,\,\,\,{x_2} = 4;\,\,\,\,\,{x_3} = 5; \cr & P\left( {{x_1}} \right) = 0,2;\,\,\,\,\,P\left( {{x_2}} \right) = 0,6;\,\,\,\,\,P\left( {{x_3}} \right) = 0,2; \cr & E(X) = \mu = \sum\limits_{i = 1}^3 {{x_i} \cdot P\left( {X = {x_i}} \right)} = 3 \cdot 0,2 + 4 \cdot 0,6 + 5 \cdot 0,2 = 4 \cr & Var(X) = {\sum\limits_{i = 1}^3 {\left( {{x_i} - E\left( X \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right) = {\left( {3 - 4} \right)^2} \cdot 0,2 + {\left( {4 - 4} \right)^2} \cdot 0,6 + {\left( {5 - 4} \right)^2} \cdot 0,2 = 0,4 \cr} \)

Alternativ errechnet sich die Varianz unter Zuhilfenahme vom Verschiebungssatz wie folgt:

\(Var(X) = \sum\limits_{i = 3}^3 {{x_i}^2 \cdot P\left( {X = {x_i}} \right)} - {\left( {E\left( X \right)} \right)^2} = {3^2} \cdot 0,2 + {4^2} \cdot 0,6 + {5^2} \cdot 0,2 - {4^2} = 0,4\)

Illustration zur Veranschaulichung einer großen Varianz mit dem gleichen Erwartungswert:

\(\eqalign{ & {x_1} = 2;\,\,\,\,\,{x_2} = 4;\,\,\,\,\,{x_3} = 6; \cr & P\left( {{x_1}} \right) = 0,2;\,\,\,\,\,P\left( {{x_2}} \right) = 0,6;\,\,\,\,\,P\left( {{x_3}} \right) = 0,2; \cr & E(X) = \mu = \sum\limits_{i = 1}^3 {{x_i} \cdot P\left( {X = {x_i}} \right)} = 2 \cdot 0,2 + 4 \cdot 0,6 + 6 \cdot 0,2 = 4 \cr & Var(X) = {\sum\limits_{i = 1}^3 {\left( {{x_i} - E\left( X \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right) = {\left( {2 - 4} \right)^2} \cdot 0,2 + {\left( {4 - 4} \right)^2} \cdot 0,6 + {\left( {6 - 4} \right)^2} \cdot 0,2 = 1,6 \cr} \)

Alternativ errechnet sich die Varianz unter Zuhilfenahme vom Verschiebungssatz wie folgt:

\(Var(X) = \sum\limits_{i = 3}^3 {{x_i}^2 \cdot P\left( {X = {x_i}} \right)} - {\left( {E\left( X \right)} \right)^2} = {2^2} \cdot 0,2 + {4^2} \cdot 0,6 + {6^2} \cdot 0,2 - {4^2} = 1,6\)

Diskrete Zufallsvariable

Hypergeometrische Verteilung

Poissonverteilung

Bernoulli Verteilung

Wahrscheinlichkeitsfunktion

Wahrscheinlichkeit P

Funktionsgraph der Wahrscheinlichkeitsfunktion

Verteilungsfunktion diskreter Zufallsvariablen

Erwartungswert diskrete Verteilung

Varianz einer diskreten Zufallsvariablen

Verschiebungssatz für diskrete Zufallsvariablen

Standardabweichung

Mittelwert eines Zufallsexperiments

Binomialverteilung - Grundlagen