Stochastik

Wissenswertes über: Kombinatorik, Beschreibende Statistik - Lagemaße + Streumaße, Schließende Statistik - Wahrscheinlichkeitsrechnung und Exporative Statistik - Data Mining

Hier findest du folgende Inhalte

Formeln

Wissenspfad

Aufgaben

Standardnormalverteilung Tabelle Phi von z

Werte der Verteilungsfunktion \(\Phi \left( z \right) = P\left( {Z \leqslant z} \right){\text{ mit }}z \geqslant 0\)

Ablesebeispiel: \(\Phi \left( {1,55} \right) = \Phi \left( {1,5 + 0,05} \right) = 0,9394\)
Funktionswerte für negative Argumente: \(\Phi \left( { - z} \right) = 1 - \Phi \left( z \right)\)
Ablesebeispiel für z-Quantile: \(z\left( {0,9394} \right) = 1,55\) Ablesebeispiel ist grün eingezeichnet

z-Quantile

z-Quantile sind statistische Maße, die in der Wahrscheinlichkeitsverteilung einer Standardnormalverteilung verwendet werden. Die Standardnormalverteilung hat einen Mittelwert von 0 und eine Standardabweichung von 1.

Z-Quantile geben an, an welcher Stelle in der Verteilung sich ein bestimmter Prozentsatz der Daten befindet. Ein Z-Quantil ist ein Wert, der angibt, wie viele Standardabweichungen ein bestimmter Wert von der durchschnittlichen Verteilung entfernt ist. Zum Beispiel entspricht das Z-Quantil 1 einem Wert, der eine Standardabweichung über dem Durchschnitt liegt, während das Z-Quantil -1 einem Wert entspricht, der eine Standardabweichung unter dem Durchschnitt liegt.

Die Z-Quantile werden häufig verwendet, um Signifikanzniveaus in der Statistik zu bestimmen. Zum Beispiel entspricht das Z-Quantil 1,55 dem 93,94 Perzentil, was bedeutet, dass 93,94 Prozent der Daten unterhalb dieses Wertes liegen.

	0,00	0,01	0,02	0,03	0,04	0,05	0,06	0,07	0,08	0,09
0,0	0,5000	0,5040	0,5080	0,5120	0,5160	0,5199	0,5239	0,5279	0,5319	0,5359
0,1	0,5398	0,5438	0,5478	0,5517	0,5557	0,5596	0,5636	0,5675	0,5714	0,5753
0,2	0,5793	0,5832	0,5871	0,5910	0,5948	0,5987	0,6026	0,6064	0,6103	0,6141
0,3	0,6179	0,6217	0,6255	0,6293	0,6331	0,6368	0,6406	0,6443	0,6480	0,6517
0,4	0,6554	0,6591	0,6628	0,6664	0,6700	0,6736	0,6772	0,6808	0,6844	0,6879
0,5	0,6915	0,6950	0,6985	0,7019	0,7054	0,7088	0,7123	0,7157	0,7190	0,7224
0,6	0,7257	0,7291	0,7324	0,7357	0,7389	0,7422	0,7454	0,7486	0,7517	0,7549
0,7	0,7580	0,7611	0,7642	0,7673	0,7704	0,7734	0,7764	0,7794	0,7823	0,7852
0,8	0,7881	0,7910	0,7939	0,7967	0,7995	0,8023	0,8051	0,8078	0,8106	0,8133
0,9	0,8159	0,8186	0,8212	0,8238	0,8264	0,8289	0,8315	0,8340	0,8365	0,8389

	0,00	0,01	0,02	0,03	0,04	0,05	0,06	0,07	0,08	0,09
1,0	0,8413	0,8438	0,8461	0,8485	0,8508	0,8531	0,8554	0,8577	0,8599	0,8621
1,1	0,8643	0,8665	0,8683	0,8708	0,8729	0,8749	0,8770	0,8790	0,8810	0,8830
1,2	0,8849	0,8869	0,8888	0,8907	0,8925	0,8944	0,8962	0,8980	0,8997	0,9015
1,3	0,9032	0,9049	0,9066	0,9082	0,9099	0,9115	0,9131	0,9147	0,9162	0,9177
1,4	0,9192	0,9207	0,9222	0,9236	0,9251	0,9265	0,9279	0,9292	0,9306	0,9319
1,5	0,9332	0,9345	0,9357	0,9370	0,9382	0,9394	0,9406	0,9418	0,9429	0,9441
1,6	0,9452	0,9463	0,9474	0,9484	0,9495	0,9505	0,9515	0,9525	0,9535	0,9545
1,7	0,9554	0,9564	0,9573	0,9582	0,9591	0,9599	0,9608	0,9616	0,9625	0,9633
1,8	0,9648	0,9649	0,9656	0,9664	0,9671	0,9678	0,9686	0,9693	0,9699	0,9706
1,9	0,9713	0,9719	0,9726	0,9732	0,9738	0,9744	0,9750	0,9756	0,9761	0,9767

	0,00	0,01	0,02	0,03	0,04	0,05	0,06	0,07	0,08	0,09
2,0	0,9772	0,9778	0,9783	0,9788	0,9793	0,9798	0,9803	0,9808	0,9812	0,9817
2,1	0,9821	0,9826	0,9830	0,9834	0,9838	0,9842	0,9846	0,9850	0,9854	0,9853
2,2	0,9861	0,9864	0,9868	0,9871	0,9875	0,9878	0,9881	0,9884	0,9887	0,9890
2,3	0,9893	0,9896	0,9898	0,9901	0,9904	0,9906	0,9909	0,9911	0,9913	0,9916
2,4	0,9918	0,9920	0,9922	0,9925	0,9927	0,9929	0,9931	0,9932	0,9934	0,9936
2,5	0,9938	0,9940	0,9941	0,9943	0,9945	0,9946	0,9948	0,9949	0,9951	0,9952
2,6	0,9953	0,9955	0,9956	0,9957	0,9959	0,9960	0,9961	0,9962	0,9963	0,9964
2,7	0,9965	0,9966	0,9967	0,9968	0,9969	0,9970	0,9971	0,9972	0,9973	0,9974
2,8	0,9974	0,9975	0,9976	0,9977	0,9977	0,9978	0,9979	0,9979	0,9980	0,9981
2,9	0,9981	0,9982	0,9982	0,9983	0,9984	0,9984	0,9985	0,9985	0,9986	0,9986

	0,00	0,01	0,02	0,03	0,04	0,05	0,06	0,07	0,08	0,09
3,0	0,9987	0,9987	0,9987	0,9988	0,9988	0,9989	0,9989	0,9989	0,9990	0,9990
3,1	0,9990	0,9991	0,9991	0,9991	0,9992	0,9992	0,9992	0,9992	0,9993	0,9993
3,2	0,9993	0,9993	0,9994	0,9994	0,9994	0,9994	0,9994	0,9995	0,9995	0,9995
3,3	0,9995	0,9995	0,9995	0,9996	0,9996	0,9996	0,9996	0,9996	0,9996	0,9997
3,4	0,9997	0,9997	0,9997	0,9997	0,9997	0,9997	0,9997	0,9997	0,9997	0,9998
3,5	0,9998	0,9998	0,9998	0,9998	0,9998	0,9998	0,9998	0,9998	0,9998	0,9998
3,6	0,9998	0,9998	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999
3,7	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999
3,8	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999	0,9999
3,9	1,0000	1,0000	1,0000	1,0000	1,0000	1,0000	1,0000	1,0000	1,0000	1,0000

Standardnormalverteilung Tabelle

z-Quantile

Verteilungsfunktion der Standardnormalverteilung

Fragen oder Feedback

Wissenspfad

Aufgaben

Kombinatorik

Die Kombinatorik beschäftigt sich damit, die Anzahl der Elemente von endlichen Mengen geschickt (also durch Rechnen, nicht durch Zählen) zu bestimmen. Sie untersucht die Fragestellung, wie viele Möglichkeiten es gibt, eine endliche Anzahl an Objekten anzuordnen oder auszuwählen.
Dabei unterscheidet man zwischen

mit / ohne Berücksichtigung der Reihenfolge
mit / ohne Zurücklegen
ob alle n Elemente oder nur k (k<=n) Elemente verwendet werden

Kombinatorische Abzählverfahren

Man unterscheidet bei den kombinatorischen Abzählverfahren zwischen Permutationen, Variationen bzw. Kombinationen je nachdem ob alle Elemente (Permutation) oder nur eine Stichprobe verwendet werden. Wird eine Stichprobe verwendet unterscheidet man weiters ob die Reihenfolge relevant (Variation) oder irrelevant (Kombination) ist. Zuletzt unterscheidet man bei allen 3 kombinatorischen Abzählverfahren ob Elemente zurückgelegt werden oder ob nicht.

	1. Unterscheidung: alle Elemente oder Stichprobe	2. Unterscheidung, falls Stichprobe: Reihenfolge relevant oder egal	3. Unterscheidung: mit oder ohne Wiederholung
Kombinatorische Abzählverfahren	Elemente der Grundmenge	Reihenfolge bzw. Anordnung	Wiederholung, Zurücklegen, treten Elemente mehrfach auf	Anzahl
Permutation (Reihenfolge bzw. Umordnung aller Elemente) Urnenmodel: Ziehen aller n unterscheidbaren Kugeln ohne Zurücklegen, wobei die Reihenfolge beachtet wird	alle n Elemente müssen verwendet werden	relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\)	ohne	\(n!\)
Permutation (Reihenfolge bzw. Umordnung aller Elemente) Urnenmodel: Ziehen aller n Kugeln, von denen manche r, s und t fach vorkommen / mit Zurücklegen, wobei die Reihenfolge beachtet wird	alle n Elemente müssen verwendet werden	relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\)	mit	\(\begin{gathered} \dfrac{{n!}}{{r! \cdot s! \cdot t!}} \\ {\text{mit:}} \\ r + s + t = n \\ \end{gathered}\)
Variation (Auswahl bzw. geordnete Stichprobe ohne Zurücklegen, Reihenfolge relevant) Urnenmodel: Ziehen von nur k aus n unterscheidbaren Kugeln, wobei die Reihenfolge beachtet wird	nur k Elemente (Stichprobe) werden verwendet	relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\)	ohne	\(\dfrac{{n!}}{{\left( {n - k} \right)!}} = \left( {\begin{array}{*{20}{c}} n\\ k \end{array}} \right) \cdot k!\)
Variation (Auswahl bzw. geordnete Stichprobe mit Zurücklegen, Reihenfolge relevant) Urnenmodel: Ziehen von nur k aus n unterscheidbaren Kugeln, von denen manche mehrfach vorkommen können, wobei die Reihenfolge beachtet wird	nur k Elemente (Stichprobe) werden verwendet	relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\)	mit	\({n^k}\)
Kombination (Teilmenge bzw. ungeordnete Stichprobe ohne Zurücklegen, Reihenfolge egal) Urnenmodel: Ziehen von nur k aus n unterscheidbaren Kugeln, ohne Beachtung der Reihenfolge mit N … Anzahl der Elemente insgesamt M … Anzahl der Elemente, die als Erfolg gelten n … Anzahl der im Rahmen des Experiments gezogenen Elemente x … Anzahl der Treffer	nur k Elemente (Stichprobe) werden verwendet	egal (a,b)=(b,a)	ohne	Anzahl: \(\dfrac{{n!}}{{\left( {n - k} \right)! \cdot k!}} = \left( {\begin{array}{{20}{c}} n\\ k \end{array}} \right)\) Wahrscheinlichkeit: \(f\left( x \right) = \dfrac{{\left( {\begin{array}{{20}{c}} M\\ x \end{array}} \right) \cdot \left( {\begin{array}{{20}{c}} {N - M}\\ {n - x} \end{array}} \right)}}{{\left( {\begin{array}{{20}{c}} N\\ n \end{array}} \right)}}\)
Kombination (Teilmenge bzw. ungeordnete Stichprobe mit Zurücklegen, Reihenfolge egal) Urnenmodel: Ziehen von nur k aus n Kugeln, von denen manche mehrfach vorkommen können, ohne Beachtung der Reihenfolge	nur k Elemente (Stichprobe) werden verwendet	egal (a,b)=(b,a)	mit	\(\dfrac{{\left( {n + k - 1} \right)!}}{{k! \cdot \left( {n - 1} \right)!}} = \left( {\begin{array}{*{20}{c}} {n + k - 1}\\ k \end{array}} \right)\)

Kombinatorik

Wiederholung mit Zurücklegen

Wiederholung ohne Zurücklegen

Reihenfolge wird berücksichtigt

Reihenfolge egal

Kombinatorische Abzählverfahren

Fakultät

Zu jeder natürlichen Zahl gibt es eine Fakultät. Die Fakultät ist das Produkt aller natürlichen Zahlen größer als Null, die kleiner oder gleich der jeweiligen natürlichen Zahl sind, von der die Fakultät bestimmt werden soll. "n!" oder „n Faktorielle“ oder “n Fakultät“ sind entsprechende vereinfachte Schreibweisen für Fakultät. F

\(n! = 1 \cdot 2 \cdot 3 \cdot ... \cdot n = \prod\limits_{i = 1}^n k \) mit \(n \in {\Bbb N}\)

Rechenregeln zur Fakultät

\(\eqalign{ & \left( {n + 1} \right)! = n! \cdot \left( {n + 1} \right) \Rightarrow n! = \dfrac{{\left( {n + 1} \right)!}}{{n + 1}} \cr & 0! = \dfrac{{\left( {0 + 1} \right)!}}{{0 + 1}} = \dfrac{1}{1} = 1 \cr & 1! = \dfrac{{\left( {1 + 1} \right)!}}{{1 + 1}} = \dfrac{{2!}}{2} = \dfrac{{1 \cdot 2}}{2} = 1 \cr} \)

\(\eqalign{ & 0! = 1 \cr & 1! = 1 \cr & 2! = 1 \cdot 2 = 2 \cr & 3! = \left( {1 \cdot 2} \right) \cdot 3 = 2 \cdot 3 = 6 \cr & 4! = \left( {1 \cdot 2 \cdot 3} \right) \cdot 4 = 6 \cdot 4 = 24 \cr & 5! = \left( {1 \cdot 2 \cdot 3 \cdot 4} \right) \cdot 5 = 24 \cdot 4 = 120 \cr & 6! = \left( {1 \cdot 2 \cdot 3 \cdot 4 \cdot 5} \right) \cdot 6 = 120 \cdot 6 = 720 \cr & 7! = \left( {1 \cdot 2 \cdot 3 \cdot 4 \cdot 5 \cdot 6} \right) \cdot 7 = 720 \cdot 7 = 5040 \cr} \)

Fakultät in der Kombinatorik

Permutation: Die Fakultät n! gibt die Anzahl der möglichen unterschiedlichen Reihenfolgen an, die n Elemente einer Menge anzuordnen.
Binomialkoeffizient: Mit Hilfe der Fakultät kann der Binomialkoeffizient \(\left( {\begin{array}{*{20}{c}} n\\ k \end{array}} \right) = \dfrac{{n!}}{{k! \cdot (n - k)!}}\) berechnet werden, der angibt, wie viele Möglichkeiten es gibt, k Elemente aus einer Menge mit n Elementen zu ziehen.

Binomialkoeffizient

Der Binomialkoeffizient „n über k“ besagt, wie viele Möglichkeiten es gibt, k Elemente aus einer Menge von insgesamt n Elementen auszuwählen. Die Reihenfolge der Auswahl spielt keine Rolle.

\(\eqalign{ & \left( {\matrix{ n \cr k \cr } } \right) = {{n!} \over {k!(n - k)!}} = \left( {\matrix{ n \cr {n - k} \cr } } \right); \cr & \left( {\matrix{ n \cr 0 \cr } } \right) = \left( {\matrix{ n \cr n \cr } } \right) = 1; \cr & \left( {\matrix{ n \cr 1 \cr } } \right) = \left( {\matrix{ n \cr {n - 1} \cr } } \right) = n; \cr & \left( {\matrix{ n \cr k \cr } } \right) + \left( {\matrix{ n \cr {k + 1} \cr } } \right) = \left( {\matrix{ {n + 1} \cr {k + 1} \cr } } \right); \cr}\)

\(n,k \in {\Bbb N};\)

Eingabe am Taschenrechner

\(\left( {\begin{array}{*{20}{c}} 9\\ 3 \end{array}} \right) = 9 + Shift + nCr + 3 = 84\)

Explorative Statistik - Data Mining - Big Data

Big Data steht für den Umgang mit großen Datenvolumen (Big Data), vor allem mit besonders großen, dynamischen, schnelllebigen und/oder komplexen Massendaten, gewonnen aus einer zunehmend automatisierten dezentralen Datenerfassung (IoT), die mit den Mitteln der konventionellen Datenverarbeitung (etwa in Data Warehouse Systemen) nicht mehr verarbeitet werden können, weil eine vorab Aufbereitung der Daten (Data Cleansing), wie sie für Data Warehouse Systeme erforderlich sind, zu aufwendig wäre.

Es kommen daher neuartige (Cloud) Betriebssysteme, (Cloud) Datenspeicher und spezielle Prinzipien zur Analyse großer Datenmengen zur Anwendung, die etwa das Ziel von zusätzlichem Produktivitätswachstum verfolgen. Für die Datensicherheit und damit für die Akzeptanz von Cloud Systemen ist die Unterscheidung in private (das Unternehmen hostet die Daten im eigenen Rechenzentrum) bzw. public (AWS, Azure,..) Cloud Systeme entscheidend.

Welchen Wissensgewinn hat ein Unternehmen, den es vorher nicht hatte, bzw. was kann wirtschaftlicher erledigt werden als zuvor, wenn es in Big Data und Data Science investiert? Der Einstieg in Big Data setzt die Bereitschaft voraus, technische, rechtliche und organisatorische Möglichkeiten zu schaffen, große Datenmengen zu sammeln, abzuspeichern und zu verarbeiten. Damit diese Bereitschaft bei den Stakeholdern überhaupt entsteht, muss der Zweck bzw. der Sinn dahinter transparent gemacht werden.

Data Driven Decision Making

Datengestützte Entscheidungsfindung bezeichnet Entscheidungen, deren Basis vorangehende Datenanalysen sind

Data Science

Data Science beschäftigt sich mit Prinzipien, um Wissen aus Daten zu extrahieren und nützt dafür Data Mining

Der zeitliche Ablauf vom Data Science sieht wie folgt aus:

Fragestellung so festlegen, dass die prognostizierten Erkenntnisse Basis für Management-Entscheidungen darstellen können
Einflussgrößen und Einschränkungen identifizieren und gewichten
Datenquellen identifizieren sowie erschließen und Datenqualität sicherstellen
Dezentrale Daten erheben und zentral speichern
Kennzahlen für die Güte und Genauigkeit zum Zweck der Bewertung der Resultate festlegen
Data Mining: Teilaufgaben definieren, passenden toolgestützten Auswertealgorithmus wählen und anwenden, Erkenntnisse extrahieren, Resultate visualisieren, an den Kennzahlen benchmarken und interpretieren
Nachträglicher rückblickender Vergleich der Prognose mit der eingetretenen Realität
Data Driven Decison Making = Managemententscheidungen ableiten

Data Mining Techniken

Data Mining Techniken umfassen konkrete Verfahren und Vorgehensweisen, um Muster in Daten zu finden und dasjenige Wissen aus den Daten zu extrahieren, welches valide, bisher unbekannt und potentiell nützlich ist.

Gängige Data Mining Techniken umfassen Klassifikations- und Abhängigkeitsanalysen

Klassifikationsanalyse

Bei der Klassifikationsanalyse werden bereits vorhandene Ereignisse gemäß ihren qualitativen oder quantitativen Merkmalen zu Klassen (deren Zugehörigkeit einander ausschließt) zusammen gefasst. Bei der Klassifikationsanalyse erfolgt die Zuordnung von einem neuen Ereignis zu einer der bestehenden Klassen z.B. mit Hilfe eines Entscheidungsbaums. (Beispiel: Alter → Einkommen → bestehende Schulden → Kreditwürdig ja/nein)

Entscheidungsbaum: Knoten entspricht Entscheidungskriterium; Blatt entspricht Entscheidung
Gini Index: Minimierung der Heterogenität
Chi-Quadrat Test

Abhängigkeitsanalyse

Bei der Abhängigkeitsanalyse wird z.B. mit Hilfe von „Wenn-Dann“ Regeln nach Abhängigkeiten gesucht. (Beispiel: Wenn Kunde schon Grillkohle und Steak gekauft hat → dann wird der Kunde auch Bier kaufen). Ihr Einsatz bietet sich beispielsweise in Empfehlungssystemen an (Kunden die „A“ gekauft haben, kauften auch gerne „B“)

Regressionsanalyse: Analysiert die Beziehung von einem unabhängigem und einem kausal abhängigen Merkmal.
- Einfache Lineare Regression - Berechnung vom Regressionskoeffizienten
- Multivariante lineare Regression
- Nichtlineare Regression (Maximum-Likehood-Methode) ermittelt den Regressionskoeffizienten so, dass sich eine maximale Auftretenswahrscheinlichkeit ergibt.
Korrelationsanalyse: Beschreibt mittels Kovarianz und Korrelationskoeffizienten den linearen Zusammenhang zwischen 2 Merkmalen und wie stark dieser Zusammenhang ist. Sie trifft keine Aussage über einen kausalen Zusammenhang der beiden Merkmale
Assoziationsanalyse: Die analysierten Daten werden auf Abhängigkeiten hin analysiert, wobei die Prämisse (das ist eine Regel) eine Kombination von Ereignissen die unabhängigen Variablen betreffend, zu einer Konklusion die abhängigen Variablen betreffend führt. Unter einer Transaktion versteht man Summe aller gemeinsam vorkommenden Ereignisse. Die Assoziationsregeln werden mit den Gütekriterien Konfidenz (Stärke des Zusammenhangs gemäß der Regel) und Support (relative Häufigkeit eines Ereignisses an der Datenbasis) bewertet. Algorithmen zur Erstellung von Assoziationsregeln sind
- Der Apriori Algorithmus
- Der FP-Growth, der mit dem Frequent Pattern Tree arbeitet, der aus Transaktionen aufgebaut wird.
Clustering: Lassen sich vorab keine Klassen identifizieren (z.B. im Bereich der Ideenfindung) so werden beim Clustering die Daten so in „Anhäufungen/Gruppen“ von ähnlichen Merkmalen eingeteilt (z.B. in 4-Quadraten), dass mathematisch gesprochen die Summe der quadrierten Abweichungen von den Gruppenschwerpunkten ein Minimum annimmt. (k-Means-Algorithmus). Clustering kann dazu verwendet werden, große Datenmengen auf wenige, einander aber ähnliche „repräsentative“ Daten zu reduzieren.
- k-Means Clustering: \({\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^k {\left| {{x_{ij}} - {c_j}} \right|} } ^2}\) wobei der Term zwischen den Betragszeichen dem Abstand vom Datenpunkt i zum Clusterzentrum j definiert und \(i \gg j\) gilt.

Big Data Toolsets

Python: Programmiersprache, speziell um große Datenmengen zu sammeln, zu strukturieren, zu analysieren und zu visualisieren.
Scipy: Python basierte Software für wissenschaftliche Berechnungen
NumPy: Python basierte Software zur Bearbeitung von array-basierten Daten wie Matrizen
Pandas: Python basierte Software zur Bearbeitung von Zeitreihen
MatPlotLib: Python basierte Software zur Datenvisualisierung
Hadoop: Frei verfügbares Java Framework, basierend auf dem MapReduce Algorithmus von Google, welches es ermöglicht, Datenanalysen im PetaByte Bereich (10¹⁵ Byte) auf verteilten skalierbaren Computerclustern durchzuführen.
HBase: Spaltenorientiertes nicht rationales Datenbanksystem, mit spezieller Unterstützung für performante Datenverarbeitung auf Hadoop basierten Plattformen
MongoDB: Weit verbreitete dokumentenorientierte , nahezu unbegrenzt skalierbare Non-SQL Datenbank zur Verwaltung und nachfolgender Analyse von JSON basierten Dokumenten auf Node.js Plattformen

Big Data

Explorative Statistik

Data Science

Data Mining

Data Driven Decison Making

Streuung

Unter Streuung versteht man die Verteilung der einzelnen Werte um den Mittelwert. Eine schwache Streuung bedeutet dass die Werte dicht beim Mittelwert liegen, während eine starke Streuung bedeutet, dass die Werte entfernt vom Mittelwert liegen.

Beispiel:
Die Werte 100, 200 und 300 haben einen Mittelwert von 200. Die Werte 199, 200 und 201 haben ebenfalls den Mittelwert 200, sie sind streuen aber erheblich weniger.

Streumaße

Streumaße geben Auskunft über die Breite der Verteilung, also zur Variabilität der Werte. Streumaße messen die Streuung.

R	Spannweite (engl. range)
e	Mittlere lineare Abweichung
\({{s^2}{\text{ bzw}}{\text{. }}{\sigma ^2}}\)	Varianz
\({s{\text{ bzw}}{\text{. }}\sigma }\)	Standardabweichung

Streudiagramme

Streudiagramme bilden paarweise verknüpfte Datensätze (X, Y) in Form einer zweidimensionalen Punktwolke ab.

Spannweite

Die Spannweite R (engl. range) ist die Differenz zwischen dem größten und dem kleinsten Wert der geordneten Datenreihe. Sie beinhaltet lediglich eine Aussage bezüglich der beiden Extremwerte, erlaubt aber keine Aussage bezüglich der Struktur der Einzelwertverteilung zwischen den beiden Extremwerten.

\(R = {x_{{\text{max}}}} - {x_{{\text{min}}}}\)

Mittlere lineare Abweichung

Der mittleren linearen Abweichung liegt der Abstand von jedem einzelnen Wert x_i zum arithmetischen Mittelwert \(\overline x\) zugrunde.

\(e = \dfrac{{\left| {{x_1} - \overline x } \right| + \left| {{x_2} - \overline x } \right| + ...\left| {{x_n} - \overline x } \right|}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {\left| {{x_i} - \overline x } \right|}\)

Varianz

Die Varianz dient der Beschreibung einer Wahrscheinlichkeitsverteilung, sie ist ein Streumaß der beschreibenden Statistik. Die Varianz ist ein Maß für die quadrierte durchschnittliche Entfernung aller Messwerte vom arithmetischen Mittelwert also dem Erwartungswert. Der Varianz liegt also der quadrierte Abstand jedes einzelnen Werts x_i zum arithmetischen Mittelwert \(\overline x \) zugrunde. Die Varianz hat daher eine andere Einheit als die Messwerte, nämlich deren Quadrat. Diese "Unschönheit" löst man auf, indem man mit der Standardabweichung arbeitet, welche die Quadratwurzel aus der Varianz ist.

\(\eqalign{ & {s^2} = {\sigma ^2} =Var(X)=V(X)= \dfrac{{{{\left( {{x_1} - \overline x } \right)}^2} + {{\left( {{x_2} - \overline x } \right)}^2} + ...{{\left( {{x_n} - \overline x } \right)}^2}}}{n} \cr & {s^2} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} \cr}\)

Empirische Varianz

Das Wort "empirisch" weist darauf hin, dass alle Daten der Grundgesamtheit analysiert werden, die aus der Beobachtung eines Prozesses gewonnen wurden.

Varianz einer Stichprobe berechnen

Bei der Stichprobenvarianz wird die Summe der quadrierten Abweichungen nicht durch die Anzahl der erhobenen Merkmalsausprägungen n sondern - so wie auch bei der Standardabweichung einer Stichprobe - durch (n-1) dividiert. Für die Varianz einer Stichprobe vom Umfang n gilt:

\({s_{n - 1}}^2 = \dfrac{1}{{n - 1}} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}}\)

Bessel-Korrektur

Die Bessel-Korrektur ist eine statistische Anpassung, die angewendet wird, um eine verzerrte Schätzung der Stichprobenvarianz zu korrigieren. Sie wird verwendet, wenn die Stichprobenvarianz dazu neigt, die wahre Varianz der Grundgesamtheit zu unterschätzen. Das ist vor allem bei kleinen Stichproben der Fall. Die Bessel-Korrektur besteht darin, den Nenner von (n - 1) auf n zu ändern, wodurch die Varianz größer wird:

\({s_{n}}^2 = \dfrac{1}{{n}} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}}\)

Varianz \(\sigma ^2\) einer diskreten Zufallsvariablen X mit den Werten x₁, x₂, ..., x_kberechnen

\({\sigma ^2} = Var\left( X \right) = E{\left( {X - E\left( X \right)} \right)^2} = E\left( {{X^2}} \right) - {\left( {E\left( X \right)} \right)^2}\)

Von jedem Wert x_i der Zufallsvariablen X wird der Erwartungswert \(E\left( X \right) = \mu \) abgezogen.
Diese Differenz wird quadriert
Davon bildet man erneut den Erwartungswert, um so die Varianz zu erhalten.

\({\sigma ^2} = V\left( X \right) = Var\left( X \right) = {\sum\limits_{i = 1}^k {\left( {{x_i} - \mu } \right)} ^2} \cdot P\left( {X = {x_i}} \right) = {\sum\limits_{i = 1}^k {\left( {{x_i} - E\left( X \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right)\)

Es wird jeweils vom Wert x_i der diskreten Zufallsvariablen X der Erwartungswert E(X) abgezogen.
Diese Differenz quadriert man und anschließend multipliziert man noch mit der Wahrscheinlichkeit P(X = x_i).
So verfährt man mit jedem Wert x_i und summiert letztlich die einzelnen Ergebnisse auf, um so die Varianz zu erhalten.

Standardabweichung

Die Standardabweichung ist ein Maß für die durchschnittliche Entfernung aller Messwerte vom arithmetischen Mittelwert. Je stärker die Werte um den arithmetischen Mittelwert streuen um so höher ist die Standardabweichung. Die Standardabweichung einer Stichprobe ist umso größer, je kleiner der Stichprobenumfang ist. Der Graph der Dichtefunktion ist umso breiter und verläuft umso flacher, je kleiner die Stichprobe ist.

\(\sigma\) ist die übliche Bezeichnung, wenn es sich um die Standardabweichung der Grundgesamtheit handelt.
s ist die übliche Bezeichnung, wenn die Standardabweichung aus einer Stichprobe ermittelt wurde.

Beispiel: 10 Personen werden gefragt, wie viel sie für einen Sommerurlaub ausgeben. Der Mittelwert der 10 Ausgaben liegt bei 2.000€, die Standardabweichung liegt bei 200 €. Das bedeutet dass die durchschnittliche Entfernung aller Antworten vom Mittelwert 200 € beträgt.

Unterschied Standardabweichung und Varianz

Die Standardabweichung ist ein Maß für die durchschnittliche, während die Varianz ein Maß für das Quadrat der durchschnittlichen Entfernung aller Messwerte vom arithmetischen Mittelwert ist.
Der Vorteil der Standardabweichung gegenüber der Varianz ist, dass nicht Quadrate der Einheiten (z.B. Euro²) sondern die eigentlichen Einheiten der gemessenen Werte (z.B. Euro) verwendet werden.
Die Standardabweichung ist die Wurzel aus der Varianz. Standardabweichung und Varianz sind direkt proportional zu einander.

Auswirkung von "Ausreißern"

Datenreihe	mittlere lineare Abweichung	Varianz	Standardabweichung	wahrer Mittelwert
(10,10,10,10)	0	0	0	10
(10,10,10,9)	0,375	0,25	0,5	9,75
(10,10,10,8)	0,75	1	1	9,5
(10,10,10,2) "Ausreißer"	3	16	4	8

Standardabweichung einer Vollerhebung berechnen

Standardabweichung einer Vollerhebung berechnen, bei der man den wahren Mittelwert kennt → \(\dfrac{1}{n}\)

Die (empirische) Standardabweichung ist ein Maß dafür, wie weit im Durchschnitt die einzelnen Messwerte vom Erwartungswert entfernt liegen, d.h. wie weit die einzelnen Messwerte um den Erwartungswert streuen. Je kleiner die Standardabweichung ist, um so besser repräsentiert der Erwartungswert die einzelnen Messwerte.

Betrachten wir einen extremen Fall: Sind alle einzelnen Messwerte gleich, dann ist die Standardabweichung null, weil dann alle Messwerte zu ihrem Erwartungswert gleich sind.
Die Standardabweichung ist immer größer gleich Null.

\(\eqalign{ & s = \sqrt {{s^2}} = \sigma = \sqrt {{\sigma ^2}} = \sqrt {\dfrac{{{{\left( {{x_1} - \overline x } \right)}^2} + {{\left( {{x_2} - \overline x } \right)}^2} + ...{{\left( {{x_n} - \overline x } \right)}^2}}}{n}} \cr & s=\sigma = \sqrt {\dfrac{1}{n} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}\,\,} } \cr}\)

\(s=\sigma = \sqrt {Var\left( X \right)} \)

Standardabweichung einer Stichprobe berechnen

Die Stichprobenstandardabweichung ist umso größer, je kleiner der Stichprobenumfang n ist. Der Graph der Dichtefunktion ist umso breiter und verläuft umso flacher, je kleiner die Stichprobe ist. Die Standardabweichung der Stichprobe entspricht dem Abstand der Wendepunkte vom Graph der Dichtefunktion bis zum Erwartungswert der Stichprobe.

Standardabweichung einer Stichprobe vom Umfang n berechnen, bei der man den wahren Mittelwert nicht kennt → \(\dfrac{1}{{n - 1}}\)

\({s} = \sqrt {\dfrac{1}{{n - 1}} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}\,\,} } \)

Standardabweichung einer Stichprobe vom Umfang n berechnen, bei gegebener absoluter Häufigkeit n₁, .., n_k→ \(\dfrac{1}{{n - 1}}\)

\(s = \sqrt {\dfrac{1}{{n - 1}} \cdot \sum\limits_{i = 1}^k {{n_k} \cdot {{\left( {{x_i} - \overline x } \right)}^2}} } \)

Standardabweichung einer Stichprobe vom Umfang n berechnen, bei gegebener relativer Häufigkeit h₁,..., h_k→ \(\dfrac{1}{{n - 1}}\)

\(s = \sqrt {\dfrac{n}{{n - 1}} \cdot \sum\limits_{i = 1}^k {{h_k} \cdot {{\left( {{x_i} - \overline x } \right)}^2}} } \)

Standardfehler bzw. Stichprobenfehler

Der Standardfehler (SEM = Standard Error of the Mean) ist ein Maß dafür, inwieweit die Standardabweichung einer Stichprobe σ_Svon der Standardabweichung der Grundgesamtheit σabweicht. Wenn die Standardabweichung der Grundgesamtheit σ und die Stichprobengröße n bekannt sind, gilt:

\(SEM = {\sigma _S} = \dfrac{\sigma }{{\sqrt n }}\)

Je größer die Stichprobe, die ja im Nenner steht, umso kleiner der Standardfehler.

Unterschied Standardabweichung und Standardfehler

Die Standardabweichung ist ein Maß für die durchschnittliche Entfernung aller Messwerte vom arithmetischen Mittelwert. Sie beeinflusst Breite und Höhe vom Graph der Dichtefunktion
Der Standardfehler ist ein Maß für mittlere Abweichung des Mittelwerts von lediglich einer Stichprobe zum Mittelwert der realen Grundgesamtheit.

Varianz einer Stichprobe

Streudiagramme

Standardfehler

Standardabweichung einer Stichprobe

Zusammenhang Standardabweichung von Stichprobe und Grundgesamtheit

Bessel-Korrektur

Fragen oder Feedback

Wissenspfad

Cloud Betriebssysteme

Ein Cloud OS dient zum Betrieb von Servern, Datenspeichern, Netzwerkkomponenten und Applikationen in Form einer virtualisierten IT-Infrastruktur und deren grundsätzlicher Unabhängigkeit vom tatsächlichen physikalischen Standort der HW. Bei Public Cloud Systemen teilen sich verschiedene Anwendungen die IT-Infrastruktur, ohne von der jeweils anderen Anwendung konkret etwas zu wissen, wodurch die Ressourcen optimal ausgelastet werden können und Preisvorteile gegenüber Private Cloud Systemen mit ihrer dedizierten HW entstehen. Der Betreiber vom Cloud Service garantiert seinen Kunden die vorher vereinbarte Verfügbarkeit, Performance und Sicherheit in Form von einem SLA (Service Level Agreement).

Beispiele für Cloud Betriebssysteme sind:

Windows Azure von Microsoft
Google App Engine von Google
vSphere von VMware
OpenStack von OpenStack Foundation
MindSphere das IoT-Betriebssystem von Siemens

Beispiele für Cloud-Plattformen

AWS Amazon Web Services von Amazon
Azure von Microsoft
Bluemix von IBM
G Suite von Google

Private vs. Public Cloud

Data Mining basiert auf der IT-gestützten Verarbeitung großer Datenmengen, die aus Kostengründen bevorzugt cloudbasiert gehostet werden. dabei unterscheidet man in

Private Cloud

On Premise Private Cloud: Die Cloud wird vor Ort auf Servern des Unternehmens installiert, welches die exklusiven Nutzungsrechte inne hat. Vorteil: Sehr sicher; Nachteil: Keine CAPEX oder OPEX Kostenteilung, mangelnde Ausfallsicherheit.
Hosted Solution: Die Cloud wird auf physikalisch benennbaren Servern eines spezialisierten 3rd Party Service Providers gehostet und exklusiv von einem Unternehmen genutzt. Man spricht auch von „Dedizierten Servern“. Vorteil: Hohe Skalierbarkeit, verlagert einen Teil der CAPEX auf den Service Provider.

Public Cloud

Mehrere Unternehmen teilen sich eine Infrastruktur, die bei einem spezialisierten 3rd Party Service Provider gehostet wird. Bezahlt wird abhängig vom individuellen Nutzungsgrad pro Abrechnungsperiode. Vorteil: reduziert CAPEX und OPEX. Der Eigentümer der Daten weiß aber nicht mehr auf genau welcher HW seine Daten gehostet werden. Er kann zum Bespiel nur mehr sagen "innerhalb der EU".

Cloud Betriebssystem

Private vs. Public Cloud

Fragen oder Feedback

Wissenspfad

Aufgaben

Kovarianz - Korrelation - Scheinkorrelation - Regression

Kovarianz

Die Kovarianz ist ein dimensionsloses Maß für die Stärke vom linearen Zusammenhang zweier Datensätze x₁, x₂, … , x_n bzw. y₁, y₂, … y_n, deren Merkmale metrisch und stetig sind.

Korrelation

Korrelation beschreibt eine statistische Beziehung zwischen zwei Variablen, bei der Veränderungen in einer Variable mit Veränderungen in der zweiten Variable zusammen auftreten. Wenn zwei Variablen korrelieren, bedeutet dies, dass eine Veränderung in einer Variable mit einer Veränderung in der anderen Variable einhergeht (=korreliert). Im Unterschied zur Kovarianz ist bei der Korrelation eine Standardisierung erfolgt, was Vergleiche erlaubt. Die Korrelation bzw. der Korrelationskoeffizient r ist ein Maß für die lineare Abhängigkeit von 2 Datensätzen. Der Korrelationskoeffizient besitzt Werte zwischen -1 bis +1.

r=-1: Es besteht ein gegenläufiger Zusammenhang. Eine Größe nimmt zu, die andere Größe nimmt ab
r=0: Es besteht kein linearer Zusammenhang
r=+1: Es besteht ein gleichläufiger Zusammenhang. Wenn eine Größe zunimmt, nimmt auch die andere Größe im selben Ausmaß zu

Ob ein Korrelationskoeffizient ab 0,5 oder erst ab 0,9 als "hoch" einzuschätzen ist, hängt von der jeweiligen Fragestellung ab. Man kann von Änderungen eines Datensatzes, gemäß dem Korrelationskoeffizient r nach Pearson Vorhersagen über die Änderung des anderen Datensatzes treffen und vice versa, ohne dass es eine Kausalbeziehung zwischen den Datensätzen gibt. Achtung: Korrelation impliziert keinen kausalen Zusammenhang zwischen den Datensätzen.

Scheinkorrelation

Von einer Scheinkorrelation spricht man, wenn es zwischen zwei Datensätzen zwar eine Korrelation gibt, diese aber auf keinen Ursache-Wirkungs Zusammenhang zurückgeführt werden kann. Korrelation bedeutet nämlich nicht zwangsläufig, dass eine Variable die Ursache für die Veränderung der anderen Variable ist.

Die Problematik bezüglich der Scheinkorrelation soll an Anhand eines Beispiels veranschaulicht werden: Seit Jahrzehnten sinkt die Anzahl an Störchen und die Anzahl an Geburten im Burgenland. D.h. die beiden Datensätze (Störche, Geburten) entwickeln sich in dieselbe Richtung und sind korreliert und man kann auch einen Korrelationskoeffizienten r > 0 berechnen. Dennoch gibt es keine Kausalität (kein Ursache- Wirkungsprinzip, kein Zusammenhang) zwischen den Datensätzen und es wäre daher falsch, auf Auswirkungen von einem Datensatz (Anzahl Störche) auf den anderen Datensatz (Anzahl Geburten) zu schließen.

Wenn eine Variable oder ein Ereignis eine Veränderung in einer anderen Variable oder einem anderen Ereignis verursacht, spricht man von Kausalität. Wenn man also berechtigt von einem Datensatz auf einen anderen korrelierten Datensatz schließen will, muss man zusätzlich die Kausalität, etwa durch ein Experiment oder einer Regressionsanalyse nachweisen, um eine allfällige Scheinkorrelation auf Grund einer tatsächlich bestehenden Korrelation ohne kausalem Zusammenhang ausschließen zu können!

Regression

Die Regression geht über die Korrelation hinaus uns setzt einen Ursache Wirkungszusammenhang (Kausalität) voraus. Daher gibt es eine unabhängige Variable (X, Regressor, Ursache) und eine abhängige Variable (Y, Regressand, Wirkung).

Lineare Regression

Ziel der linearen Regression ist es eine abhängige Variable (Y, Regressand) aus einer unabhängigen Variable (X, Regressor) mittels einer linearen Funktion, der Regressionsgeraden zu berechnen, um aus dem bekannten Zustand von X Vorhersagen für den unbekannten Zustand von Y treffen zu können. Dazu sollen die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden (Gerade = linearer Zusammenhang) minimiert werden. Alle Punkte eines Streudiagramms (nicht einzelne ! Punkte) haben den minimalen Abstand zur Regressionsgeraden.

Kovarianz

Die Kovarianz ist ein dimensionsbehaftetes Maß für die Stärke vom linearen Zusammenhang zweier metrischer Datensätze x₁, x₂, … , x_n bzw. y₁, y₂, … y_n.

\(Cov\left( {x,y} \right) = \dfrac{{\sum\limits_{i = 1}^N {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{N - 1}}\)

Die Kovarianz ist leider anfällig gegenüber Ausreißer, nicht standardisiert und daher für Vergleiche ungeeignet. Standardisiert man die Kovarianz, erhält man die Korrelation.

\(Cov\left( {X,Y} \right) = 0\) ⇒ X und Y sind unkorreliert. D.h. aber nicht, dass sie auch unabhängig sein müssen.

Korrelationsanalyse

Mit einer Korrelationsanalyse werden Maßzahlen errechnet, um die Stärke eines linearen Zusammenhangs zweier Datensätze, deren Merkmale metrisch und stetig sind, zu quantifizieren. Beispiele für solch eine Maßzahl sind

die Kovarianz
der Korrelationskoeffizient r nach Pearson

Korrelationskoeffizient nach Pearson

Die Korrelation ist ein Maß für den linearen Zusammenhang zwischen zwei Datensätzen (Variablen). Der Korrelationskoeffizient nach Pearson ist eine von mehreren Möglichkeiten diesen Zusammenhang zu quantifizieren.

Für einen Wert nahe bei +/- 1 besteht ein hoher linearer Zusammenhang
Für einen Wert nahe bei 0 besteht kein linearer Zusammenhang
Dessen ungeachtet kann aber ein nicht-linearer Zusammenhang bestehen

\(r(x,y) = \rho \left( {x,y} \right) = \dfrac{{Cov\left( {x,y} \right)}}{{\sqrt {Var\left( x \right) \cdot Var\left( y \right)} }} = \dfrac{{Cov\left( {x,y} \right)}}{{\sigma \left( x \right) \cdot \sigma \left( y \right)}}\)

Für den Korrelationskoeffizient r nach Pearson, dessen Wert zwischen -1 und 1 liegt gilt:

Bei positiver Kovarianz / Korrelation r > 0 ändern sich die beiden Datensätze in dieselbe Richtung.
Bei negativer Kovarianz / Korrelation r < 0 steigt ein Datensatz an während der andere Datensatz abnimmt.
Bei einer Kovarianz / Korrelation r = 0 sind die beiden Datensätze unabhängig / unkorreliert voneinander.

Regressionsanalyse

Eine Regressionsanalyse geht über die Korrelationsanalyse hinaus (!) indem sie einen Ursache-Wirkungszusammenhang beschreibt. Ihr Ziel ist es einen mathematischen Zusammenhang zwischen unabhängigen und abhängigen Variablen herzustellen. Ist dieser Zusammenhang linear, so spricht man von einer Regressionsgeraden, andernfalls von einer Regressionsfunktion.

Regressionsgerade

Die Regressionsgerade stellt einen linearen Zusammenhang zwischen einer unabhängigen Variabel und einer abhängigen Variablen die vorhergesagt werden soll her. Die Regressionsgerade ist die bestmögliche Gerade, die man in einem Streudiagramm durch alle Daten legen kann, sodass alle Datenpunkte von der Geraden in Summe den kleinsten Abstand haben.

\(\eqalign{ & {\text{f}}\left( x \right){\text{ = y = k}} \cdot {\text{x + d}} \cr & k = \dfrac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }} = {r_{xy}} \cdot \dfrac{{{s_y}}}{{{s_x}}} \cr & d = \overline y - b \cdot \overline x \cr}\)

\({r_{xy}}\)	Pearson Korrelation
\({{\text{s}}_x},\,\,{s_y}\)	Standardabweichungen
\(\overline x ,\,\,\overline y \)	Mittelwerte der gemessenen Daten x_i und y_i
(x₁,y₁), ... (x_n,y_n)	Wertepaare