Stochastik
Wissenswertes über: Kombinatorik, Beschreibende Statistik - Lagemaße + Streumaße, Schließende Statistik - Wahrscheinlichkeitsrechnung und Exporative Statistik - Data Mining
Hier findest du folgende Inhalte
Formeln
Standardnormalverteilung Tabelle Phi von z
Werte der Verteilungsfunktion \(\Phi \left( z \right) = P\left( {Z \leqslant z} \right){\text{ mit }}z \geqslant 0\)
- Ablesebeispiel: \(\Phi \left( {1,55} \right) = \Phi \left( {1,5 + 0,05} \right) = 0,9394\)
- Funktionswerte für negative Argumente: \(\Phi \left( { - z} \right) = 1 - \Phi \left( z \right)\)
- Ablesebeispiel für z-Quantile: \(z\left( {0,9394} \right) = 1,55\) Ablesebeispiel ist grün eingezeichnet
z-Quantile
z-Quantile sind statistische Maße, die in der Wahrscheinlichkeitsverteilung einer Standardnormalverteilung verwendet werden. Die Standardnormalverteilung hat einen Mittelwert von 0 und eine Standardabweichung von 1.
Z-Quantile geben an, an welcher Stelle in der Verteilung sich ein bestimmter Prozentsatz der Daten befindet. Ein Z-Quantil ist ein Wert, der angibt, wie viele Standardabweichungen ein bestimmter Wert von der durchschnittlichen Verteilung entfernt ist. Zum Beispiel entspricht das Z-Quantil 1 einem Wert, der eine Standardabweichung über dem Durchschnitt liegt, während das Z-Quantil -1 einem Wert entspricht, der eine Standardabweichung unter dem Durchschnitt liegt.
Die Z-Quantile werden häufig verwendet, um Signifikanzniveaus in der Statistik zu bestimmen. Zum Beispiel entspricht das Z-Quantil 1,55 dem 93,94 Perzentil, was bedeutet, dass 93,94 Prozent der Daten unterhalb dieses Wertes liegen.
0,00 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 | |
0,0 | 0,5000 | 0,5040 | 0,5080 | 0,5120 | 0,5160 | 0,5199 | 0,5239 | 0,5279 | 0,5319 | 0,5359 |
0,1 | 0,5398 | 0,5438 | 0,5478 | 0,5517 | 0,5557 | 0,5596 | 0,5636 | 0,5675 | 0,5714 | 0,5753 |
0,2 | 0,5793 | 0,5832 | 0,5871 | 0,5910 | 0,5948 | 0,5987 | 0,6026 | 0,6064 | 0,6103 | 0,6141 |
0,3 | 0,6179 | 0,6217 | 0,6255 | 0,6293 | 0,6331 | 0,6368 | 0,6406 | 0,6443 | 0,6480 | 0,6517 |
0,4 | 0,6554 | 0,6591 | 0,6628 | 0,6664 | 0,6700 | 0,6736 | 0,6772 | 0,6808 | 0,6844 | 0,6879 |
0,5 | 0,6915 | 0,6950 | 0,6985 | 0,7019 | 0,7054 | 0,7088 | 0,7123 | 0,7157 | 0,7190 | 0,7224 |
0,6 | 0,7257 | 0,7291 | 0,7324 | 0,7357 | 0,7389 | 0,7422 | 0,7454 | 0,7486 | 0,7517 | 0,7549 |
0,7 | 0,7580 | 0,7611 | 0,7642 | 0,7673 | 0,7704 | 0,7734 | 0,7764 | 0,7794 | 0,7823 | 0,7852 |
0,8 | 0,7881 | 0,7910 | 0,7939 | 0,7967 | 0,7995 | 0,8023 | 0,8051 | 0,8078 | 0,8106 | 0,8133 |
0,9 | 0,8159 | 0,8186 | 0,8212 | 0,8238 | 0,8264 | 0,8289 | 0,8315 | 0,8340 | 0,8365 | 0,8389 |
0,00 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 | |
1,0 | 0,8413 | 0,8438 | 0,8461 | 0,8485 | 0,8508 | 0,8531 | 0,8554 | 0,8577 | 0,8599 | 0,8621 |
1,1 | 0,8643 | 0,8665 | 0,8683 | 0,8708 | 0,8729 | 0,8749 | 0,8770 | 0,8790 | 0,8810 | 0,8830 |
1,2 | 0,8849 | 0,8869 | 0,8888 | 0,8907 | 0,8925 | 0,8944 | 0,8962 | 0,8980 | 0,8997 | 0,9015 |
1,3 | 0,9032 | 0,9049 | 0,9066 | 0,9082 | 0,9099 | 0,9115 | 0,9131 | 0,9147 | 0,9162 | 0,9177 |
1,4 | 0,9192 | 0,9207 | 0,9222 | 0,9236 | 0,9251 | 0,9265 | 0,9279 | 0,9292 | 0,9306 | 0,9319 |
1,5 | 0,9332 | 0,9345 | 0,9357 | 0,9370 | 0,9382 | 0,9394 | 0,9406 | 0,9418 | 0,9429 | 0,9441 |
1,6 | 0,9452 | 0,9463 | 0,9474 | 0,9484 | 0,9495 | 0,9505 | 0,9515 | 0,9525 | 0,9535 | 0,9545 |
1,7 | 0,9554 | 0,9564 | 0,9573 | 0,9582 | 0,9591 | 0,9599 | 0,9608 | 0,9616 | 0,9625 | 0,9633 |
1,8 | 0,9648 | 0,9649 | 0,9656 | 0,9664 | 0,9671 | 0,9678 | 0,9686 | 0,9693 | 0,9699 | 0,9706 |
1,9 | 0,9713 | 0,9719 | 0,9726 | 0,9732 | 0,9738 | 0,9744 | 0,9750 | 0,9756 | 0,9761 | 0,9767 |
0,00 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 | |
2,0 | 0,9772 | 0,9778 | 0,9783 | 0,9788 | 0,9793 | 0,9798 | 0,9803 | 0,9808 | 0,9812 | 0,9817 |
2,1 | 0,9821 | 0,9826 | 0,9830 | 0,9834 | 0,9838 | 0,9842 | 0,9846 | 0,9850 | 0,9854 | 0,9853 |
2,2 | 0,9861 | 0,9864 | 0,9868 | 0,9871 | 0,9875 | 0,9878 | 0,9881 | 0,9884 | 0,9887 | 0,9890 |
2,3 | 0,9893 | 0,9896 | 0,9898 | 0,9901 | 0,9904 | 0,9906 | 0,9909 | 0,9911 | 0,9913 | 0,9916 |
2,4 | 0,9918 | 0,9920 | 0,9922 | 0,9925 | 0,9927 | 0,9929 | 0,9931 | 0,9932 | 0,9934 | 0,9936 |
2,5 | 0,9938 | 0,9940 | 0,9941 | 0,9943 | 0,9945 | 0,9946 | 0,9948 | 0,9949 | 0,9951 | 0,9952 |
2,6 | 0,9953 | 0,9955 | 0,9956 | 0,9957 | 0,9959 | 0,9960 | 0,9961 | 0,9962 | 0,9963 | 0,9964 |
2,7 | 0,9965 | 0,9966 | 0,9967 | 0,9968 | 0,9969 | 0,9970 | 0,9971 | 0,9972 | 0,9973 | 0,9974 |
2,8 | 0,9974 | 0,9975 | 0,9976 | 0,9977 | 0,9977 | 0,9978 | 0,9979 | 0,9979 | 0,9980 | 0,9981 |
2,9 | 0,9981 | 0,9982 | 0,9982 | 0,9983 | 0,9984 | 0,9984 | 0,9985 | 0,9985 | 0,9986 | 0,9986 |
0,00 | 0,01 | 0,02 | 0,03 | 0,04 | 0,05 | 0,06 | 0,07 | 0,08 | 0,09 | |
3,0 | 0,9987 | 0,9987 | 0,9987 | 0,9988 | 0,9988 | 0,9989 | 0,9989 | 0,9989 | 0,9990 | 0,9990 |
3,1 | 0,9990 | 0,9991 | 0,9991 | 0,9991 | 0,9992 | 0,9992 | 0,9992 | 0,9992 | 0,9993 | 0,9993 |
3,2 | 0,9993 | 0,9993 | 0,9994 | 0,9994 | 0,9994 | 0,9994 | 0,9994 | 0,9995 | 0,9995 | 0,9995 |
3,3 | 0,9995 | 0,9995 | 0,9995 | 0,9996 | 0,9996 | 0,9996 | 0,9996 | 0,9996 | 0,9996 | 0,9997 |
3,4 | 0,9997 | 0,9997 | 0,9997 | 0,9997 | 0,9997 | 0,9997 | 0,9997 | 0,9997 | 0,9997 | 0,9998 |
3,5 | 0,9998 | 0,9998 | 0,9998 | 0,9998 | 0,9998 | 0,9998 | 0,9998 | 0,9998 | 0,9998 | 0,9998 |
3,6 | 0,9998 | 0,9998 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 |
3,7 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 |
3,8 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 | 0,9999 |
3,9 | 1,0000 | 1,0000 | 1,0000 | 1,0000 | 1,0000 | 1,0000 | 1,0000 | 1,0000 | 1,0000 | 1,0000 |
Schon den nächsten Badeurlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Damit niemand mehr bei Mathe in's Schwimmen kommt!
Kombinatorik
Die Kombinatorik beschäftigt sich damit, die Anzahl der Elemente von endlichen Mengen geschickt (also durch Rechnen, nicht durch Zählen) zu bestimmen. Sie untersucht die Fragestellung, wie viele Möglichkeiten es gibt, eine endliche Anzahl an Objekten anzuordnen oder auszuwählen.
Dabei unterscheidet man zwischen
- mit / ohne Berücksichtigung der Reihenfolge
- mit / ohne Zurücklegen
- ob alle n Elemente oder nur k (k<=n) Elemente verwendet werden
Kombinatorische Abzählverfahren
Man unterscheidet bei den kombinatorischen Abzählverfahren zwischen Permutationen, Variationen bzw. Kombinationen je nachdem ob alle Elemente (Permutation) oder nur eine Stichprobe verwendet werden. Wird eine Stichprobe verwendet unterscheidet man weiters ob die Reihenfolge relevant (Variation) oder irrelevant (Kombination) ist. Zuletzt unterscheidet man bei allen 3 kombinatorischen Abzählverfahren ob Elemente zurückgelegt werden oder ob nicht.
1. Unterscheidung: alle Elemente oder Stichprobe |
2. Unterscheidung, falls Stichprobe: Reihenfolge relevant oder egal | 3. Unterscheidung: mit oder ohne Wiederholung | ||
Kombinatorische Abzählverfahren | Elemente der Grundmenge | Reihenfolge bzw. Anordnung | Wiederholung, Zurücklegen, treten Elemente mehrfach auf |
Anzahl |
Permutation Urnenmodel: Ziehen aller n unterscheidbaren Kugeln ohne Zurücklegen, wobei die Reihenfolge beachtet wird |
alle n Elemente müssen verwendet werden | relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\) |
ohne | \(n!\) |
Permutation Urnenmodel: Ziehen aller n Kugeln, von denen manche r, s und t fach vorkommen / mit Zurücklegen, wobei die Reihenfolge beachtet wird |
alle n Elemente müssen verwendet werden | relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\) |
mit | \(\begin{gathered} \dfrac{{n!}}{{r! \cdot s! \cdot t!}} \\ {\text{mit:}} \\ r + s + t = n \\ \end{gathered}\) |
Variation Urnenmodel: Ziehen von nur k aus n unterscheidbaren Kugeln, wobei die Reihenfolge beachtet wird |
nur k Elemente (Stichprobe) werden verwendet | relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\) |
ohne | \(\dfrac{{n!}}{{\left( {n - k} \right)!}} = \left( {\begin{array}{*{20}{c}} n\\ k \end{array}} \right) \cdot k!\) |
Variation Urnenmodel: Ziehen von nur k aus n unterscheidbaren Kugeln, von denen manche mehrfach vorkommen können, wobei die Reihenfolge beachtet wird |
nur k Elemente (Stichprobe) werden verwendet | relevant \(\left( {a,b} \right) \ne \left( {b,a} \right)\) |
mit | \({n^k}\) |
Kombination Urnenmodel: Ziehen von nur k aus n unterscheidbaren Kugeln, ohne Beachtung der Reihenfolge N … Anzahl der Elemente insgesamt M … Anzahl der Elemente, die als Erfolg gelten n … Anzahl der im Rahmen des Experiments gezogenen Elemente x … Anzahl der Treffer |
nur k Elemente (Stichprobe) werden verwendet | egal
(a,b)=(b,a) |
ohne |
Anzahl: Wahrscheinlichkeit: |
Kombination Urnenmodel: Ziehen von nur k aus n Kugeln, von denen manche mehrfach vorkommen können, ohne Beachtung der Reihenfolge |
nur k Elemente (Stichprobe) werden verwendet | egal
(a,b)=(b,a) |
mit | \(\dfrac{{\left( {n + k - 1} \right)!}}{{k! \cdot \left( {n - 1} \right)!}} = \left( {\begin{array}{*{20}{c}} {n + k - 1}\\ k \end{array}} \right)\) |
Fakultät
Zu jeder natürlichen Zahl gibt es eine Fakultät. Die Fakultät ist das Produkt aller natürlichen Zahlen größer als Null, die kleiner oder gleich der jeweiligen natürlichen Zahl sind, von der die Fakultät bestimmt werden soll. "n!" oder „n Faktorielle“ oder “n Fakultät“ sind entsprechende vereinfachte Schreibweisen für Fakultät. F
\(n! = 1 \cdot 2 \cdot 3 \cdot ... \cdot n = \prod\limits_{i = 1}^n k \) mit \(n \in {\Bbb N}\)
Rechenregeln zur Fakultät
\(\eqalign{ & \left( {n + 1} \right)! = n! \cdot \left( {n + 1} \right) \Rightarrow n! = \dfrac{{\left( {n + 1} \right)!}}{{n + 1}} \cr & 0! = \dfrac{{\left( {0 + 1} \right)!}}{{0 + 1}} = \dfrac{1}{1} = 1 \cr & 1! = \dfrac{{\left( {1 + 1} \right)!}}{{1 + 1}} = \dfrac{{2!}}{2} = \dfrac{{1 \cdot 2}}{2} = 1 \cr} \)
\(\eqalign{ & 0! = 1 \cr & 1! = 1 \cr & 2! = 1 \cdot 2 = 2 \cr & 3! = \left( {1 \cdot 2} \right) \cdot 3 = 2 \cdot 3 = 6 \cr & 4! = \left( {1 \cdot 2 \cdot 3} \right) \cdot 4 = 6 \cdot 4 = 24 \cr & 5! = \left( {1 \cdot 2 \cdot 3 \cdot 4} \right) \cdot 5 = 24 \cdot 4 = 120 \cr & 6! = \left( {1 \cdot 2 \cdot 3 \cdot 4 \cdot 5} \right) \cdot 6 = 120 \cdot 6 = 720 \cr & 7! = \left( {1 \cdot 2 \cdot 3 \cdot 4 \cdot 5 \cdot 6} \right) \cdot 7 = 720 \cdot 7 = 5040 \cr} \)
Fakultät in der Kombinatorik
- Permutation: Die Fakultät n! gibt die Anzahl der möglichen unterschiedlichen Reihenfolgen an, die n Elemente einer Menge anzuordnen.
- Binomialkoeffizient: Mit Hilfe der Fakultät kann der Binomialkoeffizient \(\left( {\begin{array}{*{20}{c}} n\\ k \end{array}} \right) = \dfrac{{n!}}{{k! \cdot (n - k)!}}\) berechnet werden, der angibt, wie viele Möglichkeiten es gibt, k Elemente aus einer Menge mit n Elementen zu ziehen.
Binomialkoeffizient
Der Binomialkoeffizient „n über k“ besagt, wie viele Möglichkeiten es gibt, k Elemente aus einer Menge von insgesamt n Elementen auszuwählen. Die Reihenfolge der Auswahl spielt keine Rolle.
\(\eqalign{ & \left( {\matrix{ n \cr k \cr } } \right) = {{n!} \over {k!(n - k)!}} = \left( {\matrix{ n \cr {n - k} \cr } } \right); \cr & \left( {\matrix{ n \cr 0 \cr } } \right) = \left( {\matrix{ n \cr n \cr } } \right) = 1; \cr & \left( {\matrix{ n \cr 1 \cr } } \right) = \left( {\matrix{ n \cr {n - 1} \cr } } \right) = n; \cr & \left( {\matrix{ n \cr k \cr } } \right) + \left( {\matrix{ n \cr {k + 1} \cr } } \right) = \left( {\matrix{ {n + 1} \cr {k + 1} \cr } } \right); \cr}\)
\(n,k \in {\Bbb N};\)
Eingabe am Taschenrechner
\(\left( {\begin{array}{*{20}{c}} 9\\ 3 \end{array}} \right) = 9 + Shift + nCr + 3 = 84\)
Explorative Statistik - Data Mining - Big Data
Big Data steht für den Umgang mit großen Datenvolumen (Big Data), vor allem mit besonders großen, dynamischen, schnelllebigen und/oder komplexen Massendaten, gewonnen aus einer zunehmend automatisierten dezentralen Datenerfassung (IoT), die mit den Mitteln der konventionellen Datenverarbeitung (etwa in Data Warehouse Systemen) nicht mehr verarbeitet werden können, weil eine vorab Aufbereitung der Daten (Data Cleansing), wie sie für Data Warehouse Systeme erforderlich sind, zu aufwendig wäre.
Es kommen daher neuartige (Cloud) Betriebssysteme, (Cloud) Datenspeicher und spezielle Prinzipien zur Analyse großer Datenmengen zur Anwendung, die etwa das Ziel von zusätzlichem Produktivitätswachstum verfolgen. Für die Datensicherheit und damit für die Akzeptanz von Cloud Systemen ist die Unterscheidung in private (das Unternehmen hostet die Daten im eigenen Rechenzentrum) bzw. public (AWS, Azure,..) Cloud Systeme entscheidend.
Welchen Wissensgewinn hat ein Unternehmen, den es vorher nicht hatte, bzw. was kann wirtschaftlicher erledigt werden als zuvor, wenn es in Big Data und Data Science investiert? Der Einstieg in Big Data setzt die Bereitschaft voraus, technische, rechtliche und organisatorische Möglichkeiten zu schaffen, große Datenmengen zu sammeln, abzuspeichern und zu verarbeiten. Damit diese Bereitschaft bei den Stakeholdern überhaupt entsteht, muss der Zweck bzw. der Sinn dahinter transparent gemacht werden.
Data Driven Decision Making
Datengestützte Entscheidungsfindung bezeichnet Entscheidungen, deren Basis vorangehende Datenanalysen sind
Data Science
Data Science beschäftigt sich mit Prinzipien, um Wissen aus Daten zu extrahieren und nützt dafür Data Mining
Der zeitliche Ablauf vom Data Science sieht wie folgt aus:
- Fragestellung so festlegen, dass die prognostizierten Erkenntnisse Basis für Management-Entscheidungen darstellen können
- Einflussgrößen und Einschränkungen identifizieren und gewichten
- Datenquellen identifizieren sowie erschließen und Datenqualität sicherstellen
- Dezentrale Daten erheben und zentral speichern
- Kennzahlen für die Güte und Genauigkeit zum Zweck der Bewertung der Resultate festlegen
- Data Mining: Teilaufgaben definieren, passenden toolgestützten Auswertealgorithmus wählen und anwenden, Erkenntnisse extrahieren, Resultate visualisieren, an den Kennzahlen benchmarken und interpretieren
- Nachträglicher rückblickender Vergleich der Prognose mit der eingetretenen Realität
- Data Driven Decison Making = Managemententscheidungen ableiten
Data Mining Techniken
Data Mining Techniken umfassen konkrete Verfahren und Vorgehensweisen, um Muster in Daten zu finden und dasjenige Wissen aus den Daten zu extrahieren, welches valide, bisher unbekannt und potentiell nützlich ist.
Gängige Data Mining Techniken umfassen Klassifikations- und Abhängigkeitsanalysen
Klassifikationsanalyse
Bei der Klassifikationsanalyse werden bereits vorhandene Ereignisse gemäß ihren qualitativen oder quantitativen Merkmalen zu Klassen (deren Zugehörigkeit einander ausschließt) zusammen gefasst. Bei der Klassifikationsanalyse erfolgt die Zuordnung von einem neuen Ereignis zu einer der bestehenden Klassen z.B. mit Hilfe eines Entscheidungsbaums. (Beispiel: Alter → Einkommen → bestehende Schulden → Kreditwürdig ja/nein)
- Entscheidungsbaum: Knoten entspricht Entscheidungskriterium; Blatt entspricht Entscheidung
- Gini Index: Minimierung der Heterogenität
- Chi-Quadrat Test
Abhängigkeitsanalyse
Bei der Abhängigkeitsanalyse wird z.B. mit Hilfe von „Wenn-Dann“ Regeln nach Abhängigkeiten gesucht. (Beispiel: Wenn Kunde schon Grillkohle und Steak gekauft hat → dann wird der Kunde auch Bier kaufen). Ihr Einsatz bietet sich beispielsweise in Empfehlungssystemen an (Kunden die „A“ gekauft haben, kauften auch gerne „B“)
- Regressionsanalyse: Analysiert die Beziehung von einem unabhängigem und einem kausal abhängigen Merkmal.
- Einfache Lineare Regression - Berechnung vom Regressionskoeffizienten
- Multivariante lineare Regression
- Nichtlineare Regression (Maximum-Likehood-Methode) ermittelt den Regressionskoeffizienten so, dass sich eine maximale Auftretenswahrscheinlichkeit ergibt.
- Korrelationsanalyse: Beschreibt mittels Kovarianz und Korrelationskoeffizienten den linearen Zusammenhang zwischen 2 Merkmalen und wie stark dieser Zusammenhang ist. Sie trifft keine Aussage über einen kausalen Zusammenhang der beiden Merkmale
- Assoziationsanalyse: Die analysierten Daten werden auf Abhängigkeiten hin analysiert, wobei die Prämisse (das ist eine Regel) eine Kombination von Ereignissen die unabhängigen Variablen betreffend, zu einer Konklusion die abhängigen Variablen betreffend führt. Unter einer Transaktion versteht man Summe aller gemeinsam vorkommenden Ereignisse. Die Assoziationsregeln werden mit den Gütekriterien Konfidenz (Stärke des Zusammenhangs gemäß der Regel) und Support (relative Häufigkeit eines Ereignisses an der Datenbasis) bewertet. Algorithmen zur Erstellung von Assoziationsregeln sind
- Der Apriori Algorithmus
- Der FP-Growth, der mit dem Frequent Pattern Tree arbeitet, der aus Transaktionen aufgebaut wird.
- Clustering: Lassen sich vorab keine Klassen identifizieren (z.B. im Bereich der Ideenfindung) so werden beim Clustering die Daten so in „Anhäufungen/Gruppen“ von ähnlichen Merkmalen eingeteilt (z.B. in 4-Quadraten), dass mathematisch gesprochen die Summe der quadrierten Abweichungen von den Gruppenschwerpunkten ein Minimum annimmt. (k-Means-Algorithmus). Clustering kann dazu verwendet werden, große Datenmengen auf wenige, einander aber ähnliche „repräsentative“ Daten zu reduzieren.
- k-Means Clustering: \({\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^k {\left| {{x_{ij}} - {c_j}} \right|} } ^2}\) wobei der Term zwischen den Betragszeichen dem Abstand vom Datenpunkt i zum Clusterzentrum j definiert und \(i \gg j\) gilt.
Big Data Toolsets
- Python: Programmiersprache, speziell um große Datenmengen zu sammeln, zu strukturieren, zu analysieren und zu visualisieren.
- Scipy: Python basierte Software für wissenschaftliche Berechnungen
- NumPy: Python basierte Software zur Bearbeitung von array-basierten Daten wie Matrizen
- Pandas: Python basierte Software zur Bearbeitung von Zeitreihen
- MatPlotLib: Python basierte Software zur Datenvisualisierung
- Hadoop: Frei verfügbares Java Framework, basierend auf dem MapReduce Algorithmus von Google, welches es ermöglicht, Datenanalysen im PetaByte Bereich (1015 Byte) auf verteilten skalierbaren Computerclustern durchzuführen.
- HBase: Spaltenorientiertes nicht rationales Datenbanksystem, mit spezieller Unterstützung für performante Datenverarbeitung auf Hadoop basierten Plattformen
- MongoDB: Weit verbreitete dokumentenorientierte , nahezu unbegrenzt skalierbare Non-SQL Datenbank zur Verwaltung und nachfolgender Analyse von JSON basierten Dokumenten auf Node.js Plattformen
Streuung
Unter Streuung versteht man die Verteilung der einzelnen Werte um den Mittelwert. Eine schwache Streuung bedeutet dass die Werte dicht beim Mittelwert liegen, während eine starke Streuung bedeutet, dass die Werte entfernt vom Mittelwert liegen.
Beispiel:
Die Werte 100, 200 und 300 haben einen Mittelwert von 200. Die Werte 199, 200 und 201 haben ebenfalls den Mittelwert 200, sie sind streuen aber erheblich weniger.
Streumaße
Streumaße geben Auskunft über die Breite der Verteilung, also zur Variabilität der Werte. Streumaße messen die Streuung.
R | Spannweite (engl. range) |
e | Mittlere lineare Abweichung |
\({{s^2}{\text{ bzw}}{\text{. }}{\sigma ^2}}\) | Varianz |
\({s{\text{ bzw}}{\text{. }}\sigma }\) | Standardabweichung |
Streudiagramme
Streudiagramme bilden paarweise verknüpfte Datensätze (X, Y) in Form einer zweidimensionalen Punktwolke ab.
Spannweite
Die Spannweite R (engl. range) ist die Differenz zwischen dem größten und dem kleinsten Wert der geordneten Datenreihe. Sie beinhaltet lediglich eine Aussage bezüglich der beiden Extremwerte, erlaubt aber keine Aussage bezüglich der Struktur der Einzelwertverteilung zwischen den beiden Extremwerten.
\(R = {x_{{\text{max}}}} - {x_{{\text{min}}}}\)
Mittlere lineare Abweichung
Der mittleren linearen Abweichung liegt der Abstand von jedem einzelnen Wert xi zum arithmetischen Mittelwert \(\overline x\) zugrunde.
\(e = \dfrac{{\left| {{x_1} - \overline x } \right| + \left| {{x_2} - \overline x } \right| + ...\left| {{x_n} - \overline x } \right|}}{n} = \dfrac{1}{n}\sum\limits_{i = 1}^n {\left| {{x_i} - \overline x } \right|}\)
Varianz
Die Varianz dient der Beschreibung einer Wahrscheinlichkeitsverteilung, sie ist ein Streumaß der beschreibenden Statistik. Die Varianz ist ein Maß für die quadrierte durchschnittliche Entfernung aller Messwerte vom arithmetischen Mittelwert also dem Erwartungswert. Der Varianz liegt also der quadrierte Abstand jedes einzelnen Werts xi zum arithmetischen Mittelwert \(\overline x \) zugrunde. Die Varianz hat daher eine andere Einheit als die Messwerte, nämlich deren Quadrat. Diese "Unschönheit" löst man auf, indem man mit der Standardabweichung arbeitet, welche die Quadratwurzel aus der Varianz ist.
\(\eqalign{ & {s^2} = {\sigma ^2} =Var(X)=V(X)= \dfrac{{{{\left( {{x_1} - \overline x } \right)}^2} + {{\left( {{x_2} - \overline x } \right)}^2} + ...{{\left( {{x_n} - \overline x } \right)}^2}}}{n} \cr & {s^2} = \dfrac{1}{n}\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} \cr}\)
Empirische Varianz
Das Wort "empirisch" weist darauf hin, dass alle Daten der Grundgesamtheit analysiert werden, die aus der Beobachtung eines Prozesses gewonnen wurden.
Varianz einer Stichprobe berechnen
Bei der Stichprobenvarianz wird die Summe der quadrierten Abweichungen nicht durch die Anzahl der erhobenen Merkmalsausprägungen n sondern - so wie auch bei der Standardabweichung einer Stichprobe - durch (n-1) dividiert. Für die Varianz einer Stichprobe vom Umfang n gilt:
\({s_{n - 1}}^2 = \dfrac{1}{{n - 1}} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}}\)
Bessel-Korrektur
Die Bessel-Korrektur ist eine statistische Anpassung, die angewendet wird, um eine verzerrte Schätzung der Stichprobenvarianz zu korrigieren. Sie wird verwendet, wenn die Stichprobenvarianz dazu neigt, die wahre Varianz der Grundgesamtheit zu unterschätzen. Das ist vor allem bei kleinen Stichproben der Fall. Die Bessel-Korrektur besteht darin, den Nenner von (n - 1) auf n zu ändern, wodurch die Varianz größer wird:
\({s_{n}}^2 = \dfrac{1}{{n}} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}}\)
Varianz \(\sigma ^2\) einer diskreten Zufallsvariablen X mit den Werten x1, x2, ..., xk berechnen
\({\sigma ^2} = Var\left( X \right) = E{\left( {X - E\left( X \right)} \right)^2} = E\left( {{X^2}} \right) - {\left( {E\left( X \right)} \right)^2}\)
- Von jedem Wert xi der Zufallsvariablen X wird der Erwartungswert \(E\left( X \right) = \mu \) abgezogen.
- Diese Differenz wird quadriert
- Davon bildet man erneut den Erwartungswert, um so die Varianz zu erhalten.
\({\sigma ^2} = V\left( X \right) = Var\left( X \right) = {\sum\limits_{i = 1}^k {\left( {{x_i} - \mu } \right)} ^2} \cdot P\left( {X = {x_i}} \right) = {\sum\limits_{i = 1}^k {\left( {{x_i} - E\left( X \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right)\)
- Es wird jeweils vom Wert xi der diskreten Zufallsvariablen X der Erwartungswert E(X) abgezogen.
- Diese Differenz quadriert man und anschließend multipliziert man noch mit der Wahrscheinlichkeit P(X = xi).
- So verfährt man mit jedem Wert xi und summiert letztlich die einzelnen Ergebnisse auf, um so die Varianz zu erhalten.
Standardabweichung
Die Standardabweichung ist ein Maß für die durchschnittliche Entfernung aller Messwerte vom arithmetischen Mittelwert. Je stärker die Werte um den arithmetischen Mittelwert streuen um so höher ist die Standardabweichung. Die Standardabweichung einer Stichprobe ist umso größer, je kleiner der Stichprobenumfang ist. Der Graph der Dichtefunktion ist umso breiter und verläuft umso flacher, je kleiner die Stichprobe ist.
- \(\sigma\) ist die übliche Bezeichnung, wenn es sich um die Standardabweichung der Grundgesamtheit handelt.
- s ist die übliche Bezeichnung, wenn die Standardabweichung aus einer Stichprobe ermittelt wurde.
Beispiel: 10 Personen werden gefragt, wie viel sie für einen Sommerurlaub ausgeben. Der Mittelwert der 10 Ausgaben liegt bei 2.000€, die Standardabweichung liegt bei 200 €. Das bedeutet dass die durchschnittliche Entfernung aller Antworten vom Mittelwert 200 € beträgt.
Unterschied Standardabweichung und Varianz
- Die Standardabweichung ist ein Maß für die durchschnittliche, während die Varianz ein Maß für das Quadrat der durchschnittlichen Entfernung aller Messwerte vom arithmetischen Mittelwert ist.
- Der Vorteil der Standardabweichung gegenüber der Varianz ist, dass nicht Quadrate der Einheiten (z.B. Euro2) sondern die eigentlichen Einheiten der gemessenen Werte (z.B. Euro) verwendet werden.
- Die Standardabweichung ist die Wurzel aus der Varianz. Standardabweichung und Varianz sind direkt proportional zu einander.
Auswirkung von "Ausreißern"
Datenreihe | mittlere lineare Abweichung | Varianz | Standardabweichung | wahrer Mittelwert |
(10,10,10,10) | 0 | 0 | 0 | 10 |
(10,10,10,9) | 0,375 | 0,25 | 0,5 | 9,75 |
(10,10,10,8) | 0,75 | 1 | 1 | 9,5 |
(10,10,10,2) "Ausreißer" | 3 | 16 | 4 | 8 |
Standardabweichung einer Vollerhebung berechnen
Standardabweichung einer Vollerhebung berechnen, bei der man den wahren Mittelwert kennt → \(\dfrac{1}{n}\)
Die (empirische) Standardabweichung ist ein Maß dafür, wie weit im Durchschnitt die einzelnen Messwerte vom Erwartungswert entfernt liegen, d.h. wie weit die einzelnen Messwerte um den Erwartungswert streuen. Je kleiner die Standardabweichung ist, um so besser repräsentiert der Erwartungswert die einzelnen Messwerte.
- Betrachten wir einen extremen Fall: Sind alle einzelnen Messwerte gleich, dann ist die Standardabweichung null, weil dann alle Messwerte zu ihrem Erwartungswert gleich sind.
- Die Standardabweichung ist immer größer gleich Null.
\(\eqalign{ & s = \sqrt {{s^2}} = \sigma = \sqrt {{\sigma ^2}} = \sqrt {\dfrac{{{{\left( {{x_1} - \overline x } \right)}^2} + {{\left( {{x_2} - \overline x } \right)}^2} + ...{{\left( {{x_n} - \overline x } \right)}^2}}}{n}} \cr & s=\sigma = \sqrt {\dfrac{1}{n} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}\,\,} } \cr}\)
\(s=\sigma = \sqrt {Var\left( X \right)} \)
Standardabweichung einer Stichprobe berechnen
Die Stichprobenstandardabweichung ist umso größer, je kleiner der Stichprobenumfang n ist. Der Graph der Dichtefunktion ist umso breiter und verläuft umso flacher, je kleiner die Stichprobe ist. Die Standardabweichung der Stichprobe entspricht dem Abstand der Wendepunkte vom Graph der Dichtefunktion bis zum Erwartungswert der Stichprobe.
Standardabweichung einer Stichprobe vom Umfang n berechnen, bei der man den wahren Mittelwert nicht kennt → \(\dfrac{1}{{n - 1}}\)
\({s} = \sqrt {\dfrac{1}{{n - 1}} \cdot \sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}\,\,} } \)
Standardabweichung einer Stichprobe vom Umfang n berechnen, bei gegebener absoluter Häufigkeit n1, .., nk → \(\dfrac{1}{{n - 1}}\)
\(s = \sqrt {\dfrac{1}{{n - 1}} \cdot \sum\limits_{i = 1}^k {{n_k} \cdot {{\left( {{x_i} - \overline x } \right)}^2}} } \)
Standardabweichung einer Stichprobe vom Umfang n berechnen, bei gegebener relativer Häufigkeit h1,..., hk → \(\dfrac{1}{{n - 1}}\)
\(s = \sqrt {\dfrac{n}{{n - 1}} \cdot \sum\limits_{i = 1}^k {{h_k} \cdot {{\left( {{x_i} - \overline x } \right)}^2}} } \)
Standardfehler bzw. Stichprobenfehler
Der Standardfehler (SEM = Standard Error of the Mean) ist ein Maß dafür, inwieweit die Standardabweichung einer Stichprobe σS von der Standardabweichung der Grundgesamtheit σ abweicht. Wenn die Standardabweichung der Grundgesamtheit σ und die Stichprobengröße n bekannt sind, gilt:
\(SEM = {\sigma _S} = \dfrac{\sigma }{{\sqrt n }}\)
Je größer die Stichprobe, die ja im Nenner steht, umso kleiner der Standardfehler.
Unterschied Standardabweichung und Standardfehler
- Die Standardabweichung ist ein Maß für die durchschnittliche Entfernung aller Messwerte vom arithmetischen Mittelwert. Sie beeinflusst Breite und Höhe vom Graph der Dichtefunktion
- Der Standardfehler ist ein Maß für mittlere Abweichung des Mittelwerts von lediglich einer Stichprobe zum Mittelwert der realen Grundgesamtheit.
Schon den nächsten Badeurlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Damit niemand mehr bei Mathe in's Schwimmen kommt!
Cloud Betriebssysteme
Ein Cloud OS dient zum Betrieb von Servern, Datenspeichern, Netzwerkkomponenten und Applikationen in Form einer virtualisierten IT-Infrastruktur und deren grundsätzlicher Unabhängigkeit vom tatsächlichen physikalischen Standort der HW. Bei Public Cloud Systemen teilen sich verschiedene Anwendungen die IT-Infrastruktur, ohne von der jeweils anderen Anwendung konkret etwas zu wissen, wodurch die Ressourcen optimal ausgelastet werden können und Preisvorteile gegenüber Private Cloud Systemen mit ihrer dedizierten HW entstehen. Der Betreiber vom Cloud Service garantiert seinen Kunden die vorher vereinbarte Verfügbarkeit, Performance und Sicherheit in Form von einem SLA (Service Level Agreement).
Beispiele für Cloud Betriebssysteme sind:
- Windows Azure von Microsoft
- Google App Engine von Google
- vSphere von VMware
- OpenStack von OpenStack Foundation
- MindSphere das IoT-Betriebssystem von Siemens
Beispiele für Cloud-Plattformen
- AWS Amazon Web Services von Amazon
- Azure von Microsoft
- Bluemix von IBM
- G Suite von Google
Private vs. Public Cloud
Data Mining basiert auf der IT-gestützten Verarbeitung großer Datenmengen, die aus Kostengründen bevorzugt cloudbasiert gehostet werden. dabei unterscheidet man in
Private Cloud
- On Premise Private Cloud: Die Cloud wird vor Ort auf Servern des Unternehmens installiert, welches die exklusiven Nutzungsrechte inne hat. Vorteil: Sehr sicher; Nachteil: Keine CAPEX oder OPEX Kostenteilung, mangelnde Ausfallsicherheit.
- Hosted Solution: Die Cloud wird auf physikalisch benennbaren Servern eines spezialisierten 3rd Party Service Providers gehostet und exklusiv von einem Unternehmen genutzt. Man spricht auch von „Dedizierten Servern“. Vorteil: Hohe Skalierbarkeit, verlagert einen Teil der CAPEX auf den Service Provider.
Public Cloud
Mehrere Unternehmen teilen sich eine Infrastruktur, die bei einem spezialisierten 3rd Party Service Provider gehostet wird. Bezahlt wird abhängig vom individuellen Nutzungsgrad pro Abrechnungsperiode. Vorteil: reduziert CAPEX und OPEX. Der Eigentümer der Daten weiß aber nicht mehr auf genau welcher HW seine Daten gehostet werden. Er kann zum Bespiel nur mehr sagen "innerhalb der EU".
Kovarianz - Korrelation - Scheinkorrelation - Regression
Kovarianz
Die Kovarianz ist ein dimensionsloses Maß für die Stärke vom linearen Zusammenhang zweier Datensätze x1, x2, … , xn bzw. y1, y2, … yn , deren Merkmale metrisch und stetig sind.
Korrelation
Korrelation beschreibt eine statistische Beziehung zwischen zwei Variablen, bei der Veränderungen in einer Variable mit Veränderungen in der zweiten Variable zusammen auftreten. Wenn zwei Variablen korrelieren, bedeutet dies, dass eine Veränderung in einer Variable mit einer Veränderung in der anderen Variable einhergeht (=korreliert). Im Unterschied zur Kovarianz ist bei der Korrelation eine Standardisierung erfolgt, was Vergleiche erlaubt. Die Korrelation bzw. der Korrelationskoeffizient r ist ein Maß für die lineare Abhängigkeit von 2 Datensätzen. Der Korrelationskoeffizient besitzt Werte zwischen -1 bis +1.
- r=-1: Es besteht ein gegenläufiger Zusammenhang. Eine Größe nimmt zu, die andere Größe nimmt ab
- r=0: Es besteht kein linearer Zusammenhang
- r=+1: Es besteht ein gleichläufiger Zusammenhang. Wenn eine Größe zunimmt, nimmt auch die andere Größe im selben Ausmaß zu
Ob ein Korrelationskoeffizient ab 0,5 oder erst ab 0,9 als "hoch" einzuschätzen ist, hängt von der jeweiligen Fragestellung ab. Man kann von Änderungen eines Datensatzes, gemäß dem Korrelationskoeffizient r nach Pearson Vorhersagen über die Änderung des anderen Datensatzes treffen und vice versa, ohne dass es eine Kausalbeziehung zwischen den Datensätzen gibt. Achtung: Korrelation impliziert keinen kausalen Zusammenhang zwischen den Datensätzen.
Scheinkorrelation
Von einer Scheinkorrelation spricht man, wenn es zwischen zwei Datensätzen zwar eine Korrelation gibt, diese aber auf keinen Ursache-Wirkungs Zusammenhang zurückgeführt werden kann. Korrelation bedeutet nämlich nicht zwangsläufig, dass eine Variable die Ursache für die Veränderung der anderen Variable ist.
Die Problematik bezüglich der Scheinkorrelation soll an Anhand eines Beispiels veranschaulicht werden: Seit Jahrzehnten sinkt die Anzahl an Störchen und die Anzahl an Geburten im Burgenland. D.h. die beiden Datensätze (Störche, Geburten) entwickeln sich in dieselbe Richtung und sind korreliert und man kann auch einen Korrelationskoeffizienten r > 0 berechnen. Dennoch gibt es keine Kausalität (kein Ursache- Wirkungsprinzip, kein Zusammenhang) zwischen den Datensätzen und es wäre daher falsch, auf Auswirkungen von einem Datensatz (Anzahl Störche) auf den anderen Datensatz (Anzahl Geburten) zu schließen.
Wenn eine Variable oder ein Ereignis eine Veränderung in einer anderen Variable oder einem anderen Ereignis verursacht, spricht man von Kausalität. Wenn man also berechtigt von einem Datensatz auf einen anderen korrelierten Datensatz schließen will, muss man zusätzlich die Kausalität, etwa durch ein Experiment oder einer Regressionsanalyse nachweisen, um eine allfällige Scheinkorrelation auf Grund einer tatsächlich bestehenden Korrelation ohne kausalem Zusammenhang ausschließen zu können!
Regression
Die Regression geht über die Korrelation hinaus uns setzt einen Ursache Wirkungszusammenhang (Kausalität) voraus. Daher gibt es eine unabhängige Variable (X, Regressor, Ursache) und eine abhängige Variable (Y, Regressand, Wirkung).
Lineare Regression
Ziel der linearen Regression ist es eine abhängige Variable (Y, Regressand) aus einer unabhängigen Variable (X, Regressor) mittels einer linearen Funktion, der Regressionsgeraden zu berechnen, um aus dem bekannten Zustand von X Vorhersagen für den unbekannten Zustand von Y treffen zu können. Dazu sollen die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden (Gerade = linearer Zusammenhang) minimiert werden. Alle Punkte eines Streudiagramms (nicht einzelne ! Punkte) haben den minimalen Abstand zur Regressionsgeraden.
Kovarianz
Die Kovarianz ist ein dimensionsbehaftetes Maß für die Stärke vom linearen Zusammenhang zweier metrischer Datensätze x1, x2, … , xn bzw. y1, y2, … yn.
\(Cov\left( {x,y} \right) = \dfrac{{\sum\limits_{i = 1}^N {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{N - 1}}\)
Die Kovarianz ist leider anfällig gegenüber Ausreißer, nicht standardisiert und daher für Vergleiche ungeeignet. Standardisiert man die Kovarianz, erhält man die Korrelation.
\(Cov\left( {X,Y} \right) = 0\) ⇒ X und Y sind unkorreliert. D.h. aber nicht, dass sie auch unabhängig sein müssen.
Korrelationsanalyse
Mit einer Korrelationsanalyse werden Maßzahlen errechnet, um die Stärke eines linearen Zusammenhangs zweier Datensätze, deren Merkmale metrisch und stetig sind, zu quantifizieren. Beispiele für solch eine Maßzahl sind
- die Kovarianz
- der Korrelationskoeffizient r nach Pearson
Korrelationskoeffizient nach Pearson
Die Korrelation ist ein Maß für den linearen Zusammenhang zwischen zwei Datensätzen (Variablen). Der Korrelationskoeffizient nach Pearson ist eine von mehreren Möglichkeiten diesen Zusammenhang zu quantifizieren.
- Für einen Wert nahe bei +/- 1 besteht ein hoher linearer Zusammenhang
- Für einen Wert nahe bei 0 besteht kein linearer Zusammenhang
- Dessen ungeachtet kann aber ein nicht-linearer Zusammenhang bestehen
\(r(x,y) = \rho \left( {x,y} \right) = \dfrac{{Cov\left( {x,y} \right)}}{{\sqrt {Var\left( x \right) \cdot Var\left( y \right)} }} = \dfrac{{Cov\left( {x,y} \right)}}{{\sigma \left( x \right) \cdot \sigma \left( y \right)}}\)
Für den Korrelationskoeffizient r nach Pearson, dessen Wert zwischen -1 und 1 liegt gilt:
- Bei positiver Kovarianz / Korrelation r > 0 ändern sich die beiden Datensätze in dieselbe Richtung.
- Bei negativer Kovarianz / Korrelation r < 0 steigt ein Datensatz an während der andere Datensatz abnimmt.
- Bei einer Kovarianz / Korrelation r = 0 sind die beiden Datensätze unabhängig / unkorreliert voneinander.
Regressionsanalyse
Eine Regressionsanalyse geht über die Korrelationsanalyse hinaus (!) indem sie einen Ursache-Wirkungszusammenhang beschreibt. Ihr Ziel ist es einen mathematischen Zusammenhang zwischen unabhängigen und abhängigen Variablen herzustellen. Ist dieser Zusammenhang linear, so spricht man von einer Regressionsgeraden, andernfalls von einer Regressionsfunktion.
Regressionsgerade
Die Regressionsgerade stellt einen linearen Zusammenhang zwischen einer unabhängigen Variabel und einer abhängigen Variablen die vorhergesagt werden soll her. Die Regressionsgerade ist die bestmögliche Gerade, die man in einem Streudiagramm durch alle Daten legen kann, sodass alle Datenpunkte von der Geraden in Summe den kleinsten Abstand haben.
\(\eqalign{ & {\text{f}}\left( x \right){\text{ = y = k}} \cdot {\text{x + d}} \cr & k = \dfrac{{\sum\limits_{i = 1}^n {\left( {{x_i} - \overline x } \right) \cdot \left( {{y_i} - \overline y } \right)} }}{{\sum\limits_{i = 1}^n {{{\left( {{x_i} - \overline x } \right)}^2}} }} = {r_{xy}} \cdot \dfrac{{{s_y}}}{{{s_x}}} \cr & d = \overline y - b \cdot \overline x \cr}\)
\({r_{xy}}\) | Pearson Korrelation |
\({{\text{s}}_x},\,\,{s_y}\) | Standardabweichungen |
\(\overline x ,\,\,\overline y \) | Mittelwerte der gemessenen Daten xi und yi |
(x1,y1), ... (xn,yn) | Wertepaare |