Explorative Statistik - Data Mining
Hier findest du folgende Inhalte
Formeln
Explorative Statistik - Data Mining - Big Data
Big Data steht für den Umgang mit großen Datenvolumen (Big Data), vor allem mit besonders großen, dynamischen, schnelllebigen und/oder komplexen Massendaten, gewonnen aus einer zunehmend automatisierten dezentralen Datenerfassung (IoT), die mit den Mitteln der konventionellen Datenverarbeitung (etwa in Data Warehouse Systemen) nicht mehr verarbeitet werden können, weil eine vorab Aufbereitung der Daten (Data Cleansing), wie sie für Data Warehouse Systeme erforderlich sind, zu aufwendig wäre.
Es kommen daher neuartige (Cloud) Betriebssysteme, (Cloud) Datenspeicher und spezielle Prinzipien zur Analyse großer Datenmengen zur Anwendung, die etwa das Ziel von zusätzlichem Produktivitätswachstum verfolgen. Für die Datensicherheit und damit für die Akzeptanz von Cloud Systemen ist die Unterscheidung in private (das Unternehmen hostet die Daten im eigenen Rechenzentrum) bzw. public (AWS, Azure,..) Cloud Systeme entscheidend.
Welchen Wissensgewinn hat ein Unternehmen, den es vorher nicht hatte, bzw. was kann wirtschaftlicher erledigt werden als zuvor, wenn es in Big Data und Data Science investiert? Der Einstieg in Big Data setzt die Bereitschaft voraus, technische, rechtliche und organisatorische Möglichkeiten zu schaffen, große Datenmengen zu sammeln, abzuspeichern und zu verarbeiten. Damit diese Bereitschaft bei den Stakeholdern überhaupt entsteht, muss der Zweck bzw. der Sinn dahinter transparent gemacht werden.
Data Driven Decision Making
Datengestützte Entscheidungsfindung bezeichnet Entscheidungen, deren Basis vorangehende Datenanalysen sind
Data Science
Data Science beschäftigt sich mit Prinzipien, um Wissen aus Daten zu extrahieren und nützt dafür Data Mining
Der zeitliche Ablauf vom Data Science sieht wie folgt aus:
- Fragestellung so festlegen, dass die prognostizierten Erkenntnisse Basis für Management-Entscheidungen darstellen können
- Einflussgrößen und Einschränkungen identifizieren und gewichten
- Datenquellen identifizieren sowie erschließen und Datenqualität sicherstellen
- Dezentrale Daten erheben und zentral speichern
- Kennzahlen für die Güte und Genauigkeit zum Zweck der Bewertung der Resultate festlegen
- Data Mining: Teilaufgaben definieren, passenden toolgestützten Auswertealgorithmus wählen und anwenden, Erkenntnisse extrahieren, Resultate visualisieren, an den Kennzahlen benchmarken und interpretieren
- Nachträglicher rückblickender Vergleich der Prognose mit der eingetretenen Realität
- Data Driven Decison Making = Managemententscheidungen ableiten
Data Mining Techniken
Data Mining Techniken umfassen konkrete Verfahren und Vorgehensweisen, um Muster in Daten zu finden und dasjenige Wissen aus den Daten zu extrahieren, welches valide, bisher unbekannt und potentiell nützlich ist.
Gängige Data Mining Techniken umfassen Klassifikations- und Abhängigkeitsanalysen
Klassifikationsanalyse
Bei der Klassifikationsanalyse werden bereits vorhandene Ereignisse gemäß ihren qualitativen oder quantitativen Merkmalen zu Klassen (deren Zugehörigkeit einander ausschließt) zusammen gefasst. Bei der Klassifikationsanalyse erfolgt die Zuordnung von einem neuen Ereignis zu einer der bestehenden Klassen z.B. mit Hilfe eines Entscheidungsbaums. (Beispiel: Alter → Einkommen → bestehende Schulden → Kreditwürdig ja/nein)
- Entscheidungsbaum: Knoten entspricht Entscheidungskriterium; Blatt entspricht Entscheidung
- Gini Index: Minimierung der Heterogenität
- Chi-Quadrat Test
Abhängigkeitsanalyse
Bei der Abhängigkeitsanalyse wird z.B. mit Hilfe von „Wenn-Dann“ Regeln nach Abhängigkeiten gesucht. (Beispiel: Wenn Kunde schon Grillkohle und Steak gekauft hat → dann wird der Kunde auch Bier kaufen). Ihr Einsatz bietet sich beispielsweise in Empfehlungssystemen an (Kunden die „A“ gekauft haben, kauften auch gerne „B“)
- Regressionsanalyse: Analysiert die Beziehung von einem unabhängigem und einem kausal abhängigen Merkmal.
- Einfache Lineare Regression - Berechnung vom Regressionskoeffizienten
- Multivariante lineare Regression
- Nichtlineare Regression (Maximum-Likehood-Methode) ermittelt den Regressionskoeffizienten so, dass sich eine maximale Auftretenswahrscheinlichkeit ergibt.
- Korrelationsanalyse: Beschreibt mittels Kovarianz und Korrelationskoeffizienten den linearen Zusammenhang zwischen 2 Merkmalen und wie stark dieser Zusammenhang ist. Sie trifft keine Aussage über einen kausalen Zusammenhang der beiden Merkmale
- Assoziationsanalyse: Die analysierten Daten werden auf Abhängigkeiten hin analysiert, wobei die Prämisse (das ist eine Regel) eine Kombination von Ereignissen die unabhängigen Variablen betreffend, zu einer Konklusion die abhängigen Variablen betreffend führt. Unter einer Transaktion versteht man Summe aller gemeinsam vorkommenden Ereignisse. Die Assoziationsregeln werden mit den Gütekriterien Konfidenz (Stärke des Zusammenhangs gemäß der Regel) und Support (relative Häufigkeit eines Ereignisses an der Datenbasis) bewertet. Algorithmen zur Erstellung von Assoziationsregeln sind
- Der Apriori Algorithmus
- Der FP-Growth, der mit dem Frequent Pattern Tree arbeitet, der aus Transaktionen aufgebaut wird.
- Clustering: Lassen sich vorab keine Klassen identifizieren (z.B. im Bereich der Ideenfindung) so werden beim Clustering die Daten so in „Anhäufungen/Gruppen“ von ähnlichen Merkmalen eingeteilt (z.B. in 4-Quadraten), dass mathematisch gesprochen die Summe der quadrierten Abweichungen von den Gruppenschwerpunkten ein Minimum annimmt. (k-Means-Algorithmus). Clustering kann dazu verwendet werden, große Datenmengen auf wenige, einander aber ähnliche „repräsentative“ Daten zu reduzieren.
- k-Means Clustering: \({\sum\limits_{i = 1}^n {\sum\limits_{j = 1}^k {\left| {{x_{ij}} - {c_j}} \right|} } ^2}\) wobei der Term zwischen den Betragszeichen dem Abstand vom Datenpunkt i zum Clusterzentrum j definiert und \(i \gg j\) gilt.
Big Data Toolsets
- Python: Programmiersprache, speziell um große Datenmengen zu sammeln, zu strukturieren, zu analysieren und zu visualisieren.
- Scipy: Python basierte Software für wissenschaftliche Berechnungen
- NumPy: Python basierte Software zur Bearbeitung von array-basierten Daten wie Matrizen
- Pandas: Python basierte Software zur Bearbeitung von Zeitreihen
- MatPlotLib: Python basierte Software zur Datenvisualisierung
- Hadoop: Frei verfügbares Java Framework, basierend auf dem MapReduce Algorithmus von Google, welches es ermöglicht, Datenanalysen im PetaByte Bereich (1015 Byte) auf verteilten skalierbaren Computerclustern durchzuführen.
- HBase: Spaltenorientiertes nicht rationales Datenbanksystem, mit spezieller Unterstützung für performante Datenverarbeitung auf Hadoop basierten Plattformen
- MongoDB: Weit verbreitete dokumentenorientierte , nahezu unbegrenzt skalierbare Non-SQL Datenbank zur Verwaltung und nachfolgender Analyse von JSON basierten Dokumenten auf Node.js Plattformen
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung in Ruhe entspannen
Cloud Betriebssysteme
Ein Cloud OS dient zum Betrieb von Servern, Datenspeichern, Netzwerkkomponenten und Applikationen in Form einer virtualisierten IT-Infrastruktur und deren grundsätzlicher Unabhängigkeit vom tatsächlichen physikalischen Standort der HW. Bei Public Cloud Systemen teilen sich verschiedene Anwendungen die IT-Infrastruktur, ohne von der jeweils anderen Anwendung konkret etwas zu wissen, wodurch die Ressourcen optimal ausgelastet werden können und Preisvorteile gegenüber Private Cloud Systemen mit ihrer dedizierten HW entstehen. Der Betreiber vom Cloud Service garantiert seinen Kunden die vorher vereinbarte Verfügbarkeit, Performance und Sicherheit in Form von einem SLA (Service Level Agreement).
Beispiele für Cloud Betriebssysteme sind:
- Windows Azure von Microsoft
- Google App Engine von Google
- vSphere von VMware
- OpenStack von OpenStack Foundation
- MindSphere das IoT-Betriebssystem von Siemens
Beispiele für Cloud-Plattformen
- AWS Amazon Web Services von Amazon
- Azure von Microsoft
- Bluemix von IBM
- G Suite von Google
Private vs. Public Cloud
Data Mining basiert auf der IT-gestützten Verarbeitung großer Datenmengen, die aus Kostengründen bevorzugt cloudbasiert gehostet werden. dabei unterscheidet man in
Private Cloud
- On Premise Private Cloud: Die Cloud wird vor Ort auf Servern des Unternehmens installiert, welches die exklusiven Nutzungsrechte inne hat. Vorteil: Sehr sicher; Nachteil: Keine CAPEX oder OPEX Kostenteilung, mangelnde Ausfallsicherheit.
- Hosted Solution: Die Cloud wird auf physikalisch benennbaren Servern eines spezialisierten 3rd Party Service Providers gehostet und exklusiv von einem Unternehmen genutzt. Man spricht auch von „Dedizierten Servern“. Vorteil: Hohe Skalierbarkeit, verlagert einen Teil der CAPEX auf den Service Provider.
Public Cloud
Mehrere Unternehmen teilen sich eine Infrastruktur, die bei einem spezialisierten 3rd Party Service Provider gehostet wird. Bezahlt wird abhängig vom individuellen Nutzungsgrad pro Abrechnungsperiode. Vorteil: reduziert CAPEX und OPEX. Der Eigentümer der Daten weiß aber nicht mehr auf genau welcher HW seine Daten gehostet werden. Er kann zum Bespiel nur mehr sagen "innerhalb der EU".