Trainingsdaten für maschinelles Lernen
Hier findest du folgende Inhalte
Grundkompetenzen
In dieser Mikro-Lerneinheit lernst du die Recherche mittels der KIs „OpenAI ChatGPT“, „Google Gemini“, bzw. „Microsoft Bing / Copilot“ kennen.
Zunächst machen wir uns mit dem Begriff „Künstliche Intelligenz“ vertraut und zeigen, dass sich unser Verständnis, was künstliche Intelligenz ist, im Laufe der Zeit verändert.
Maschinelles Lernen ist der Unterbau vieler KIs, ebenso deren Trainingsdaten. Wir beschreiben den Unterschied zwischen KIs ohne und mit maschinellem Lernen, sowie die Ansätze mit überwachtem, nicht überwachtem und bestärkendem maschinellem Lernen. Wir erklären wie maschinelles Lernen mit Hilfe von neuronalen Netzen und Deep Learning ohne menschliches Zutun funktioniert.
Wir erklären, was generative KIs sind, und dass die Mensch-Maschine-Schnittstelle auf Natural Language Processing und dieses wiederum auf Large Language Modellen basiert. Danach arbeiten wir den Unterschied zwischen Algorithmus und Modell heraus.
Als Verarbeitungseinheiten eines LLMs lernen wir Prompt, Token, Token-Vektor sowie Chat samt Kontext kennen. Anschließend gehen wir auf die beiden sprachbasierte generative KIs „ChatGPT“ und „Bard“ ein, indem wir die Stärken und Schwächen der unterschiedlichen Architekturen „GPT“, „LaMDA“ und „Gemini“ beschreiben.
Wir zeigen, wie man die jeweilige KI startet und bedient, und gehen auf deren Einschränkungen im Bereich Mathematik näher ein.
Recherche und Lernen mit den KIs ChatGPT und Bard
Künstliche Intelligenz und ihre Komponenten
Der Begriff künstliche Intelligenz (KI, englisch: Artificial Intelligence bzw. AI) wird gerne verwendet, wenn IT-Systeme Entscheidungen treffen, für die Intelligenz erforderlich ist.
Dabei verändert sich im Laufe der Zeit unsere Einschätzung darüber, was wir als künstliche Intelligenz wahrnehmen oder eben nicht, und zwar indirekt proportional zur Vertrautheit mit der jeweiligen Technologie.
Ein Beispiel zur zeitabhängigen Wahrnehmung von künstlicher Intelligenz
- Vor 10 Jahren hat man Navigationssysteme im Auto noch als „intelligent“ bezeichnet.
- Heute versteht man sie eher rational als eine Kombination aus GPS-Signalen samt genauer Zeitmessung, einer Straßendaten-Datenbank, einem Algorithmus aus der Graphentheorie zur Berechnung des kürzesten Weges (etwa der Dijkstra Algorithmus) und eventuell noch Echtzeit-Verkehrsfluss-Informationen, sowie einer Mensch-Maschine Schnittstelle, die heute oft das vertraute und allgegenwärtige Smartphone mit der Anwendung Google Maps ist.
Das ehemals intelligente System ist 10 Jahre später zu einem dummen Rechenknecht degeneriert.
Heute, 02.2024, versteht man die Weiterentwicklung der Navigationssysteme, nämlich selbstfahrende Autos, als intelligente Systeme.
Unter einer künstlichen Intelligenz versteht man ein Computerprogramm, welches genau definierte Aufgaben ausführen kann, für die normalerweise menschliche Intelligenz erforderlich wäre. Die Betonung liegt auf „genau definierte Aufgaben“: Ein Schachcomputer auf Großmeisterniveau kann nicht unbedingt auch die Schachfiguren am Brett greifen, anheben, bewegen und wieder abstellen, was jedes Kind kann.
Maschinelles Lernen
Maschinelles Lernen ist eine Schlüsseltechnologie für Systeme der künstlichen Intelligenz, gewissermaßen ihr Unterbau. Als maschinelles Lernen bezeichnet man jenen Prozess, bei dem das Verhalten eines Computerprogramms nicht durch einen menschlichen Programmierer festgelegt wurde, sondern das Programm – die KI - aus Trainingsdaten lernt, darin enthaltene Muster selbsttätig erkennt, um darauf aufbauend Aufgaben erfüllen zu können.
Maschinelles Lernen bewährt sich besonders dort, wo der menschlichen Intelligenz keine Regeln in Form von Ursache – Wirkungszusammenhängen zugänglich sind, oder die Datensätze unüberschaubar groß sind.
Es gibt KIs mit und solche ohne maschinelles Lernen.
KIs ohne maschinelles Lernen, Expertensystem
Bei KIs ohne maschinelles Lernen, sogenannten regelbasierten KIs, werden die Algorithmen vom Entwickler so programmiert, dass sie bestimmte Aufgaben erfüllen. Beispiele für solche regelbasierten Algorithmen sind Regression, Klassifikation, Clustering, Zeitreihen.
Wenn eine KI darauf abzielt das menschliche Wissen eines Experten, sogenanntes Domänen-Knowhow zu modellieren und zu replizieren, dann spricht man von einem Expertensystem.
KIs mit maschinellem Lernen
Bei KIs mit maschinellem Lernen findet das Computerprogramm die spezifischen Regeln durch selbstständiges Ausprobieren und Benchmarken an einem vorgegebenen Ziel selbst. Durch maschinelles Lernen können also Regeln gefunden werden, die dem Programmierer zuvor nicht zugänglich waren.
Maschinelles Lernen umfasst also die Fähigkeit des Programms Erfahrungen zu machen, in dem es Regeln sucht und findet, um die Zielerfüllung eigenständig zu verbessern, dazu passt es während eins Lernvorgangs die Parameter des Modells an. Beispiele für solche Algorithmen sind Entscheidungsbäume, k-nächste Nachbarn, Support-Vektor-Maschinen (SVM) und neuronale Netze.
Neuronale Netze
Neuronale Netze sind eine von mehreren Techniken des maschinellen Lernens, die speziell gut dafür geeignet ist, komplexe, nicht lineare Beziehungen in Trainingsdaten zu modellieren. Neuronale Netze bestehen aus einer Eingangs- und einer Ausgangsschicht von Neuronen. Zwischen diesen beiden Schichten liegen die sogenannten verborgenen Schichten. Der Informationsfluss zwischen den Neuronen erfolgt über sogenannte Kanten, denen wiederum ein Gewicht (gedanklich eine Verstärkung bzw. Dämpfung) zugeordnet ist. Das maschinelle Lernen erfolgt vorwiegend durch Anpassung der Gewichte in den Kanten, solange bis das neuronale Netz die zum Eingangssignal entsprechenden Ausgangssignale liefert. Die Gewichtung der Kanten erfolgt durch kontinuierliche Justage und ist nicht durch einen Algorithmus – den ein Programmierer vorgibt - beschreibbar.
Neuronale Netze sind also eine Grundtechnologie von KI-Systemen mit maschinellem Lernen. Ihr Aufbau aus, miteinander verbundenen, künstlichen Neuronen ist vom Aufbau des menschlichen Gehirns inspiriert. Ihre Aufgabe ist es Informationen zu verarbeiten und Muster in Daten zu erkennen.
Deep Learning
Beim Deep Learning besteht das neuronale Netz, neben der obligaten Eingangs- und Ausgangsschicht aus vielen zusätzlichen Schichten, die es ermöglichen komplexere Modelle abzubilden.
Bedeutung von Trainingsdaten und Big Data für maschinelles Lernen
Für maschinelles Lernen sind neben Hardwareanforderungen an die verarbeitende IT noch qualitativ hochwertige Trainingsdaten erforderlich, geeignete Algorithmen und die Definition eines klar beschriebenen Ziels. Interessant ist, dass die Lernalgorithmen teils schon seit Jahrzehnten bekannt sind.
Da aber die Trainingsdaten umfangreich sein müssen, ging der Durchbruch beim maschinellen Lernen, Hand in Hand mit den Fortschritten bei der Verarbeitung von Big Data.
Der Nutzung von Trainingsdaten gehen zwei Arbeitsschritte voraus:
- Datenquellen müssen zugänglich gemacht werden und die daraus resultierenden Daten müssen digital erfasst werden
- In den erfassten Daten allenfalls enthaltene Fehler müssen korrigiert werden und die Daten müssen so aufbereitet werden, dass sie für den eigentlichen maschinellen Lernprozess automatisiert und im Falle von Wiederholungen unverändert zugänglich sind.
Die Beschaffung von Trainingsdaten ist daher sehr aufwändig und kostenintensiv. Nachfolgend 2 öffentlich zugängliche Quellen für Trainingsdaten:
- Wikipedia wird gerne für Trainingsdaten herangezogen. Dabei wird gerne übersehen, dass die Artikelverteilung keineswegs ausgewogen ist. Beispiele dafür können hier nachgelesen werden:
- Veröffentlichungen des Übersetzungszentrums für die Einrichtungen der EU werden gerne als Trainingsdaten für Übersetzer verwendet, da dort professionelle Übersetzungen innerhalb der 24 Amtssprachen der EU vorliegen.
Je nach der spezifischen Aufgabe und der Art der verfügbaren Trainingsdaten können verschiedene Lernmethoden verwendet werden, um optimale Ergebnisse zu erzielen.
Überwachtes maschinelles Lernen (Supervised Learning)
(dem Algorithmus werden Daten mit „richtigen“ Lösungen zur Verfügung gestellt)
Beim überwachten Lernen teilt man die Trainingsdaten in 2 Kategorien: 70% Lerndaten und 30% Testdaten.
- Lerndaten: Anhand der Lerndaten lernt der Algorithmus Vorhersagen zu treffen, da ihm die richtige Lösung bereits mitgegeben wird.
- Testdaten: Anhand der Testdaten wird anschließend der Grad der Zielerreichung ermittelt. Daher spricht man von „überwachtem“ Lernen.
Beispiel:
- Ein KFZ-Sachverständiger verfügt über Trainingsdaten, die aus 1.000 Fotos von PKWs samt Typbezeichnung bestehen.
- 700 Fotos samt Typbezeichnung werden dem Algorithmus als Lerndaten zur Verfügung gestellt.
- Den Testdaten, bestehend aus den restlichen 300 Fotos, die dem Algorithmus jedoch ohne Typbezeichnung vorgelegt werden, muss der Algorithmus die Typbezeichnung auf Grund der gelernten Regeln selbsttätig zuordnen.
- Der KFZ-Sachverständige überprüft anschließend den Erfolg in Prozent der richtigen Antworten.
- Bei überwachtem Lernen sind sowohl Eingabemuster als auch die gewünschten Ausgabemuster bekannt.
- Das neuronale Netz vergleicht das berechnete Ausgabemuster mit dem gewünschten Ausgabemuster und passt die Gewichtungen zwischen den Neuronen entsprechend an.
- Dieses Verfahren ist effizient und schnell.
- Es erfordert das Vorhandensein von Daten mit der „richtigen“ Antwort, sogenannte gelabelte Daten, die mit menschlicher Expertise erstellt wurden. Ausreißer bzw. atypische Daten, die nicht in den Lerndaten enthalten waren, verursachen Probleme.
- Es wird häufig für Aufgaben wie Klassifikation und Regressionsprobleme verwendet.
Unüberwachtes maschinelles Lernen (Unsupervised Learning)
(dem Algorithmus werden keine Daten mit „richtigen“ Lösungen zur Verfügung gestellt)
- Unüberwachtes Lernen erfolgt ohne Trennung zwischen Lern- und Testdaten. Dem Algorithmus werden also während des Lernens keine Vorlagen für „richtige“ Lösungen mitgegeben.
- Das Netzwerk muss eigenständig lernen, Muster in den Daten zu erkennen und in verschiedene Gruppen oder Kategorien einzuteilen, indem es Ähnlichkeiten bzw. Unterschiede zwischen den Mustern erkennt.
- Die Gewichtungen werden so angepasst, dass ähnliche Eingabemuster ähnliche Ausgaben erzeugen.
Beispiel:
- Ein KFZ-Sachverständiger verfügt über Trainingsdaten, die aus 1.000 Fotos von PKWs bestehen und die ohne weitere Angaben dem Algorithmus vorgelegt werden.
- Der Algorithmus versucht nun Muster in den Daten zu erkennen.
- Eventuell sortiert er die Autos nach KFZ-Typ, eventuell nach deren Farbe, eventuell nach Spuren von Unfällen, eventuell sortiert er auch nur die sehr seltenen Pick-Ups aus. Es kann sogar sein, dass sich die gefundenen Muster nicht interpretieren lassen, weil sie nicht zur Erlebniswelt des Sachverständigen passen.
- Der KFZ-Sachverständige muss anschließend entscheiden, ob die Sortierung für ihn einen praktischen Nutzen hat oder nicht.
- Da das Verfahren ohne gelabelte Daten auskommt, ermöglicht es die Entdeckung von neuen Zusammenhängen, die im Voraus nicht bekannt waren. Das kann aber auch negativ sein, wenn die erlernten Muster nicht für die vorgesehene Anwendung relevant sind, d.h. die KI entwickelt dann Lösungen, für die womöglich niemand das zugehörige Problem hat.
- Unüberwachtes Lernen wird oft beim Clustering angewendet. Es kann Musikvorschläge liefern oder Brustkrebs auf Grund von Strukturen in Bildern erkennen.
Bestärkendes maschinelles Lernen (Reinforcement Learning)
(dem Algorithmus wird positives oder negatives Feedback gegeben)
- Bestärkendes Lernen wird in Situationen eingesetzt, die sich permanent verändern
- Der Algorithmus führt verschiedene Aktionen aus und erhält für Versuch und Irrtum positives oder negatives Feedback, je nachdem ob seine Ausgabemuster richtig oder falsch sind.
- Er muss aber selbstständig die richtigen Ausgabemuster finden, indem er versucht das positive Feedback zu maximieren und das negative Feedback zu minimieren.
Beispiel:
- Ein Roboterarm mit Greifzange muss ein Wasserglas anheben, welches jedes Mal an einer anderen Stelle am Tisch steht. Dazu positioniert er über Motoren den Greifarm relativ zum Wasserglas.
- Es gibt eine positive Bewertung, wen er das Wasserglas hochhebt, ohne es zu zerbrechen.
- Es gibt eine neutrale Bewertung, wenn das Wasserglas nur vermeintlich hochgehoben wird, aber unversehrt stehen bleibt.
- Es gibt eine negative Bewertung, wenn das Wasserglas zerbricht.
- Dieser Lernprozess ist nicht so schnell wie das überwachte Lernen, aber er eignet sich für Situationen, in denen keine klaren Entscheidungskriterien vorhanden sind, wie etwa beim autonomen Fahren.
Unterscheidungsbasierte KIs
Unterscheidungsbasierte KIs können Beziehungen und Regeln finden und nutzen, von denen Existenz der menschliche Programmierer gar keine Ahnung hatte. Zudem können auch Aufgaben gelöst werden, für die es schwer ist, eine Schritt-für-Schritt Anleitung zu geben, etwa welches Lied einem Nutzer auf Basis der bisher gehörten Lieder als nächstes gefallen würde. Sie kommen in Spamfiltern, in der Bild- und Spracherkennung zum Einsatz und liefern Daten und Trainingsmaterial für generative KIs.
Generative KIs
Generative KIs lernen aus bestehenden Inhalten und erzeugen eigenständig neue Inhalte. Anwendungsbereiche dafür sind Text-zu-Bildgenerierung (Middourney, DALL-E, Stable Diffusion), Sprachgenerierung (ChatGPT, Gemini, Copilot),… Generative KIs generieren Text für die Interaktion mit Nutzern mittels conversational KIs.
Conversational AIs
Erfolgt das Dialogmanagement, also die Mensch-Maschine-Schnittstelle über einen Chat, so spricht man von einem conversational AI-System. Dieses ermöglicht es, mehrere aufeinanderfolgende Textein- und -ausgaben im Rahmen eines Gesprächsverlaufs (Chat) zu verwalten, um eine längere Konversation zu ermöglichen, ohne dass die KI den „roten Faden“ verliert.
Semantik
Semantik ist ein Begriff aus der Sprachwissenschaft und beschäftigt sich damit, wie in einer Sprache Bedeutung während einer Kommunikation auf Basis von Zeichen, Symbolen, Wörtern und Sätzen verstanden wird.
Betrachten wir den Satz: „Die Katze jagt die Maus“. Die Semantik beschäftigt sich damit, was die Worte bedeuten und in welcher Beziehung sie zueinanderstehen.
- Eine Katze ist ein beliebtes Haustier auf 4 Pfoten, welches über einen angeborenen Jagdtrieb verfügt und sich gerne von Nagetieren und Vögeln ernährt.
- Eine Maus ist ein anpassungsfähiges Nagetier, das sich von Pflanzen und Körnern ernährt und Katzen meidet.
- Jagen bedeutet, dass die Katze auf die Maus lauert, sie verfolgt, angreift, tötet und frißt.
Der Kontext, in dem dieser Satz zu sehen ist, besteht darin, dass ein Raubtier, welches ein beliebtes Haustier ist, kleine Nagetiere jagt, um sich von ihnen zu ernähren. Zu mindestens dort, wo es kein Kitekat zu fressen gibt ;-)
Mensch-Maschine Schnittstelle zwischen KI und Nutzer
Entscheidend für die Akzeptanz der auf künstlicher Intelligenz basierenden Anwendungen ist die Mensch-Maschine-Schnittstelle (MMI, Man-Machine-Interface).
Für die Kommunikation zwischen Anwender und KI haben sich besonders Natural Language Processing Systeme bewährt. Gesprochene oder geschriebene Sprache sind uns Menschen bestens vertraut und NLP-Systeme reduzieren die Hürden bei der Interaktion mit KI-Systemen und erhöhen, da sie intuitiv und effektiv nutzbar sind, die Akzeptanz von KI-Anwendungen.
Natural Language Processing (NLP)
Als Schnittstelle zwischen dem Menschen und der KI, also der sogenannten Mensch-Maschine-Schnittstelle (MMI), haben sich Natural Language Processing (NLP) Systeme bewährt.
NLP-Systeme sind darauf ausgerichtet, menschenähnliche Kommunikation in Textform zu ermöglichen. Die Kommunikation zwischen Menschen und Maschine kann z.B. in Form eines Chats erfolgen.
Semantik spielt in NLP-Systemen eine wichtige Rolle, denn deren Ziel ist es, die Bedeutung von Texten automatisch zu erfassen, zu analysieren und darauf zu reagieren.
Bei Chatbots dient NLP dazu, Fragen zu analysieren und präzise sinnvolle Antworten in Textform zu generieren. Der Chatbot stellt dabei die Mensch-Maschine-Schnittstelle auf Basis textueller Ein- und Ausgaben dar.
Für die simple maschinelle Übersetzung einzelner Phrasen aus wenigen Wörtern ist kein „Erinnerungsvermögen“ der NLP erforderlich.
Bei chatbasierte KIs, wie bei ChatGPT und Bard, wird das Erinnerungsvermögen in Token (Textfragmenten) gemessen. Es müssen hinreichend viele neuen Token generiert wird, damit der „rote Faden“ während des Chats nicht verloren geht und andererseits nur so wenige Token um das Ziel (die Antwort) erreichen zu können, ehe der Speicherplatz überläuft. ChatGPT-3.5 nennt selbst 4096 Token als Maximum für alle Ein- und Ausgabe zusammen, die während eines Chats anfallen.
Large Language Modelle (LLM)
Die bereits erwähnten Natural Language Processing (NLP) Systeme basieren wiederum auf Large Language Modellen. LLMs sind auf das Verständnis von natürlicher Sprache spezialisierte neuronale Netze, die, wenn sie über mehrere Hidden Layer verfügen, als Deep Learning bezeichnet werden.
Sprachmodelle sind eine mathematische Beschreibung dafür, wie natürlich-sprachige Sätze typischerweise aufgebaut sind. Sie funktionieren aber nicht regelbasiert, etwa auf der Basis von grammatikalischen Regeln und Wörterbüchern, sondern basieren auf statistischen Zusammenhängen über das gemeinsame Auftreten von Wörtern.
„An einem heißen Sommertag führte ich ein Glas Wasser zum Mund und nahm einen kräftigen ?????“. Vermutlich hat Ihr Gehirn den Satz – auf Grund von Erfahrungen und der damit verbundenen statistischen Wahrscheinlichkeit – schon vervollständigt. Denn wir haben seit unserer Kindheit gelernt, dass wir Menschen in diesem Kontext einen „Schluck“ nehmen und ganz sicher nicht einen Bissen oder gar einen Elefanten.
Bei einem LLM werden solche statistischen Zusammenhänge selbstständig anhand von riesigen Datenmengen auf Basis von Wahrscheinlichkeiten erlernt und durch künstliche neuronale Netze abgebildet.
Große Sprachmodelle (LLMs) wie ChatGPT und Bard wurden mit mehreren hundert Milliarden an Texten trainiert, wovon etwa Wikipedia weniger als 0,5% der Trainingsdaten ausmacht.
Nach dem Training können Texte kontextbezogen in natürlicher Sprache automatisiert gelesen und geschrieben werden.
Man sei sich auch der Gefahren von LLM bewusst!
Etwa in der Unterscheidung zwischen Wahrscheinlichkeit und Wahrheit: LLM erstellen Antworten auf Basis von aus Trainingsdaten gelernten Wahrscheinlichkeiten für sinnvolle Wortabfolgen, nicht aber auf Basis des zugrunde liegenden Wahrheitsgehalts. Durch diesen Ansatz neigen LLM bei Antworten systembedingt zum „Halluzinieren“ und „Schwafeln“.
Mist-rein → Mist raus: Von wesentlicher Bedeutung für die Qualität der Antworten eines LLM ist die Qualität der Trainingsdaten. Beinhalten die Trainingsdaten falsche, trendige oder diskriminierende Aussagen, darf man von der Antwort nichts Besseres erwarten. Darin liegt auch die Problematik LLM basierte KIs online auf das Internet zugreifen zu lassen. Nicht jeder ist mit der unentgeltlichen Nutzung seiner Daten durch KI-Betreiber einverstanden, und es kommen zunehmend „vergiftete“ Daten ins Netz. Dabei werden Daten absichtlich so verfälscht, dass eine KI in die Irre geführt wird und meinen einen Hund auf einem Bild zu identifizieren, wo eigentlich eine Katze abgebildet ist
In der Zensur von Daten: Wenn Trainingsdaten ausgewählt werden, entspricht dies einer Wissenskontrolle. Wenn die Trainingsdaten hingegen nicht ausgewählt werden, sondern frei aus dem Web stammen, besteht die Gefahr des Erlernens von Vorurteilen.
Themenfilter: Sowohl bei der Auswertung von Eingaben als auch bei der Ausgabe von Antworten arbeiten die Betreiber von LLMs mit Verbotslisten. Verbotslisten umfassen Wörter, Phrasen oder Muster, die von einem LLM nicht verarbeitet werden dürfen, um sicher zu stellen, dass keine unerwünschten, unangemessenen oder diskriminierende Inhalte erzeugt werden. Andererseits schränken Verbotslisten die Meinungsfreiheit ein und fördern Zensur.
Algorithmus
Ganz allgemein beschreibt ein Algorithmus mittels einer Handlungsvorschrift, wie aus einer Eingabe eine Ausgabe wird.
Eingabe → Verarbeitung gemäß Algorithmus → Ausgabe
Ein Kochrezept ist ein praktisches Beispiel für einen Algorithmus. Es ist eine Schritt-für-Schritt Anleitung, lässt aber persönliche Präferenzen und Freiheiten zu, da man bestimmte Zutaten auch durch andere Zutaten ersetzen kann, und nicht jeder Koch unter einer Prise Salz dieselbe Menge an Salz versteht.
Beim maschinellen Lernen ist ein Algorithmus eine systematische und geordnete Abfolge von Schritten, bzw. Anweisungen an einen Computer, die präzise ausgeführt werden müssen, um eine bestimmte Aufgabe zu lösen.
Modell
Während des Trainings wird der Algorithmus so lange angepasst, bis er in der Lage ist, korrekte Vorhersagen zu nicht in den Trainingsdaten enthaltenen Daten zu treffen. Ein Modell ist also das Ergebnis des maschinellen Lernens in Form eines parametrierten Algorithmus.
Beispiel für den Zusammenhang zwischen Algorithmus und Modell:
Ein Regressionsalgorithmus bestimmt die Koeffizienten k und d der zugrunde liegenden Regressionsgeraden vom Typ \(y = k \cdot x + d\) , für ein linearen Modell, aus einer Vielzahl von Punkten, die in einem xy-Koordinatensystem eingetragen sind.
Das lineare Regressionsmodell liegt in Form einer Geradengleichung \(y = 2 \cdot x + 0,5\) vor, welche die Beziehung zwischen der Eingangsvariable (x) und der Zielvariable y beschreibt.
Verarbeitungseinheiten eines LLMs
Prompt
So wie es uns von der Google-Suche vertraut ist, gibt man in den Eingabe-Slot von ChatGPT und Bard eine Suchanfrage, die Prompt genannt wird, ein. Der Prompt steuert wie das LLM den Text verarbeitet.
Im Unterschied zur Google-Suche formuliert man sein Ansinnen aber nicht stichwortartig, sondern in mehreren ganzen natürlich-sprachigen Sätzen. Stellt man eine Frage in deutscher oder englischer Sprache, so erfolgt die Antwort in der entsprechenden Sprache. Der Eingabe kann und soll auch Hinweise auf die Zielgruppe der Antwort mitgeben (etwa „schülergerecht“, „in 5 Bullet Points“, …).
Man kann ChatGPT auch bitten eine konkrete Sichtweise einzunehmen ("Wie hätte Newton das erklär") oder ein Sprachniveau (A1, also einfachstes Vokabular) einzuhalten. Für jedes neue Thema sollte man einen separaten Chat anlegen, damit die KI den Überblick behält, worum es thematisch geht.
Token
Der mittels Prompt eingegebene Text wird in einzelne Text-Fragmente, sogenannte Token zerlegt. Ein Token ist zugleich die kleinste Einheit in der ChatGPT Texte verarbeitet und sie sind auch die Basis für die Verrechnung bei Bezahlmodellen. ChatGPT versteht Eingaben auf Basis von Token und generiert Ausgaben auf Basis von Token. Ein Token kann dabei ein Satzzeichen, der Teil eines Worts, ein einzelnes Wort oder eine ganze Phrase umfassen.
Token-Vektor
Jeder Token aus den Trainingsdaten wird mittels eines Zahlenvektors in einem virtuellen multi-dimensionalen Vektorraum dargestellt. Das ist extrem aufwändig!
Die Vektoren sind so konzipiert, dass sie semantische Informationen über den Token enthalten und es dem Transformer (das T in GPT) ermöglichen, Beziehungen zwischen den Tokens zu modellieren. Auf Basis der Token-Vektoren kann der Transformer komplexe sprachliche Muster erkennen. Die Vektoren können dazu verwendet werden, um mathematische Operationen auf den Token anzuwenden, wie das Berechnen von Ähnlichkeiten zwischen Token oder das Generieren von Text basierend auf Token unter Berücksichtigung der Wahrscheinlichkeit für eine insgesamt intelligente Antwort über mehrere Sätze hinweg.
Chat
Ein kontext-umfassender Chat kann nur eine endliche Anzahl an Token umfassen. D.h. ChatGPT verliert nach dem Überschreiten einer vorgegebenen Anzahl an Token (4096 Token bei Version ChatGPT-3.5) den “roten Faden“ in einem Chat. D.h. es weiß nicht mehr, was es zuvor von sich gegeben hat. Das ist bei uns Menschen aber auch so …
Chatverlauf mit durchgängigem Kontext
Die vergangenen Anfragen bleiben in der linken Bildleiste von ChatGPT erhalten und können jederzeit im Rahmen dieses Chats fortgeführt werden. Will man das Thema wechseln, so bietet sich der Button „New Chat“ an, wodurch man einzelne Chats thematisch fokussieren kann.
Man spricht vom Kontext des Chats, der es ChatGPT ermöglicht zu wissen um welches übergeordnete Thema es bei einer Abfolge von Anfragen – dem Chatverlauf - geht.
ChatGPT und Gemini
Das Jahr 2023 wird wohl in die Geschichte eingehen, als das Jahr, in dem generative künstliche Intelligenz nicht mehr nur ein Thema für IT-Profis ist, sondern in der breiten Masse, der nicht technikaffinen Internetnutzer, angekommen ist.
11.2022 wurde ChatGPT von OpenAI öffentlich verfügbar und innerhalb von nur 5 Tagen erreicht ChatGPT eine Million Nutzer. Dafür hat Instagram 2,5 Monate benötigt, Facebook immerhin 10 Monate und Twitter gute 2 Jahre.
10.2023 machte Google seine KI namens Bard öffentlich verfügbar.
ChatGPT und Gemini sind beide sprachbasierte generative KIs, bei der eine künstliche Intelligenz vom Typ „Large Language Model (LLM)“ mit dem Nutzer unter Zuhilfenahme einer Chatoberfläche kommuniziert. Sie unterscheiden sich aber auf Grund ihrer Architektur.
ChatGPT
ChatGPT basiert auf der GPT-Architektur, welche von OpenAI entwickelt wurde. GPT-3 basiert auf 175 Milliarden und GPT-4 auf 100 Billionen Parametern. GPT gilt als Vielseitiger als Gemini.
- Das Chat in ChatGPT steht für eine Mensch Maschine Schnittstelle (MMI), die einen Dialog zwischen Nutzer und KI in Form von Frage und Antwort ermöglicht.
ChatGPT und Bard kommunizieren beide mittels Chats. - Das „G“ in ChatGPT steht für Generative KI, was bedeutet, dass die KI eigenständige Texte erstellen (also „generieren“) kann, die sehr wahrscheinlich eine sinnvolle Antwort auf eine textuelle Eingabe bzw. Fragestellung darstellen.
ChatGPT und Gemini sind beide generative KIs. - Das „P“ in ChatGPT steht für Pre-Trained, was bedeutet, dass die KI vorab mit einer gigantisch großen Anzahl an Textinhalten bzw. Bildern aus Datenbanken trainiert wurde. Während des Trainings baut die KI einen multi-dimensionalen Vektorraum auf, in dem Token mittels Vektoren platziert werden.
ChatGPT und Gemini sind beide pre-trained. - Das „T“ in ChatGPT steht für Transformer. Transformer-Architiektur bezeichnet eine spezielle Architektur eines neuronalen Netzwerks, das in der Verarbeitung von natürlicher Sprache (Natural Language Processing, NLP) erfolgreich eingesetzt wird und welches von der Firma OpenAI entwickelt wurde.
- Zunächst werden in der Eingabe / Fragestellung („Prompt“ genannt), die für deren Beantwortung relevanten Daten mit Hilfe eines Aufmerksamkeitsmechanismuses erfasst.
- Auf Grund des Trainings hat sich das Modell selbst, also ohne menschliches Zutun, durch maschinelles Lernen, Muster und Beziehungen angelernt, um durch Gewichtungen bestimmen zu können, mit welchen Ausgaben es auf konkrete Eingaben reagieren soll.
- Auf Grund von Wahrscheinlichkeitsverteilungen erfolgt das Sampling, also die schrittweise Zusammenstellung der Antwort, bei der das wahrscheinlichste Wort der nächsten Ausgabe unter Berücksichtigung der bereits generierten Teilsätze so bestimmt wird, dass eine syntaktisch korrekte gut lesbare Antwort entstehen.
Die Stärke von ChatGPT liegt in der Fähigkeit textuelle Eingaben zu verstehen und zu beantworten. Darüber hinaus unterstützt ChatGPT-4 das Erstellen von Programmcode und die Fehlersuche in Programmcode. ChatGPT verfügt (Stand 02.2024) über keinen Zugriff auf aktuelle Webseiten. ChatGPT macht keine Angaben zur jeweiligen Quelle der Informationen. Ende 2023 hat OpenAI Verhandlungen mit Verlagen aufgenommen, um über die Kosten einer Lizenzierung von deren Inhalten für das Training von ChatGPT zu verhandeln.
Bing Chat
Bing Chat basiert auf der GPT-Architektur von OpenAI und auf dem Bildgenerator DALL-E3.
Bing Chat ist eine Erweiterung der Suchmaschine Bing von Microsoft und basiert auf GPT-4 von OpenAI, einem Unternehmen, an dem Microsoft umfangreich finanziell beteiligt ist.
Im Unterschied zu ChatGPT liefert Bing Chat sehr wohl Angaben zu den Quellen, mitunter ist das auch maths2mind.com. Der Nutzer kann zwischen den Konversationsstilen Precise, Balanced und Creative wählen. Die Wahrscheinlichkeit dass Bing Chat „halluziniert“ ist auf Grund der bestehenden Verbindung zu den Quellen geringer als bei ChatGPT.
Bing Chat bietet auch die Möglichkeit der Bildgenerierung mittels DALL-E.
Microsoft Copilot
Microsoft Copilot wiederum basiert auf Bing Chat.
Microsoft Copilot macht die Funktionen von Bing Chat außerhalb der eigentlichen Bing Suche, etwa in Microsoft Programmen wie Word verfügbar und erfordert Windows 11 mit mindestens dem 22H2-Update.
Google Bard
Bard basiert auf der LaMDA-Architektur, welche von Google AI bzw. Alphabet entwickelt wurde. Die LaMDA-Architektur wurde speziell für Dialoganwendungen, einschließlich Sprachübersetzungen, entwickelt.
So wie auch ChatGPT verwendet auch Bard Chats, ist eine generische KI und wurde vorab-trainiert, ist also pre-trained. Bard arbeitet aber nicht mit der GPT-Architektur, sondern mit der LaMDA Architektur. Bard basiert auf 137 Milliarden Parameter. LaMDA verwendet so wie GPT Token und eine Transformer-Architektur, die auf „Aufmerksamkeit“ basiert. Darüber hinaus verwendet LaMDA noch semantische Einbettungen, das sind zusätzliche Vektoren, welche die Bedeutung von Wörtern und Phrasen darstellen. Zudem hat LaMDA Zugriff auf weitere Google Dienste wie Google Search und Google Assistant.
LaMDA steht für Language Model for Dialog Applications
Google Gemini
Google AI verfügt neben der LaMDA-Architektur auch über die Gemini-Architektur, welche von Google Brain und Deepmind entwickelt wurde. Es gibt sie in den Varianten Ultra, Pro und Nano, die sich in der Anzahl der Hidden Layer der zugrunde liegenden neuronalen Netze unterscheiden. Bei Gemini handelt es sich um ein besonders effizientes LLM. Bard-Advanced basiert auf der Gemini-Pro Variante. Lokal auf Smartphones soll Gemini Nano zum Einsatz kommen. Für industrielle Anwendungen, etwa die Wettervorhersage, ist Gemini-Ultra vorgesehen.
Die Gemini-Architektur ist eine Multi-Model-Architektur, die mehrere Sprachmodelle mit unterschiedlichen Stärken und Schwächen kombiniert. Sie ist vielseitiger als die rein dialogorientierte LaMDA-Architektur. Die Gemini Architektur ist von Grund aus auf Multimodalität ausgelegt, d.h. sie kann mit Text, Bildern, Videos, Tönen und Code – mittels Alphacode 2 - umgehen.
Der Bildgenerator basiert auf Imagen-2. Haben Bildgeneratoren wie Midjourney bisher nach dem One-Shot-Verfahren Bilder aus einem Rauschen heraus generiert, kann man nun durch nachfolgende Befehle weitere Veränderungen am bereits generierten Bild vornehmen, ohne dass das Bild erneut aus einem Rauschen neu erzeugt wird. In die Bilder ist ein unsichtbares Wasserzeichen integriert, welches auf der Technologie SynthID basiert.
Gemini verfügt auch über die Fähigkeit durch den Nutzer hochgeladene Bilder verbal zu beschreiben und optisch Texte in Bildern zu erkennen (OCR – Optical Character Recognition).
Der Einstieg in ChatGPT
Sie können ChatGPT nutzen, indem Sie in ihrem Browser die URL „chat.openai.com“ aufrufen und sich dort mit Ihrem Google User anmelden. Du arbeitest also nicht anonym.
- ChatGPT-3.5
Dann steht Ihnen die Version GPT-3.5 kostenlos und die Version GPT-4 gegen ein monatliches Entgelt zur Verfügung. ChatGPT 3.5 gibt den September 2021 als letztes Update für den trainierten Wissensstand an und arbeitet mit einem Limit von 4096 Token (Textfragmenten), was einem Chatverlauf von wenigen tausend Worten entspricht. - ChatGPT-4
Das kostenpflichtige ChatGPT 4 soll einen Chatumfang von ca. 50 Seiten umfassen und zusätzlich Bilder verarbeiten. Die Benutzeroberfläche wird nicht nur geschriebene Chats umfassen, sondern auch Spracheingabe (Voice-to-Text mittels Whisper) und Sprachausgabe (Text-to-Speech). Ebenfalls in Arbeit ist die Interpretation von Text, der in Fotos enthalten ist, als zusätzliche Eingabemöglichkeit. Zusätzlich gibt es zu ChatGPT-4 sogenannte Plug-Ins, die etwa die Anbindung des Computer Algebra Systems von Wolfram Alpha ermöglichen, wodurch ChatGPT auf tatsächlich rechnen kann
Der Einstieg in Gemini
Sie können Gemini nutzen, indem sie in ihrem Browser die URL „gemini.google.com“ aufrufen und sich dort mit Ihrem Google User anmelden. Auch hier arbeitest du nicht anonym.
Derzeit (02.2024) ist Gemini kostenlos.
Der Einstieg in Bing-Chat
Sie können Bing-Chat nutzen, indem sie in ihrem Browser die URL „bing.com“ aufrufen und sich dort mit Ihrem Microsoft Konto anmelden. Auch hier arbeitest du nicht anonym.
Derzeit (02.2024) ist Bing-Chat kostenlos.
Der Einstieg in Microsoft Copilot
Sobald Copilot von Microsoft in der entsprechenden Region freigegeben ist, und man über die erforderliche Windows-Version verfügt, sieht man in der Taskleiste das entsprechende Symbol, zudem wird es als Pop-Up-Fenster am rechten Bildschirmrand angezeigt. Copilot soll zudem direkt in Programmen von Microsoft Office verwendbar sein. (03.02.204, auf unserem Win-11-PC noch nicht verfügbar).
Sie können Copilot nutzen, indem sie in ihrem Browser die URL "copilot.microsoft.com" aufrufen und sich dort mit ihrem Microsoft User anmelden. Auch hier arbeitest du nicht anonym.
Derzeit (03.2024) ist Copilot kostenlos.
Sprachbasierte generative KI und Mathematik
Sprachbasierte generative KIs, bei der eine künstliche Intelligenz vom Typ „Large Language Model (LLM)“ mit dem Nutzer unter Zuhilfenahme einer Chatoberfläche kommuniziert können ohne Plugin, also Schnittstellen zu einem externen CAS, grundsätzlich nicht rechnen!
Das kann sich auch so lange nicht ändern als LLMs auf stochastischen Modellen basieren. D.h. sie erzeigen eine Wahrscheinlichkeitsverteilung von möglichen Antworten. Dies ist bei Texten über mathematische Inhalte ausreichend, …
- Beispiel: Fragt man ChatGPT: „Wofür dient der Binomialkoeffizient“ so erhält man eine brauchbare Antwort: „Der Binomialkoeffizient, oft mit dem Symbol "n über k" oder "C(n,k)" dargestellt, ist eine mathematische Funktion, die in der Kombinatorik und Wahrscheinlichkeitstheorie weit verbreitet ist. Er dient dazu, die Anzahl der Möglichkeiten zu berechnen, k Elemente aus einer Menge von n Elementen auszuwählen, ohne die Reihenfolge zu berücksichtigen… Die Berechnung des Binomialkoeffizienten erfolgt in der Regel mithilfe der Kombinatorik-Formel: \(C\left( {n,k} \right) = \left( {\begin{array}{*{20}{c}} n\\ k \end{array}} \right) = \dfrac{{n!}}{{k!\left( {n - k} \right)!}}\) .
In der weiteren Antwort kommt aber auch der Begriff „Binomiales Experiment“ vor. Fragt man nach, ob ein „Binomiales Experiment“ dasselbe wie eine „Bernoulli-Kette“ ist, so verfängt sich ChatGPT in Widersprüchen ….
… nicht aber für Rechenaufgaben, die eine exakte Antwort benötigen.
- Beispiel: Fragt man ChatGPT „Wieviel ist 1+1?“, so erhält man als Antwort jenes Resultat, das ChatGPT am häufigsten in den Daten gefunden hat, mit denen es trainiert wurde: „1+1 ergibt 2“. Und müsste eigentlich hinzufügen: „Wahrscheinlich“.
Hat ChatGPT das Resultat aber noch nie gelesen, fängt es an zu raten: „Wieviel ist \root 5 \of {147,95} =“. Die Antwort lautet „Die fünfte Wurzel von 147,95 beträgt ungefähr 2,364“, was nicht wirklich brauchbar ist, denn: \(\sqrt[5]{{147,95}} \approx 2,71658\)
Rechenaufgaben erfordern ein Verständnis der zugrundeliegenden Mathematik, während KIs Muster in Trainingsdaten erkennen und daraus basierend auf einem Algorithmus ein Modell parametrieren, um neue Daten, ohne jegliches Verständnis der zugrundeliegenden Kausalitäten, – etwa von Gleichungen oder Formeln - zu generieren.
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.