Verrauschen | Maths2Mind

Wissenspfad

In dieser Mikro-Lerneinheit lernst du die Grundlagen der generative Fotobearbeitung und der generative Bildgenerierung mit Hilfe künstlicher Intelligenz kennen. Ausgehend von der Retouche analoger Fotos durch "nachbelichten" oder "abwedeln", kommen wir zum "photoshoppen" digitaler Fotos, damit diese am Smartphone "instagrammable" fürs soziale Netzwerk werden, wodurch leider unrealistische Standards etabliert werden.

Als die automatische Trennung vom Motiv im Vordergrund zum Himmel im Hintergrund durch leistungsfähige Computerprogramme möglich wurde, war der Grundstein für die generative Fotobearbeitung gelegt. Plötzlich konnten beliebige Bildteile markiert und gelöscht oder ausgetauscht werden. Durch generatives Erweitern wurden fehlende Bildteile durch die KI ergänzt.

Den derzeit aktuellen Entwicklungsstand dominieren generative Bildgeneratoren auf Basis "Text zu Bild". Diese Bildgeneratoren wurden mittels Diffusionsmethode, einer Anwendung maschinellen Lernens trainiert. Dabei beschreitet man den Weg vom klaren Foto mit textueller Beschreibung, über das Hinzufügen von Rauschen zu einem unkenntlichen Bild und wieder zurück zum klaren Foto durch Entrauschen. Das Entrauschen kann zweistufig erfolgen, wobei ein DAE (Denoising AutoEncoder) aus einem Ausgangsrauschen ein Bild niederer Auflösung generiert. Anschließend fügt ein VAE (Variational AutoEncoder) dem nieder aufgelösten Bild Details hinzu.

Beim maschinellen Lernen kommen neuronale Netze zum Einsatz. Wir gehen auf den Ansatz von der Firma OpenAI mittels CLIP (Contrastive Language-Image Pre-Training) ein, und erklären die Dual-Encoder-Architektur, mittels derer ein Bild-Encoder und ein Text-Encoder hochdimensionale vektorielle Darstellungen in einem Einbettungsraum erzeugen. Eine kontrastive Verlustfunktion sorgt dafür, dass im neuronalen Netz die Gewichte so angepasst werden, dass ähnliche Bild-Text-Paare im Einbettungsraum nahe beisammen zu liegen kommen.

Wir gehen auf die Eigenschaften eines optimalen Prompts ein und listen eine Auswahl an gängigen Tags auf. Den Abschluss bildet ein Test auf Praxistauglichkeit, bei dem wir unterschiedliche Bildgeneratoren die Darstellung des "Kampfes einer Mathematik-Studentin gegen ein aus Formeln und Termen zusammengesetztes Mathematik-Monster" generieren lassen.

Generative Fotobearbeitung und Bildgenerierung mittels KI

Foto-Retusche in der Zeit analoger Fotografie

Eine korrekte Belichtung und eine natürliche Farbwiedergabe, sowie eine ansprechende Auswahl der Vergrößerung bzw. des Bildausschnitts gehörten schon immer zu den selbstverständlichen Elementen einer gelungenen Fotoausarbeitung.

Selbst in den Anfängen der analogen Fotografie ging man bald einen Schritt weiter, indem man versuchte durch Foto-Retusche eine nachträgliche Verbesserung oder Veränderung der eigentlichen Aufnahme zu erreichen. Die Möglichkeiten bei der Ausarbeitung der Fotos waren zunächst sehr beschränkt, etwa auf partielles Nachbelichten, um Bildteile abzudunkeln, oder „Abwedeln“, um Bildteile aufzuhellen.

Photoshoppen, damit Bilder "instagrammable" werden, in Zeiten der Smartphone-Fotografie

Durch die digitale Fotografie, speziell in Verbindung mit dem ersten mächtigen computerbasierten Fotobearbeitungsprogramm „Adobe Photoshop“, haben sich Anfang des 3. Jahrtausends die technischen Möglichkeiten der Bildbearbeitung dramatisch verändert. Seither sind bearbeitete Fotos allgegenwärtig und der Ausdruck „photoshoppen“ ist zur umgangssprachlichen Bezeichnung für nachträglich veränderte Fotos geworden.

Speziell als private Amateurfotos durch das Aufkommen des auf Video- und Foto-Sharing spezialisierten sozialen Netzwerks Instagram plötzlich weltweite Verbreitung fanden, mussten Fotos auch „instagrammable“ sein. Atemberaubende Landschaften, neiderweckende Architektur, attraktive Menschen mit porenlos reiner Haut in modischen Outfits, wurden zunehmend bedeutend und durch technische Manipulation, etwa mittels „Filter“, auch für absolute Laien am Smartphone machbar.

Mittlerweile werden diese Entwicklungen in der Fotografie als sozial und psychisch problematisch angesehen, da sie unrealistische Standards etablieren und zu Selbstzweifeln und Depressionen führen können.

Generative Fotobearbeitung mit Hilfe von KI

Den nächsten Schritt nach „photoshoppen“ und „instagrammablen“ Fotos liegt in der generativen Fotobearbeitung, die erst durch den Einsatz von künstlicher Intelligenz möglich wurde.

Den Anfang generativer Fotobearbeitung machte vermutlich das automatische Freistellen des Bildvordergrunds vom Himmel im Bildhintergrund. Dadurch wurde es möglich, das Motiv im Vordergrund selektiv zu bearbeiten, gefolgt vom Austausch des oft flauen Erscheinungsbilds des Himmels, gegen einen „dramatischen“ Himmel.

Dazu war es erforderlich, dass die Bildbearbeitungssoftware automatisch zusammenhängende Objekte erkennt, obwohl die Objekte durch den Bildbearbeiter nur grob mit transparenten Pinselstrichen händisch markiert werden. Besonders problematisch sind dabei durchscheinende Objekte wie die Äste, Zweige und Blätter eines Baums oder feine Strukturen in Haaren, die sich gegen den Hintergrund kaum abheben.

Generative Bildbearbeitung mit Adobe Photoshop, Adobe Lightroom, Luminar Neo oder ähnlichen Bildbearbeitungsprogrammen entwickelten sich weiter und ermöglichen es heute, nicht nur den Himmel, sondern beliebige Details aus einem Foto zu löschen oder auszutauschen. So kann ein störender Strommast in einer Landschaftsaufnahme gelöscht werden, oder statt einer Bierkiste schwimmt plötzlich eine Meeresschildkröte im heimischen Pool...

Generatives Erweitern ermöglicht es etwa ein 4:3 Foto auf ein 16:9 Foto zu erweitern, indem fehlende Bildinhalte durch die KI passend ergänzt werden. D.h. die KI generiert Bildinhalte, die vorher nicht da waren.

Generative Bildgeneratoren auf Basis von "Text zu Bild"

Erneut einen Schritt weiter gehen generative Bildgeneratoren auf Basis „Text zu Bild“. Bildgeneratoren wie Midjourney, DALL-E, Stable Diffusion und Firelfy wurden anhand von Millionen Bildern trainiert und ermöglichen es, ohne eigenem bildlichen Ausgangsmaterial ein neues Bild allein auf Basis einer verbalen Beschreibung zu erschaffen.

Diffusionsprozess: Vom klaren Bild übers Rauschen zum künstlich generierten Bild

Diffusionsmodelle

Generative Bildgeneratoren, die auf Diffusionsmodellen basieren, erzielen derzeit (03.2024) die besten Bilder, die nur auf einer verbalen Bildbeschreibung basieren. „Diffusion“ ist dabei ein Vorgehen beim Training der Bildgeneratoren, welches vom MIT (Massachusetts Institute of Technology) und Adobe unter der Bezeichnung „Stable Diffusion“ mit dem Ziel entwickelt wurde, realistische Bilder zu generieren.

Diffusion ist daher eine Form des maschinellen Lernens und nicht etwa eine Architektur, wie „Transformer“.

Schritt 1 – Foto taggen: Der maschinelle Lernprozess startet mit Fotos oder Bildern, deren Bildgegenstand von Menschen mittels Tags sprachlich beschrieben wurde. Man spricht in diesem Zusammenhang von "gelabeleten" also beschriebenen Daten. Ein „Tag“ oder "Label" ist in diesem Zusammenhang eine kurze prägnante Bildbeschreibung, die in ein NLP-System (Natural Language Processing) einfließt. Das ist insofern nichts Neues, als schon seit langem alle Bilder in umfangreichen Bilddatenbanken mit Hilfe von Tags auffindbar gemacht wurden. Mit Hilfe des NLP-Systems soll letztlich aus einer verbalen Bildbeschreibung wieder ein Foto generiert werden und zwar künstlich durch die generative KI.

Während des maschinellen Lernens benötigt man hunderte Fotos mit ein und dem selben Bildgegenstand (z.B.: eine Erdbeere). Der jeweilige Bildgegenstand unterscheidet sich dabei von Foto zu Foto durch Farben, Formen, Texturen, Muster, Linien, Flächen und durch „unerwünschte“ Bildinhalte. Die Darstellungen unterscheiden sich zusätzlich durch Kunststile und Bildkomposition. Die Fotos mit dem Bildgegenstand zum Tag „Erdbeere“ zeigen: Erdbeeren am Feld, einzelne Erdbeeren, in 2 Hälften geteilte Erdbeeren, Erdbeeren mit drei Blättern am Stiel, Erdbeeren mit Zucker in einer Schale, Erdbeeren in eine Kiste, Erdbeeren in einem Korb, Erdbeeren mit Schlagobers, Erdbeere auf einem Tortenstück, Erdbeeren mit Stroh-Unterlage am Feld. Es kommen auch Zeichnungen, Grafiken und Gemälde von Erdbeeren zum Einsatz.

Der Midjourney Befehl /describe erstellt einen Prompt auf Basis eines Bildes, welches durch den Nutzer zuvor hochzuladen wurde. Anhand dieser Beschreibung kann man lernen mit welchen Tags Midjourney ein Foto assoziiert.

Schritt 2 - Verrauschen: Jedem Foto wird nach und nach Rauschen hinzugefügt, bis das dargestellte Objekt für den Betrachter völlig unkenntlich ist. Dazu verändert ein Algorithmus die Auflösung, die Pixel selbst oder fügt Gauß’sches Rauschen hinzu. Der Zusammenhang mit den ursprünglichen Tag bleibt dabei im so trainierten Modell erhalten.

Schritt 3 - Rauschreduzierung: Im Umkehrprozess wird anschließend versucht, das Rauschen aus dem Bild zu entfernen, um ein neues Bild zu erzeugen. Dabei kommen Diffusions-Transformer auf Basis neuronaler Netze zum Einsatz. Dieser Prozess kann etwa zweistufig erfolgen:

Schritt 3.1: Ein DAE (Denoising AutoEncoder) in Form eines neuronalen Netzes ist darauf trainiert, Rauschen aus einem anfänglichen Zufallsrauschen zu entfernen und ein, dem Prompt bzw. den Tags, entsprechendes Bild mit niedriger Auflösung zu generieren.
Schritt 3.2: Ein VAE (Variational AutoEncoder) ebenfalls in Form eines neuronalen Netzes ist darauf trainiert, einem Bild mit niedriger Auflösung, auf Grund von Wahrscheinlichkeiten, Details hinzuzufügen, damit ein, dem Prompt bzw. den Tags, entsprechendes Bild mit hoher Auflösung generiert wird.

Wenn alles richtig funktioniert hat, liegt dann wieder ein hochauflösendes Bild gemäß den Vorgaben vom Prompt vor.

Den Trainingsbildern wurde also „Rauschen“ hinzugefügt und das Modell hat so gelernt, wie es umgekehrt aus Rauschen wieder ein Bild erzeugen kann, welches der vorgegebenen Bildbeschreibung entspricht.

Wenn Midjourney einen /imagine Befehl abarbeitet, kann der Nutzer zusehen, wie es mit Rauschen startet und iterativ immer mehr Bilddetails hinzufügt, sodass sich das Bild den Vorgaben aus dem Prompt annähert. Gibt man mehrfach die selbe Bildbeschreibung ein, entstehen immer neue Varianten des Bildes, da das Ausgangsmaterial „Rauschen“ mit all seinen Zufälligkeiten ist.

Wie wir gesehen haben, ist die Bildgenerierung schwieriger als die reine Sprachgenerierung. Es muss nämlich nicht nur der Prompt „verstanden“ werden, sondern zusätzlich ein Zusammenhang zwischen der sprachlichen Beschreibung (Tag oder Label) und den entsprechenden, von der KI generierten, grafischen Bildelementen hergestellt werden.

Auch hier kommt wieder maschinelles Lernen auf Basis eines neuronalen Netzes zum Einsatz. Die Technik die OpenAI für diesen Zweck entwickelt hat, nennt sich CLIP (Contrastive Language-Image Pre-Training). Dabei kommt eine Dual-Encoder-Architektur zum Einsatz. Dual Encoder bedeutet, dass separate Encoder für Bilder und Texte parallel zum Einsatz kommen:

Der 1. Encoder ist ein Bild-Encoder. Dieser extrahiert während des Trainings relevante Merkmale aus einem Foto und erzeugt so eine hochdimensionale Vektordarstellung.
Der 2. Encoder ist ein Text-Encoder. Dieser erzeugt aus der Bildbeschreibung, also den Tags, eine semantische Bildbeschreibung und erzeugt ähnlich wie ein LLM eine Vielzahl an Token-Vektoren. „Contrastive Language“ bedeutet, dass für jedes Bild mehrere Bildbeschreibungen eingegeben werden. Und zwar solche, die mit dem Bildinhalt übereinstimmen, und solche, die nicht mit dem Bildinhalt nicht übereinstimmen. Dies ermöglicht es dem neuronalen Netz das Gewicht je Kante für übereinstimmende Bild-Text Paare zu erhöhen bzw. bei nicht übereinstimmende Bild-Text Paaren zu verringern.
Beide Vektordarstellungen werden in einen gemeinsamen Einbettungsraum vektoriell abgelegt. Dies ermöglicht es, die semantische Bedeutung von Texten mit visuellen Merkmalen in Bilddarstellungen parallel zu führen sodass zumindest die trainierte KI deren Beziehungen kennt. Diesen Einbettungsraum kann man sich zweidimensional wie ein Schachbrett vorstellen. Die Spalten sind mit den Text-Token und die Zeilen mit den Bild-Merkmalen beschriftet. In den Zellen finden sich die jeweiligen Bildinhalte. Diese Bildinhalte sind uns Menschen aber nicht mehr zugänglich. Man kann sie daher auch nicht kontrollieren oder manuell berichtigen, was bei der Erzeugung von Bildern zu unerwünschten Darstellungen, speziell bei Details wie Fingern führen kann.
CLIP verwendet dabei eine kontrastive Verlustfunktion, die darauf abzielt, ähnliche Text-Bild-Paare im Einbettungsraum nahe beisammen zu positionieren, während unähnliche Paare von einander entfernt zu liegen kommen. Dies erfolgt wie bei neuronalen Netzen üblich durch Anpassung der Gewichte entlang der Kanten im neuronalen Netz durch die Encoder. Dabei kommt eine Distanzmetrik (z.B.: der euklidische Abstand) zwischen den Repräsentationen zum Einsatz. Der Verlust wird minimiert, indem positive Paare nahe bei einander liegen.

So können zu vorgegebenen Texten passende Bilder generiert werden (Midjourney: /imagine) oder zu vorgegebenen Bildern beschreibende Texte (Midjourney: /describe) erstellt werden.

Diffusionsmodelle sind sehr trainings- und rechenintensiv. Man benötigt für deren Training etwa einen Datensatz von 400 Millionen Bild- und Textpaaren. Die Qualität des generierten Bildes hängt von der Qualität, der im Einbettungsraum hinterlegen vektoriellen Text- und Bild-Zuordnung ab.

Prompt-Engineering

Es erfordert vom Nutzer viel Erfahrung den Prompt so zu erstellen, dass das erwartete Bildresultat generiert wird. Man nennt diesen Vorgang „Prompt Engineering“. Diese Problematik wird noch verschärft, da sich die konkurrierenden Bildgeneratoren einerseits in deren Einbettungsraum, also im vektoriellen Text-Bild-Zusammenhang und andererseits in den verwendeten Trainingsdaten voneinander unterscheiden.

Wie wir bereits festgestellt haben wurden beim Training zur Beschreibung der Bildinhalte „Tags“ verwendet. Es ist daher naheliegend diese Tags auch in den Prompt einzubauen, um aus dem Ausgangsmaterial – einem Zufallsrauschen – ein gewünschtes Bild generieren zu lassen.

Ein optimaler Prompt sollte folgende Eigenschaften haben:

Stichwortartige, klare und präzise verbale Beschreibung des Bildinhalts, getrennt nach Hauptmotiv und Umfeld.
Angaben, wie man das Bild ohne KI erzeugen hätte können.

Nachfolgend eine Auflistung gängiger Tags, die sich für Prompt Engineering anbieten. Die Aufzählung erhebt keinerlei Anspruch auf Vollständigkeit und soll ausschließlich inspirieren!

Art Styles (Kunstrichtungen)

Painting (Malerei)
- Renaissance (Renaissance): Gekennzeichnet durch realistische Proportionen, Perspektive und klassische Themen. Stil der im 15. und 16. Jahrhundert vorherrschte. Markiert Übergang vom Mittelalter zur Frühen Neuzeit
- Baroque (Barock): Verschnörkelter, pompöser, reich verzierter Stil, der im 17. und 18. Jahrhundert vorherrschte.
- Impressionism (Impressionismus): Fängt flüchtige Momente, Licht und Atmosphäre mit lockerer Pinselführung ein. Stil des 19. Jahrhunderts.
- Expressionism (Expressionismus): Drückt Gefühle durch verzerrte, grobe Formen und lebhafte, ungemischte, kontrastreiche Farben aus. Stil des ausgehenden 19. Jahrhunderts
- Cubism (Kubismus): Stellt Objekte künstlich auf geometrischen Formen wie Würfel reduziert dar. Stil Anfang des 20. Jahrhunderts
- Surrealism (Surrealismus): Bekannt für traumhafte, unlogische Kompositionen mit Träumen, Visionen, Rauschzuständen. Stil Mitte des 20. Jahrhunderts.
Traditional Drawing and Painting (Traditionelles Zeichnen und Malen)
- Japanese Ink (Japanische Tusche): Minimalistische, fließende Tuschpinselführung.
- Watercolor Sketch (Aquarell-Skizze): Transparente, zarte Aquarellstudie.
- Pastel Drawing (Pastell-Zeichnung): Weiche, kreideartige Farben auf Papier.
- Oil Painting (Ölmalerei): Reichhaltige, strukturierte Gemälde mit Pigmenten auf Ölbasis.
Modern and Experimental Representations (Moderne und Experimentelle Darstellungen)
- Hyperrealistic (Hyperrealistisch): Über die Realität hinausgehende idealisierte hochauflösende Darstellung eines tatsächlich existierenden Objekts.
- Fantasy (Fantasie): Fantasiewelten, Kreaturen und magische Elemente.
- Surreal (Surreal): Traumhaft, mit unerwarteten Kombinationen von Objekten und deren Verzerrungen.
- Contemporary (Zeitgenössisch): Reflektiert aktuelle Zeiten und deren Themen
- Daguerreotype Daguerreotypie: (1830) Frühes fotografisches Verfahren mit einem ausgeprägten Vintage-Look.
- Abstract (Abstrakt): Einfache Formen, Farben und Kompositionen. Objekte auf deren Grundelemente reduziert
  Pixel Art (Pixel Kunst): Pop-Art, mit grellen sich wiederholenden Mustern mit erkennbaren Bildpunkten im Stil von Andy Warhol
- Anime Art (Japanische Animation): Farbenfrohe japanische Darstellung in Animationsfilmen.
- Manga Art (Japanische Comic): Schwarz-Weiße japanische Darstellung in Comics
- Typography Style (Druckkunst): Gut lesbare, optisch ansprechende Darstellung von Schriften und Layouts, soll das Erfassen der Bedeutung erleichtern.
- Graffiti Art (Ästhetische Schreibkunst): Es steht die Darstellung der Schrift im Vordergrund und nicht die Bedeutung oder der Inhalt
- Dripping Painting (Tropfende Malerei): Abstrakte Kunst mit scheinbar noch flüssiger oder tropfender Farbe.

Digital Illustration (Computerbasierte Darstellungen)
- Infographic (Informationsbezogene Darstellung): Klare, sachliche, informative Visualisierungen für Daten und Konzepte
- 2D Illustration (Zwei-Dimensionale Darstellung): Darstellung in der Ebene
- 3D Illustration (Drei-Dimensionale Darstellung): Räumliche Darstellung
- Isometric Drawing (Grund-, Auf- und Kreuzriss): Geometrisch exakte 3D-Darstellung

Photography (Fotografie)
- Cinematic Scene (Filmische Szenerie): Erzeugt eine filmähnliche Qualität, oft mit dramatischer Beleuchtung.
- Portrait (Porträtfotografie): Konzentriert sich auf das Einfangen des Wesens einer Person.
- Documentary (Dokumentarfotografie): Nimmt Ereignisse, Menschen und Orte aus dem wirklichen Leben auf.
- Street Photography (Straßenfotografie): Unverfälschte Aufnahmen des täglichen Lebens in städtischen Umgebungen.
- Landscape (Landschaften): Zeigt natürliche Landschaften und Umgebungen.
- Architectural Photography (Architekturfotografie): Gebäude und städtische Umgebung stehen im Fokus. Spiel mit Licht, Linien, Formen und Himmel
- Fashion (Mode): Hebt Kleidung, Accessoires und Stil hervor.
- Glamour (Glamouröse Fotografie): Betont Eleganz und Verführung.
- Double Exposure (Doppelbelichtungen): Übereinanderliegende Bilder für einen surrealen Effekt oder zur gleichzeitigen Darstellung zeitlich gestaffelter Vorgänge
- Long Exposure (Langzeitbelichtung): Bedeutet, dass ein Bild über mehrere Sekunden hinweg belichtet wird. Erzeugt Bewegungsunschärfe, Lichtspuren und weich fließendes Wasser
- Vintage (Nostalgisch): Greifen den Look vergangener Zeiten auf, verblasste Farben in sepia Tönen mit körniger Textur
- Polaroid Art: (Sofortbild): Ahmt das Aussehen von Polaroid-Sofortbildern nach.

Genre (Klassifikation mit Bezug zum Handlungsaufbau):
- Film Noir (Düsterer Look): Düstere, geheimnisvolle Szenerie, oft mit Verbrechensthematik.
- Horror (Horror): Angst und Entsetzen auslösend
- Western (Western): Ein edler, wohlgesonnener Held stemmt sich gegen eine Überzahl an Bösen in der Landschaft des amerikanischen Westen.
- Fantasy (Fantasy): Magische und übersinnliche Schauplätze.
- Romantic (Romanitk): Zelebriert Liebe und Gefühle.
- Drama (Drama): : Intense and emotional narratives.
- Animation (Animation): Bewegung entsteht durch eine Abfolge von Zeichentrick- oder Computerbildern, oder durch Stop-Motion-Animationen
- Science-Fiction (Science-Fiction): Wissenschaftsnahe spekulative Auseinandersetzung mit möglichen Zukunftsszenarien.
- Thriller (Thriller): Spannend und fesselnd mit Elementen die die Betrachter erschrecken.
- Mystery (Mystery): Fesselnde Rätsel und Geheimnisse, oft mit offenem Ende
- Documentary (Dokumentarisch): Ereignisse und Geschichten aus dem wirklichen Leben.
- Historical (Historisch): Schilderung vergangener Epochen und Ereignisse und deren Bezug zur Gegenwart

Camera Equipment (Kameragehäuse)
- Hasselblad X2D: Modefotografie mit 100 MP Sensor für höchste Bildqualität bei starken Vergrößerungen
- Phase One XF: Fotoapparat für Landschaftsfotografie, bei der man Details heraus-vergrößern kann
- Canon EOS R3: Reportage und Sport wo nicht viel Zeit zum Scharfstellen ist
- DJI Phantom 4: Luftaufnahmen und zur Verfolgung bewegter Objekte
- Nikonos V: Unterwasseraufnahmen und an regengepeitschten oder klimatisch extremen Orten, mit Wechselobjektiven
- GoPro Hero: Selfie-Action-Aufnahmen und Abenteuersport
- Polaroid 635 Supercolor: Sofortbildkamera für nostalgischen Look

Photo-Lenses (Objektive)
- 360-Degree-View Lens (Rundum-Objektiv): Erzeugt kugelförmig verzerrte Bilder mit einem Sichtwinkel im Bereich zwischen 180° und 360°
- Macro Lens (Makro-Objektiv): Eignet sich für extreme Nahaufnahmen im Maßstab jenseits von 1:1
- Fisheye Lens (Fischaugen-Objektiv): Starke tonnenförmige Verzerrung von Linien die nicht durch die Bildmitte laufen. Surreal anmutende Ansichten auch für Bildwinkel jenseits von 130°.
- Wide-Angle Lens (Weitwinkel-Objektiv): Weites Sichtfeld für Landschafts- und Architekturfotos. Rechte Winkel werden als rechte Winkel abgebildet. Große Tiefenschäfte und stellt Objekte im Vordergrund überproportional Groß dar.
- f=50mm (Normalobjektiv): Entspricht am ehesten dem menschlichen Sehen.
- f=85mm Lens (Portrait-Objektiv): Minimale Verzeichnung, natürlich wirkende Gesichtszüge, klare Trennung von Motiv und Bildhintergrund mit unverwechselbarem Bokeh
- Telephoto Lens (Teleobjektiv): Vergrößert weit entfernte Motive und komprimiert die Perspektive. Speziell Wildtier und Sportfotografie

Photography Films (Filme aus der Zeit der Analogfotografie)
- Kodachrome 64: Diafilm mit satten und leuchtenden Farben mit ausgezeichneter Archivierungsstabilität. Entwicklung mit K-14 Prozess.
- Kodak Ektachrome: Tageslicht-Diafilm mit feiner Körnung, satten Farben und exzellenten Hauttönen. Entwicklung mit E-6-Prozess.
- Kodak Portra: Farbnegativfilm mit spektakulären Hauttönen für Portrait und Modeaufnahmen
- Kodak Gold: Farbnegativfilm für Privatanwender, der für seine warmen Farbtöne, den guten Belichtungsspielraum und den günstigen Preis bekannt war.
- Ilford HP5 Plus 400: Hochgeschwindigkeits-Schwarzweißfilm mit feinem Korn und hervorragender Schärfe
- Kodak Tri-X: klassischer Schwarzweißfilm mit einem düsteren Charakter, vielseitigem Kontrast
- Technicolor: Farbfilmverfahren, der 1930er und 1940er Jahre und für seine lebendige und stilisierte Farbpalette in klassischen Hollywoodfilmen bekannt.
- Polaroid SX-70: Produzierte farbige Sofortbilder mit Polaroid-Film, der sich durch sein einzigartiges quadratisches Format und seine weiche, verträumte Ästhetik auszeichnete.
- Kodak Aerochrome: Infrarotfilm, der surreale Landschaften mit leuchtenden Rot- und Rosatönen einfängt und häufig für künstlerische und experimentelle Fotografie verwendet wurde.

Camera Sensor (Kamera-Sensoren)
- APSC Sensor (APSC Sensor) Hat gegenüber einem Vollformat-Sensor einen Cropfaktor von 1,6, um welchen sich die Brennweite des Objektivs scheinbar in Richtung Telewirkung verlängert. Preiswerter, da weniger Sensorfläche
- Full-Frame Sensor (Vollformat-Sensor): Sensorfläche wie Kleinbildfilm mit 36 x 24 mm.
- Aspect Ratio (Seitenverhältnis): Monitore weisen ein Seitenverhältnis von 16:9 oder 4:3 auf.
- Pixel Count (Pixelzahl): SD, Full-HD, 4k, 6k, 8k definiert Anzahl der Pixel je Zeile, Anzahl der Pixel in der Höhe errechnet sich aus dem Seitenverhältnis.

Shutter-Speed (Belichtungszeit)
- Fast Shutter Speed (kurze Belichtungszeit): <1/500 sec; Ideal für Action Fotografie, friert den Moment ein
- Moderate Shutter Speed (mittlere Belichtungszeit): 1/100 sec: Ideal für Alltagsszenen, friert Bewegungen ein
- Slow Shutter Speed (lange Belichtungszeit): > 1/10 sec: Hervorragend geeignet, um ein Gefühl der Bewegung zu erzeugen, wie bei Bildern mit fließendem Wasser oder Lichtspuren.

Aperture (Blende)
- Wide Aperture (Große Blendenöffnung): Niedrige Blendenzahl, etwa f/1,4 erzeugt eine geringe Schärfentiefe und lässt den Hintergrund verschwimmen (ideal für Porträts).:
- Narrow Aperture (Kleine Blendenöffnung): Hohe Blendenzahl, etwa f/16 erhöht die Schärfentiefe, sodass ein größerer Teil des Motivs im Fokus bleibt (Landschaftsfotografie).

ISO value (Lichtempfindlichkeit):
- ISO 25: Am besten geeignet für helles Sonnenlicht, mit hervorragender Schärfe und Detailgenauigkeit.
- ISO 100: Ideal für Aufnahmen bei ausreichend Tageslicht.
- ISO 400: Kompromiss bei Belichtungszeit und Rauschen, nützlich in der Dämmerung
- ISO 6400: Ermöglicht kurze Belichtungszeiten in der Dunkelheit für Fotos ohne Stativ, erkauft wird das aber mit sichtbarem Bildrauschen.

Lighting conditions (Lichtsituationen):
- Natural Daylight (Natürliches Tageslicht): Licht kommt von der Sonne
- Sunny (Sonnig): Helles Sonnenlicht bei klarem Himmel.
- Overcast (Bewölkt): Diffuses Licht aufgrund von Bewölkung
- Rainy (Regnerisch): Durch Regen gedämpftes Licht
- Foggy (Neblig): Geringe Fernsicht zufolge von Nebel
- Snowing (Schneefall): Schnee- und Eiskristalle machen das Licht diffus
- Sunlight (Sonnenlicht): grelles weißliches Licht von der Sonne
- Moonlight (Mondlicht): weiches, silbriges Licht vom Mond
- Firelight (Feuerlicht): Rötlich, warmes Licht durch ein Feuer
- Candlelight (Kerzenlicht): Gemütliches, flackerndes Licht von Kerzen
- Neon Light (Neonlicht): Grünliches Licht von Neonleuchten
- Low Light (Schwaches Licht): Gedämpftes Licht
- Low Key / High Key Lighting (Low / High Key Aufnahme): Dramatisch dunkle oder überstrahlend helle Lichtsituation
- Spot Lighting (Spot Beleuchtung: Auf einen bestimmten Bereich fokussierte Beleuchtung
- Softbox Lighting (Softbox Beleuchtung): Weiches, warmes, gleichmäßig flächiges Licht
- Light Through a Window (Lichteinfall durchs Fenster): Natürliches Licht, das durch Fenster einfällt.

Colors (Farben):
- Colorized (Koloriert): Hinzufügen von Farbe zu einem Schwarz-Weiß- oder Graustufenbild.
- Vivid (Lebendige Farben): Intensiv helle und gesättigte Farben.
- Bright / Dark Colors (Helle / Dunkle Farben): Helle Farben sind leuchtend und hell, während dunkle Farben tief und gedämpft sind.
- Black and White (Schwarz-Weiß): Eine Graustufendarstellung ohne Farbe.
- Warm / Cold Colors (Warme / Kalte Farben): Warme Farben (Rot, Orange, Gelb) vermitteln Wärme, während kalte Farben (Blau, Grün, Lila) kühler wirken.
- Monochromatic (Einfärbig): Farbschema mit Variationen eines einzigen Farbtons.
- Polychromatic (Vielfärbig): Enthält mehrere unterschiedliche Farben.
- Faded Colors (Verblasste Farben): Gedämpfte oder verwaschene Farbtöne.
- Colorful (bunt): Reich an verschiedenen leuchtenden Farben.
- Inverted Colors (Invertierte Farben): Umkehrung der Farbwerte (z. B. weiß wird schwarz, blau wird gelb).
- Rainbow Colors (Farben des Regenbogens): Spektrum der Farben eines Regenbogens.
- Desaturated Colors (Ungesättigte Farben): Reduzierte Farbintensität.
- Tan (Bräune): Hellbrauner Farbton
- Aqua (Wasserfarben): Blau-grüner Farbton
- Azure (Azurblau): Hellblauer Farbton

Lighting conditions depending on the time of day (Tageszeitabhängige Lichtsituationen):
- Night (Nacht): Dunkle Zeit, wenn die Sonne unter dem Horizont steht
- Sunrise (Sonnenaufgang): Der Moment, in dem die Sonne am Morgen zum ersten Mal über dem Horizont erscheint.
- Morning (Morgen): Nach dem Sonnenaufgang, durch zunehmendes Licht gekennzeichnet
- Golden Hour (Goldene Stunde): Magische Zeit kurz nach Sonnenaufgang oder kurz vor Sonnenuntergang, wenn das Licht warm und weich ist.
- Blue Hour (Blaue Stunde): Kurze Zeit vor Sonnenaufgang oder nach Sonnenuntergang, wenn der Himmel einen schönen blauen Farbton annimmt.
- Sunset (Sonnenuntergang): Der Moment, in dem die Sonne am Abend hinter dem Horizont verschwindet.
- Twilight (Dämmerung): Übergangsphase zwischen Tag und Nacht, die vor dem Sonnenaufgang und nach dem Sonnenuntergang stattfindet.

Image Section (Bildausschnitt):
- Extreme Wide Shot (Weitwinkel): Ein weit gefasster Bildausschnitt eignet sich für Landschaften oder Architekturaufnahmen, bei denen das Hauptmotiv in einem großen Kontext gezeigt wird.
- Establishing Shot (Totale): Eine totale Aufnahme zeigt das eigentliche Motiv und dessen Umgebung.
- Full Shot (Halbtotale): Bei einer halbtotalen Aufnahme wird das Motiv in einem mittleren Ausschnitt gezeigt. Es wird ein Teil der Umgebung sichtbar, aber der Blick wird auf das Motiv gelenkt.
- American Cut (Amerikanische Einstellung): Bildausschnitt, wie er in Western für Cowboys beim Duell üblich ist. Die Person ist vom Kopf bis einschließlich der Oberschenkel sichtbar. Beliebt für Personenfotos auf Instagram.
- Medium Cut (Halbnah): Eine halbnahe Aufnahme zeigt das Motiv von etwa der Taille oder dem Hüftbereich aufwärts, es werden aber immer noch Teile der Umgebung sichtbar. Sie entspricht der Wahrnehmung eines einem gegenüber stehenden Gesprächspartners. Diese Einstellung ist auf Sozial-Media sehr beliebt. Der "Influencer" ist halbnah zu sehen, der einzigartige, beeindruckende, fotogene "Instagrammable Place" ist im Hintergrund erkennbar.
- Sholder Close Up (Nahaufname): Die Naheinstellung zeigt das Motiv in einem sehr engen Bildausschnitt. Menschen werden vom Kopf bis unterhalb der Brust dargestellt, so als würden sie von einem Bildhauer als Büste modelliert werden.
- Close Up (Großaufnahme): Eine Person ist vom Kopf bis zu den Schultern sichtbar, bzw. werden nur einzelne Körperteile, wie etwa die Hände sichtbar. Großaufnahmen eignen sich natürlich auch sehr gut für Gegenstände.
- Extreme Close Up (Detailaufnahme): Ein Detailausschnitt zeigt einen sehr engen Blick auf ein bestimmtes Detail oder einen kleinen Teil des Motivs, etwa die Armbanduhr eines Darstellers oder ein kleines Motiv auf einer bemalten Blumenvase.
- Italian Shot (Italienische Einstellung): Eine aus dem Film "Spiel mir das Lied vom Tod" bekannte Detailaufnahme, bei der ausschließlich die Augenpartie der Darsteller zu sehen ist. Die englische Bezeichnung lautet "Italian Shot".
- Bird’s View Shot (Vogelperspektive). Zeigt die Szene von oben, wie von einem fliegenden Vogel aus gesehen.
- Low Angle Shot (Niedriger Aufnahmewinkel): Sicht von unten nach oben, vermittelt das Gefühl von Macht und Dominanz.

Moods (Stimmungen):
- Dark (Dunkel): Erweckt ein Gefühl von Geheimnis und Schatten.
- Bright (Hell): Strahlt Licht und Klarheit aus.
- Vibrant (Lebhaft): Strotzt vor intensiven Farben und Energie.
- Mystical (Mystisch): Rätselhaft, mit einem Touch vom Jenseits
- Romantic (Romantisch): Voller Emotionen, oft verbunden mit Liebe und Sehnsucht.
- Minimalistic (Minimalistisch): Auf die wesentlichen Elemente reduziert.
- Futuristic (Futuristisch): Zukunftsorientiert, mit einem Sinn für Innovation und Technologie.
- Meditative (Meditativ): Ruhig, beschaulich und besinnlich
- Seaside Ambient (Meeresambiente): Wellengeräuschen und salzige Luft.
- Underwater (Unterwasser): Unter Wasser, mit fließenden Bewegungen und gefiltertem Licht.
- Extraterrestrial (Außerirdisch): Fremd, jenseits unserer irdischen Welt.:
- Space (Kosmisch): Symbolisiert die unermesslichen kosmischen Weiten, übersät mit Sternen, Planeten und Galaxien.
- Desert (Wüstenhaft): Karge Landschaft mit Sand, Felsen und extremen Temperaturen.
- Forest (Wald): Ein üppiger, grüner Lebensraum, in dem es von Bäumen, wilden Tieren und Ruhe nur so wimmelt.

Surface characteristics and Reflections (Oberflächeneigenschaften und Spiegelungen)
- Glossy, Shiny, Glare (Glänzend): Glatt und spiegelnd, mit hohem Glanz.
- Matte (Matt): Nicht reflektierend, mit einer stumpfen Oberfläche.
- Shimmering (Schimmernd): Funkelnd, wie Sonnenlicht auf Wasser.
- Reflective (Reflektierend): In der Lage, Licht oder Bilder zurückzustrahlen.
- Mirrored (Spieglend): Exakt reflektierend wie ein Spiegel.
- Satin (Satin): Weich und glänzend, mit einem subtilen Schimmer.
- Transparent (Transparent): Lässt das Licht klar und ohne Verzerrung hindurch.
- Translucent (Streuend): Lässt Licht durch, aber macht es streuend und diffus.
- Opaque (Undurchsichtig): Das Licht wird vollständig blockiert, so dass darunter liegende Objekte nicht sichtbar sind.
- Polarized (Polarisierend): Filtert Lichtwellen, um Blendung zu reduzieren und die Klarheit zu verbessern. Z.B.: weiße Wolken auf strahlend blauem Himmel
- Luminescent (Lumineszierend): Emittiert selbstständig Licht, wie bei Materialien, die im Dunkeln leuchten.

Emotions (Emotionen):
- Fear (Angst): Eine Reaktion auf eine wahrgenommene Gefahr oder Bedrohung.
- Joy (Freude): Ein intensives Gefühl von Glück.
- Love (Liebe): Tiefe Zuneigung und Fürsorge für jemanden oder etwas.
- Hope (Hoffnung): Optimistische Erwartung eines positiven Ergebnisses.
- Anger (Wut): Starke Verärgerung oder Frustration.
- Sadness (Traurigkeit): Gefühl der Trauer oder des Kummers.
- Disgust (Abscheu): Abneigung gegen etwas Unangenehmes.
- Excitement (Aufregung): Vorfreude oder Begeisterung.
- Gratitude (Dankbarkeit): Aberkennung fremder Leistungen und deren Wertschätzung
- Guilt (Schuldgefühl): Emotionaler Kummer aufgrund von Fehlverhalten oder Bedauern.
- Envy (Neid): erlangen nach dem, was andere haben.
- Anticipation (Vorwegnahme): Gedankliche Erwartungshaltung, Vorgriff auf ein zukünftiges Ereignis

Archetypes (Urbilder):
- Hero (Held): Mutige Figur, die sich Herausforderungen stellt und über Widrigkeiten triumphiert.
- Superstar (Superstar): Eine ikonische und gefeierte Person
- Princess (Prinzessin): Eine königliche und anmutige Figur, oft mit Märchen in Verbindung gebracht
- Rebel (Rebell): Ein Nonkonformist, der Autoritäten oder gesellschaftliche Normen herausfordert.
- Detective (Detektiv): Eifriger Ermittler, der Rätsel löst und die Wahrheit herausfindet.
- Explorer (Entdecker): Neugieriger Abenteurer, der nach neuen Horizonten und Entdeckungen sucht.
- Lover (LiebhaberIn): Eine leidenschaftliche und romantische Seele, die in Herzensangelegenheiten verwickelt ist.
- Outlaw (Gesetzloser): Ein Abtrünniger, der außerhalb des Gesetzes oder der gesellschaftlichen Konventionen agiert.
- Magician (Magier): Eine mystische und rätselhafte Figur mit übernatürlichen Fähigkeiten.
- Everyman (Jedermann): Eine gewöhnliche Person, die die allgemeine menschliche Erfahrung repräsentiert.

Age group (Altersgruppe):
- Baby (Baby): Säuglinge.
- Infant (Kleinkind) Sehr junge Kinder
- Child (Kind): Eine junge Person vor Erreichen der Pubertät.
- Teenager (Teenager): Eine Person zwischen Kindheit und Erwachsensein, typischerweise im Alter von 13 bis 19 Jahren.
- Adolsescent (Heranwachsender): Eine Person, die sich im Übergangsstadium zwischen Kindheit und Erwachsensein befindet.
- Girl (Mädchen): Ein weibliches Kind oder eine junge Frau.
- Miss (Fräulein): Eine unverheiratete Frau
- Woman (Frau): Erwachsene weibliche Person
- Lady (Frau): Höfliche Anrede für eine elegante und beeindruckende Frau
- Boy (Junge): Ein männliches Kind oder ein junger Mann.
- Man (Mann): Erwachsene männliche Person
- Grandma (Großmutter): Eine liebevolle und erfahrene Großmutter.
- Grandpa (Großvater): Ein weiser und fürsorglicher Großvater.
- Senior (Senior) : Eine ältere Person, die oft mit dem Rentenalter in Verbindung gebracht wird.
- Elder Person (Ältere Person): Ein respektvoller Begriff für eine ältere Person, der ihre Weisheit und Erfahrung hervorhebt.

Atributes of human body (Eigenschaften des menschlichen Körpers):
- Striking Eyes (Auffällige Augen): Augen, die aufgrund ihrer Intensität oder ihrer einzigartigen Merkmale die Aufmerksamkeit auf sich ziehen.
- Silky Hair (Seidiges Haar): Glattes und glänzendes Haar mit einer weichen Textur.
- Well-Styled Hair (Gut gestyltes Haar): Sorgfältig gepflegtes und arrangiertes Haar für ein gepflegtes Aussehen.
- Elegant Posture (Elegante Körperhaltung): Anmutige und ausgeglichene Körperhaltung.
- Natural Beauty (Natürliche Schönheit): Unverfälschte, echte Attraktivität.
- Inner Glow (Inneres Strahlen): Eine strahlende Qualität, die von innen kommt und Positivität und Selbstvertrauen widerspiegelt.
- Hourglass-Shaped Body (Sanduhrförmiger Körper): Eine weibliche Figur mit ausgeprägten Proportionen, die eine schmale Taille hervorheben.
- Athletic Physique (Athletischer Körperbau): Ein fitter und durchtrainierter Körper, der durch körperliche Aktivität entsteht.
- Charming Smile (Charmantes Lächeln): Ein warmes und fesselndes Lächeln, das das Gesicht erhellt.
- Strong Jawline (Kräftige Kieferpartie): Gut ausgeprägte Konturen entlang des Kiefers, die oft mit Selbstvertrauen verbunden sind.

Characteristics of clothing (Merkmale der Kleidung):
- Stylish (Stilvoll): Ein modisches und gut abgestimmtes Erscheinungsbild.
- Elegant (Elegant): Anmutig, raffiniert und anspruchsvoll.
- Trendy (Trendig): Im Einklang mit den aktuellen Modetrends.
- Versatile (Vielseitig): Anpassungsfähig und für verschiedene Anlässe geeignet.
- Bohemian (Unkonventionell): Ungezwungen, freudig und unkonventionell. Inspiriert aus den 1960 Jahren.
- Flattering (Schmeichelhaft): Verstärkt das Erscheinungsbild und ergänzt die Gesichtszüge.
- Tailored (Maßgeschneidert): Individuell an den Körper angepasst und sorgfältig gefertigt.
- Transparent (Transparent): Durchscheinende Kleidung
- Cut out (Löchrig): Kleidung in der sich absichtlich Löcher befinden

Famous Role Model (Berühmte Vorbilder):

Hier beginnt es rechtlich bedenklich zu werden, denn wenn die KI die nachfolgenden Personen und deren charakterisitische Eigenheiten tatsächlich kennt, um sie nachmachen zu können, stellt sich schnell die Frage, ob dieses Wissen aus urheberrechtlich unbedenklichen Quellen stammt und ob die Resultate rechtssicher verwendet werden dürfen.

- Painter (Maler): abhängig von persönlichen Vorlieben
- Graphic Designer (Grafiker): abhängig von persönlichen Vorlieben
- Photographer (Fotograf): abhängig von persönlichen Vorlieben
- Director (Regisseure): abhängig von persönlichen Vorlieben
- Set Designer (Bühnenbildausstatter): abhängig von persönlichen Vorlieben
- Film star (Filmstar): abhängig von persönlichen Vorlieben
- Superheroes (Superhelden): abhängig von persönlichen Vorlieben
- Cartoon Character (Zeichentrickfigur): abhängig von persönlichen Vorlieben

Test auf Praxistauglichkeit: Tech-Demo vom 28.03.2024

Erzeuge ein Foto wie folgt:

A 22-year-old mathematics student with long blonde hair, cut-out jeans, and a white T-shirt, elegantly posed, fights a math monster in the lecture hall with a ruler in hand. The monster is made up of mathematical terms and formulas. It takes the form of a dragon and attacks the student with its fiery eyes, bared teeth, and clawed claws. The mood is threatening and chaotic, but the student is determined to win the battle. Hyper-realistic cinematic 4k scenery, daylight, vibrant colors, medium shot, wide-angle shot.

Hier das Resultat von Copilot unterstütze von DALL·E