Wirtschaftsmathematik, MINT Lernen mit CAS und KI

Endkapital mit Zinseszins

Zinseszinsrechnung

Bei der Zinseszinsrechnung werden die Zinsen am Ende der Zinsperiode dem Kapital einmalig zugeschlagen, sodass sie in der darauffolgenden Zinsperiode mit verzinst werden. Der Aufzinsungsfaktor q gibt an, um welchen Faktor ein Kapital innerhalb einer Zinsperiode bei einem Zins von p anwächst.

K₀	Anfangskapital in €
K_n	Endkapital in €
n	Laufzeit in Jahren
p	Zinssatz in %
i	Jährliche Zinssatz, dimensionslose Dezimalzahl
q=1+i	Aufzinsungsfaktor, dimensionslos

Aufzinsungsfaktor

$q = 1 + i$

mit $i = \dfrac{p}{{100\% }}{\rm{ und }}\left[ i \right] = \left[ q \right] = 1$

Bei einer n-jährigen Veranlagung mit Zinseszins beträgt der Aufzinsungsfaktor qⁿ.

Beispiel:
${\text{p = 5% }} \to {\text{i = 0}}{\text{,05}} \to {\text{q = 1}}{\text{,05}}$

Endkapital K_n gesucht

→ Die Aufzinsung gemäß der leibnizschen Zinseszinsformel dient zur Beantwortung der Fragestellung, welches Endkapital K_nman erhalten wird, wenn man das Anfangskapital K₀ bei einem Zins von p% für n Jahren anlegt.

${K_n} = {K_0} \cdot {\left( {1 + \dfrac{p}{{100}}} \right)^n} = {K_0} \cdot {q^n}$

Beispiel:

K₀=12.500€ … Anfangskapital

P=2,75% … Zins in %

n=1 Jahr und 9 Monate bzw. 21/12 … Laufzeit in Jahren

$\eqalign{ & {K_n} = {K_0} \cdot {\left( {1 + \frac{p}{{100}}} \right)^n} \cr & {K_{\frac{{21}}{{12}}}} = 12500 \cdot {\left( {1 + \frac{{2,75}}{{100}}} \right)^{\frac{{21}}{{12}}}} \approx 13107,75 \cr} $

Anfangskapital K₀ gesucht

→ Die Diskontierung gemäß der leibnizschen Zinseszinsformel dient zur Beantwortung der Fragestellung welches Kapital K₀ man anlegen muss, um bei einem Zinssatz von p% nach n Jahren über das Endkapital von K_n zu verfügen.

${K_0} = \dfrac{{{K_n}}}{{{q^n}}} = \dfrac{{{K_n}}}{{{{\left( {1 + \dfrac{p}{{100}}} \right)}^n}}}$

Beispiel:

K_n=742€ .. Endkapital

p=3% ... Zins in %

n=5 Jahre ... Laufzeit

$\eqalign{ & {K_0} = \frac{{{K_n}}}{{{q^n}}} \cr & p = 3\% \to i = 0,03 \to q = 1,03 \cr & {K_0} = \frac{{742}}{{{{1,03}^5}}} \approx 640,05 \cr} $

Laufzeit n gesucht

→ Dient zur Beantwortung der Fragestellung für wie viele Jahre n man ein Anfangskapital K₀ bei einem Zins von p% veranlagen muss, damit man das Endkapital K_nerhält.

$n = \dfrac{{\log \dfrac{{{K_n}}}{{{K_0}}}}}{{\log q}} = \dfrac{{\log \dfrac{{{K_n}}}{{{K_0}}}}}{{\log \left( {1 + \dfrac{p}{{100}}} \right)}}$

Zins p in % gesucht

→ Dient zur Beantwortung der Fragestellung, welcher Zins erwirtschaftet werden muss, damit nach n Jahren aus dem Anfangskapital K₀ das Endkapital K_n wird.

$p = \left( {\root n \of {\dfrac{{{K_n}}}{{{K_0}}}} - 1} \right) \cdot 100$

Unterjährige Raten

Für unterjährige Raten gilt
$\eqalign{ & {i_p} = {\left( {1 + {i_m}} \right)^{\frac{m}{p}}} - 1 \cr & {i_m} = \root {\frac{m}{p}} \of {{i_p} + 1} - 1 \cr & \cr & r = 1 + i = {(1 + {i_m})^m} \cr & {r_p} = \root p \of r = \root p \of {{{\left( {1 + {i_m}} \right)}^m}} = {\left( {1 + {i_m}} \right)^{\frac{m}{p}}} \cr & \cr & {B_{{\text{nachsch }}}} = R \cdot \frac{{1 - {r_p}^{ - n}}}{{{i_p}}} \cr & {B_{{\text{vorsch = }}}}R \cdot \frac{{1 - {r_p}^{ - n}}}{{{i_p}}} \cdot {r_p} \cr & \cr & {E_{{\text{nachsch }}}} = R \cdot \frac{{{r_p}^n - 1}}{{{i_p}}} \cr & {E_{{\text{vorsch }}}} = R \cdot \frac{{{r_p}^n - 1}}{{{i_p}}} \cdot {r_p} \cr} $

mit

i_m	unterjähriger Zinssatz
m	Anzahl der unterjährigen Verzinsungsperioden; Semester → m=2; Quartal → m=4
i_p	äquivalenter auf die Rentenperiode bezogener Zinssatz
p	Anzahl der Raten pro Jahr
R	Rate

Unterjährige Verzinsung

Bei der unterjährigen Verzinsung ist die Anlagedauer ein ganzzahliges Vielfaches einer Verzinsungsperiode. Die Zinsen werden dabei mehrmals pro Jahr dem Kapital zugeschlagen, z.B. Verzinsungsperiode = vierteljährig → Zinsen werden an jedem Quartalsende dem Kapital zugeschlagen

${K_n} = {K_0} \cdot {\left( {1 + \dfrac{{{p_m}}}{{100}}} \right)^{m \cdot n}}$

${p_m} = \dfrac{p}{m}$

p_m	unterjähriger Zinssatz
m	Anzahl der Zinsperioden pro Jahr
n	Anzahl der Veranlagungsjahre

Beispiel:
$\eqalign{ & n = 1{\text{ }}...{\text{ Laufzeit ist 1 Jahr}} \cr & {{\text{K}}_0} = 100 \cr & {p_{nom}} = 12\% {\text{ }}...{\text{ nomineller Jahreszinssatz}} \cr & m = 4{\text{ }}...{\text{ Quartalsweise Verzinsung}} \cr & \to {\text{ }}{{\text{p}}_m} = \dfrac{{12\% }}{4} = 3\% \cr & {K_n} = {K_0} \cdot {\left( {1 + \dfrac{{{p_m}}}{{100}}} \right)^{m \cdot n}} \cr & {K_n} = 100 \cdot {\left( {1 + \dfrac{3}{{100}}} \right)^{4 \cdot 1}} = 112,55 \cr} $

Da bei der unterjährigen Verzinsung die Zinsen nach jedem Quartal dem Kapital zugeschlagen und fortan ebenfalls verzinst werden, rechnen wir nun noch aus wie hoch der Effektivzinssatz ist. Wir nützen dabei die weiter oben stehende Formel "Zins in % gesucht"
$\eqalign{ & {p_{eff}} = \left( {\root n \of {\dfrac{{{K_n}}}{{{K_0}}}} - 1} \right) \cdot 100 \cr & {p_{eff}} = \left( {\root 1 \of {\dfrac{{112.55}}{{100}}} - 1} \right)*100 = 12,55\% \cr} $

→ Durch die unterjährige Verzinsung ist der Effektivzinssatz mit 12,55% tatsächlich höher als der nominelle Jahreszinssatz von 12%

Gemischte Verzinsung

Bei der gemischten Verzinsung ist die Anlagedauer kein ganzzahliges Vielfaches einer Verzinsungsperiode

${K_n} = {K_0} \cdot {\left( {1 + \dfrac{{{p_m}}}{{100}}} \right)^{{n_v}}} \cdot \left( {1 + \dfrac{{{p_m}}}{{100}} \cdot {n_r}} \right)$

${n_r} = \dfrac{{{\text{Anzahl der Monate der angebrochenen Verzinsungsperiode}}}}{{{\text{Anzahl der Monate einer vollern Verzinsungsperiode}}}}$

n_v	Anzahl der vollen Verzinsungsperioden, wird mit Zinseszins berechnet
n_r	restliche Zeit als Teil der lediglich angebrochenen Verzinsungsperiode, wird mit einfachem Zins berechnet

Stetige oder kontinuierliche Verzinsung

Bei der stetigen oder kontinuierlichen Verzinsung konvergiert die Dauer einer Verzinsungsperiode mit anschließender Wiederveranlagung gegen Null, während die Anzahl der Zinsperioden gegen Unendlich geht. Der Zinsertrag steigt mit der Anzahl der Zinsgutschriften pro Jahr. Der zusätzliche Zinsertrag bei sukzessiver Steigerung der jährlichen Zinsperioden nimmt jedoch immer weiter ab und nähert sich einem Grenzwert, der mit Hilfe nachfolgender Exponentialfunktion berechnet wird.

${K_n} = {K_0} \cdot {e^{\left( {\dfrac{p}{{100}} \cdot n} \right)}}$

Beispiel:
Wir nehmen die selben Daten wie im Beispiel oben für die quartalsweise Verzinsung
$ \eqalign{ & n = 1{\text{ }}...{\text{ Laufzeit ist 1 Jahr}} \cr & {{\text{K}}_0} = 100 \cr & {p_{nom}} = 12\% {\text{ }}...{\text{ nomineller Jahreszinssatz}} \cr & {\text{kontinuierliche Verzinsung}} \cr & {K_n} = {K_0} \cdot {e^{\left( {\dfrac{p}{{100}} \cdot n} \right)}} \cr & {K_n} = 100 \cdot{e^{\left( {\dfrac{{12}}{{100}}} \right)}} = 112,75 \cr & {p_{eff}} = \left( {\root 1 \of {\dfrac{{112,75}}{{100}}} - 1} \right) \cdot 100 = 12,75\% \cr} $
→ Wir sehen, dass sich durch den Übergang von quartalsweiser auf kontinuierliche Verzinsung der Effektivzinssatz nur geringfügig von 12,55% auf 12,75% erhöht hat.

Endfälliges-, Tilgungs- versus Annuitätendarlehen

Wenn man ein Darlehen aufnimmt, muss dieses während der Darlehenslaufzeit getilgt, also zurückbezahlt, werden, andernfalls handelt es sich um ein endfälliges Darlehen.

Für endfällige Darlehen gibt es üblicherweise einen Ansparplan, mit dem Ziel am Ende der Darlehenslaufzeit soviel angespart zu haben, damit man das Darlehen auf einmal zurückzahlen kann. Der Ansparplan besteht meist aus Aktien und Anleihen. Man geht dabei das Risiko ein, dass sich der Aktienmarkt nicht so entwickelt wie erwartet und man am Laufzeitende zu wenig angespart hat um die gesamte Schuld zurückzahlen zu können.
Bei Darlehen, die während der Laufzeit zurückgezahlt werden, unterscheidet man zwischen Tilgungs- und Annuitätendarlehen.
- Beim Tilgungsdarlehen bleibt die Tilgungsrate über die Laufzeit gleich, man zahlt also monatlich einen konstanten Betrag von der Schuld zurück. Da die Zinsen von der Restschuld berechnet werden, sinken die Zinszahlung während der Laufzeit kontinuierlich. Die Annuität, bzw. die Kreditrate, als Summe aus Zins- und Tilgungsanteil, ist am Anfang der Laufzeit am höchsten und nimmt während der Laufzeit ab.
- Beim Annuitätendarlehen bleibt die Annuität bzw. die Kreditrate über die Laufzeit unverändert gleich. Von der monatlich konstanten Ratenzahlung dominiert Anfangs der Zinsanteil, gegen Ende der Tilgungsanteil.

Annuität

Die Annuität ist ein über die Laufzeit gleichbleibender regelmäßiger Betrag, der (etwa monatlich) zur Tilgung eines Darlehens zurückbezahlt wird. Die Annuität setzt sich zusammen aus einem Anteil zur Kapitaltilgung T (Abbau der Schuld) und einer Zinszahlung P, die für die Rückzahlung der Zinsen anfällt.

Am Anfang der Laufzeit (hoher Schuldenstand) zahlt man vorwiegend für die Zinsen und zahlt kaum das Kapital selbst zurück, während man am Ende der Laufzeit (geringer Schuldenstand) vorwiegend das Kapital tilgt und kaum mehr Zinsen bezahlt. Die Höhe der regelmäßig zu bezahlenden Annuität wird so berechnet, dass sie betragsmäßig konstant bleibt, obgleich der Anteil an der Tilgung im Laufe der Zeit zunimmt und die Zinszahlung im Laufe der Zeit abnimmt.

$A = \dfrac{{{K_n} \cdot {q^n}}}{{\dfrac{{{q^n} - 1}}{{q - 1}}}}$

A	Annuität, bleibt über die Laufzeit konstant
K_n	Endkapital nach n Jahren
i	Jährlicher Zinssatz (Dezimalzahl)
q=1+i	Aufzinsungsfaktor

Tilgungsplan

Der Tilgungsplan ist eine tabellarische (z.B. monatliche) Aufstellung über die Kreditlaufzeit, aus der man die Zinszahlung P, die Kapitaltilgung T, die Annuität A und die Restschuld K_n übersichtlich ablesen kann.

K₀	Höhe des Kredits
i	Jährlicher Zinssatz (Dezimalzahl)
T_i	Tilgungsanteil

Der Tilgungsplan sieht dann wie folgt aus

Zeit	Zinszahlung Zinsanteil P	Kapitaltilgung Tilgungsanteil T	Annuität, Kreditrate A=P+T	Restschuld K_n _{${K_n} = {K_{n + 1}} + {T_{n + 1}}$}
0				K₀
1	$P={K_0} \cdot i$	T₁	${A_1} = {K_0} \cdot i + {T_1}$	${K_1} = {K_0} - {T_1}$
...	...	...	...	...

Beispiel:
Veranschaulichung der dramatischen Wirkung vom Zinseszins (Die Idee vom Josephspfennig):

Hätte Joseph zur Zeit von Jesus Geburt 1€ mit 3% Zinsen bei seiner Hausbank veranlagt und nie etwas abgehoben, so hätten seine Nachkommen im Jahr 2019 ein Guthaben von: $1\mbox{€} \cdot {\left( {1 + \dfrac{3}{{100}}} \right)^{2019}} = 82\,\,862\,\,241\,\,987\,\,585\,\,880\,\,104\,\,141\,\,897\mbox{€} = 8,3 \cdot {10^{25}}\mbox{€}$
- Bei 8,3 Milliarden Menschen hätte im Jahr 2019 jeder Mensch ein Guthaben von $\dfrac{{8,3 \cdot {{10}^{25}}}}{{8,3 \cdot {{10}^9}}} = 1 \cdot {10^{16}}\mbox{€} \overset{\wedge}\to{=} 10{\text{ Billiarden }}\mbox{€}$.
Hätte er länger gespart und das doppelte Anfangskapital veranlagt, so hätte er heute ein Guthaben von: $2\mbox{€} \cdot {\left( {1 + \dfrac{3}{{100}}} \right)^{2019}} = 165\,\,724\,\,483\,\,975\,\,171\,\,760\,\,208\,\,283\,\,795\mbox{€} = 1,7 \cdot {10^{26}}\mbox{€}$
- D.h. doppelt so langes sparen, ehe man das Ersparte veranlagt, bringt langfristig nichts.
Hätte Josef statt 3% sogar 4%, also um 1% mehr an Zinsen heraus verhandelt, so hätte er heute ein Guthaben von: $1\mbox{€} {\left( {1 + \dfrac{4}{{100}}} \right)^{2019}} = 24\,\,564\,\,732\,\,784\,\,631\,\,725\,\,180\,\,258\,\,122\,\,392\,\,563\,\,155\mbox{€} = 2,5 \cdot {10^{34}}\mbox{€}$
- D.h. etwas höhere Zinsen wirken sich langfristig dramatisch aus. (10³⁴>> 10²⁶)
- Der Plantet Erde würde in purem Gold (1 kg Gold = 41.000€; Gewicht der Erde = ${\rm{6}} \cdot {\rm{1}}{{\rm{0}}^{24}}kg$) somit $\left( {{\rm{6}} \cdot {\rm{1}}{{\rm{0}}^{24}}} \right) \cdot \left( {4,1 \cdot {{10}^4}} \right) \approx 2,5 \cdot {10^{29}}\mbox{€}$kosten.
- D.h. die Bank müsste im Jahr 2019: $\dfrac{{2,5 \cdot {{10}^{34}}}}{{2,5 \cdot {{10}^{29}}}} = 1 \cdot {10^5}$also 10.000 Planeten Erde aus purem Gold auszahlen... Wer soll das wegtragen und wie soll man das je ausgeben?

Zinseszinsrechnung

Aufzinsungsfaktor

Diskontierung nach leibnizscher Zinsesformel

Laufzeit nach leibnizscher Zinsformel

Zinssatz nach Leibnizscher Zinsformel

Unterjährige Verzinsung

Kosten- und Preistheorie

In der Kosten- und Preistheorie versucht man Kosten, Preise sowie Erlöse und Gewinne durch einfache mathematische Funktionen zu modellieren. Es handelt sich dabei um ein Teilgebiet der Mikroökonomie, welches die Preisbildung als Folge des Aufeinandertreffens von Angebot und Nachfrage auf verschiedenen Märkten untersucht.

Die wichtigsten Funktionen sind die

$K\left( x \right) = {K_{fix}} + {K_{{\mathop{\rm var}} }}\left( x \right)$	Kostenfunktion, beschreibt die gesamten Kosten als Summe der Fixkosten und der variablen Kosten in Abhängigkeit von der Produktionsmenge
$P\left( x \right) = \dfrac{{E\left( x \right)}}{x}$	Preisfunktion, beschreibt den erzielbaren Preis pro Stück
$E\left( x \right) = P\left( x \right) \cdot x$	Erlösfunktion, beschreibt den Erlös pro Stück
$G\left( x \right) = E\left( x \right) - K\left( x \right)$	Gewinnfunktion, beschreibt den Gewinn als Differenz von Erlös und Gesamtkosten

Endkapital ohne Zinseszins

Einfache Verzinsung

Bei der einfachen Verzinsung werden die Zinsen einmalig für die gesamte Laufzeit vom Anfangskapital K₀ berechnet. Es wird daher nur das Angangskapital verzinst, die Zinsen selbst werden nicht verzinst.Bei "einfacher Veranlagung" werden die jährlichen Zinsen im darauffolgenden Jahr nicht wieder mitverzinst, sondern zuvor ausbezahlt. Der jährliche (einfache) Zins Z (in €, $,..) ohne Zinseszins, ist proportional dem Anfangskapital K₀, sowie dem Zinssatz p in %, sowie der Laufzeit n in Jahren.

Z	Zins in €
Z_d	Zins auf täglich fälliges Kapital
K₀	Anfangskapital in €
p	Zinssatz in %/Jahr, es ist aber üblich das "pro Jahr" wegzulassen
n	Laufzeit in Jahren

Zins ohne Zinseszins

Der Zins ohne Zinseszins errechnet sich aus dem Produkt vom Anfangskapital multipliziert mit der Laufzeit in Jahren und dem Zinssatz in Prozent dividiert durch 100.

Nachfolgende Formel dient der Beantwortung der Fragestellung, wie viel Zinsen Z in € man ohne Zinseszinsen (=einfache Verzinsung) erhält, wenn man das Anfangskapital K₀ für die Dauer von n Jahren bei einem Zinssatz von p% veranlagt.

$Z = {K_0} \cdot \dfrac{{p \cdot n}}{{100\%}}$

Beispiel
Welche Kredithöhe kann bei einer Bank aufnehmen, wenn man bereit ist 720€ an Zinsen in einem Jahr zu bezahlen?
$\eqalign{ & Z = 720\mbox{€} \cr & p = 4\% \cr & n = 1 \cr & {K_0} = ? \cr & \cr & Z = {K_0} \cdot \dfrac{{p \cdot n}}{{100\%}} \to {K_0} = Z \cdot \dfrac{{100\%}}{{p \cdot n}} \cr & {K_0} = 720\mbox{€} \cdot \dfrac{{100}}{4} = 18.000\mbox{€} \cr} $

Endkapital ohne Zinseszins

Das Endkapital ohne Zinseszins errechnet sich aus dem Anfangskapital multipliziert mit der Summe aus 1 plus der Laufzeit in Jahren mal dem Zins in Prozent dividiert durch 100.

Das Endkapital K_n ist die Summe aus dem Anfangskapital und dem Zins. Das Endkapital ohne Zinseszins dient der Bewertung von Finanztransaktionen mit kurzen Laufzeiten. Die erzielten Zinsen werden dabei dem Anfangskapital K₀ nicht für eine weitere Verzinsung hinzugerechnet. Dies steht im Gegensatz zur Zinseszinsrechnung, bei der eine exponentielle Verzinsung stattfindet, was vor allem bei langfristigem Investment von entscheidender Bedeutung ist.

Nachfolgende Formel dient der Beantwortung der Fragestellung, welches Endkapital K_n man ohne Zinseszinsen erhält (=einfache Verzinsung), wenn man das Anfangskapital K₀ für die Dauer von n Jahren bei einem Zinssatz von p% veranlagt.

${K_n} = {K_0} \cdot \left( {1 + \dfrac{{p \cdot n}}{{100\%}}} \right)$

Beispiel

$\eqalign{ & {K_0} = 400\,\,\mbox{€} {\text{ }}...{\text{ Anfangskapital}} \cr & n = \dfrac{5}{{12}}{\text{ }}...{\text{ Laufzeit beträgt 5 Monate}} \cr & p = 6\% {\text{ }}...{\text{ Zinssatz in % }} \cr & {K_n} = {K_0} \cdot \left( {1 + \dfrac{{p \cdot n}}{{100}}} \right) \cr & {K_{\dfrac{5}{{12}}}} = 400 \cdot \left( {1 + \dfrac{{6 \cdot \dfrac{5}{{12}}}}{{100}}} \right) = 410\,\,\mbox{€} \cr} $

Tagesgeld

Ein Tagesgeldkonto ist ein fest verzinstes Konto, auf das bzw. von dem der Kontoinhaber täglich in beliebiger Höhe einzahlen und abheben kann. Ein Tagesgeldkonto hat keine Laufzeit. Der Zinssatz ist wesentlich geringer als bei Veranlagungen mit fixer Laufzeit, da die Bank das Geld kaum reinvestieren kann, da es ja jederzeit wieder abgehoben werden kann.

Ein Bankjahr hat dabei fix 360 Tage bzw. 12 Monate zu je fix 30 Tagen

$\eqalign{ & {Z_d} = Z \cdot \dfrac{d}{{360}} = {K_0} \cdot \dfrac{p}{{100\%}} \cdot \dfrac{d}{{360}} \cr & {K_0} = {Z_d} \cdot \dfrac{{100\%}}{p} \cdot \dfrac{{360}}{d} \cr} $

Beispiel
Ein Kapital von 7.000€ wird für die Dauer von 3 Monaten zu einem Zinssatz von 0,75% für täglich fälliges Geld veranlagt. Wie hoch belaufen sich die Zinsen?
$\eqalign{ & {K_0} = 7000\mbox{€} \cr & p = 0,75\% \cr & d = 90 \cr & {Z_{d = 90}} = ? \cr & \cr & {Z_{90}} = 7000\mbox{€} *\frac{{0.75}}{{100}}*\frac{{90}}{{360}} = 13,125\mbox{€} \cr} $

Zins ohne Zinseszins

Einfache Verzinsung

Kostenfunktion

Die Kostenfunktion, auch Gesamtkostenfunktion genannt, beschreibt den Zusammenhang zwischen der produzierten Menge und den gesamten dafür anfallenden Kosten. Sie gibt also an, wie viel es in Summe kostet x-Stück zu produzieren. Die Gesamtkosten setzen sich aus den Fixkosten und den variablen Kosten zusammen.

$K\left( x \right) = {K_f} + {K_v}\left( x \right)$

Fixkosten

Fixkosten sind Kosten die auch dann anfallen, wenn nicht produziert wird. Sie sind von der Höhe der Erzeugung unabhängig. ${K_{fix}} = K\left( 0 \right) > 0$

Variable Kosten

Variable Kosten sind Kosten, die von der produzierten Mengeneinheit abhängen. $K'\left( x \right) > 0$ daraus folgert, dass die Kosten streng monoton steigen.

Deckungsbeitrag

Der Deckungsbeitrag sind jene Einnahmen, die nach Abzug der variablen Kosten von den Verkaufsnettoerlösen übrig bleiben. Der Deckungsbeitrag gibt an, wie viel ein verkauftes Stück zur Deckung der Fixkosten beiträgt. Ist der Deckungsbeitrag negativ, dann verliert das Unternehmen Geld bei jedem zusätzlich verkauften Stück.

$D\left( x \right) = E\left( x \right) - {K_v}\left( x \right)$

Der Deckungsbeitrag ist der Beitrag der Erlöse zur Deckung der Fixkosten. Der Deckungsbeitrag ist Null, wenn man durch die Erlöse nur mehr die variablen Kosten decken kann, aber kein Beitrag zur Deckung der Fixkosten übrigbleibt. Erwirtschaftet ein Geschäft keinen Deckungsbeitrag, macht es wirtschaftlich keinen ursächlichen Sinn mehr, das Geschäft weiter zu betreiben.

Ausgaben

Ausgaben sind Abgänge an Zahlungsmittel in einer Abrechnungsperiode. Ein Gut welches ins Lager kommt, verursacht Ausgaben, aber keine Aufwendungen.

Aufwendungen

Aufwendungen sind der Geldwert aller verbrauchten Güter und der in Anspruch genommener Dienstleistungen in einer Abrechnungsperiode. Ein Gut, welches aus dem Lager genommen und verbraucht wird, ist eine Aufwendung, aber keine Ausgabe.

Kosten

Kosten sind Aufwendungen, die auf den eigentlichen Betriebszweck bezogen in der betrachteten Periode anfallen und nicht außerordentlich sind. Unternehmerlohn, Abschreibungen oder Mieten stellen zwar (kalkulatorische) Kosten, aber keine Aufwendungen dar.

Lineare Kostenfunktion

Die einfachste Modellierung ist jene mit einer linearen Kostenfunktion. Die lineare Kostenfunktion ist streng monoton steigend und hat keine Extremstellen.

$K\left( x \right) = kx + d$

Fixkosten einer linearen Kostenfunktion: $ K_f=K\left( 0 \right)=d$
variable Kosten einer linearen Kostenfunktion: $K_v\left( x \right) = K\left( x \right) - K\left( 0 \right) = \left( {kx + d} \right) - \left( d \right) = kx$

Illustration zur Veranschaulichung der linearen Kostenfunktion

Stückkosten einer linearen Kostenfunktion

Die Stückkosten sind die Produktionskosten einer Mengeneinheit. Man unterscheidet zwischen den

durchschnittlichen Stückkosten, sinken bei höherer Produktion
marginalen Stückkosten, konstant weil unabhängig von der Höhe der Produktion

Durchschnittliche Stückkosten

Die durchschnittlichen Stückkosten geben die Kosten für die Produktion von einer beliebigen Mengeneinheit an. Auch wenn die Kostenfunktion K(x) selbst linear ist, handelt es sich bei den durchschnittlichen Stückkosten $\overline K (x) = \dfrac{{{K_v}\left( x \right)}}{x} + \dfrac{{{K_F}}}{x}$ um keine lineare Funktion, weil der Anteil der Fixkosten d mit der wachsenden Mengen x gemäß $\dfrac{d}{x}$ immer kleiner wird.

$\overline K \left( x \right) = \dfrac{{K\left( x \right)}}{x} = \dfrac{{k \cdot x + d}}{x} = k + \dfrac{d}{x}$

Marginale Stückkosten (Grenzkosten) einer linearen Kostenfunktion

Die marginalen Stückkosten geben die Mehrkosten für eine zusätzliche Mengeneinheit an. Die Grenzkosten sagen, um wie viel sich die Kosten erhöhen, wenn man noch zusätzlich eine (unendlich kleine ≠ 1 Stk) Mengeneinheit produziert, unabhängig davon wie viel man bereits produziert hat.

$K\left( {x + 1} \right) - K\left( x \right) = \left[ {k \cdot \left( {x + 1} \right) + d} \right] - \left[ {\left( {kx + d} \right)} \right] = k$

In der Praxis ist der Verlauf der marginalen Kosten meist nicht konstant. Man erhält die Grenzkostenfunktion K' auf jeden Fall durch einmaliges Ableiten der Gesamtkostenfunktion K(x). Dabei fallen die Fixkosten weg, da sie unabhängig von der Stückzahl sind, und Konstante beim Ableiten wegfallen.
$K'\left( x \right) = \dfrac{{dK\left( x \right)}}{{{\mathop{\rm dx}\nolimits} }} = {\left( {k \cdot x + d} \right)^\prime } = k$

Illustration zur Veranschaulichung der Zusammenhänge

Ertragsgesetzliche Kostenfunktion

In der Praxis verläuft die Kostenfunktion gemäß einer Funktion 3. Grades. Die ertragsgesetzliche Kostenfunktion ist streng monoton steigend, hat keine Extremstellen aber einen Wendepunkt, den man Kostenkehre nennt.

$K\left( x \right) = a \cdot {x^3} + b \cdot {x^2} + c \cdot x + d$

Für die Koeffizienten einer ertragsgesetzlichen Kostenfunktion gilt (ohne Herleitung)

$a > 0$ weil für $x \to \infty $ strebt $K\left( x \right) \to \infty $
$b < 0$ genauer: $b = - 3a \cdot {x_{KK}}$
$c \ge 0$ bzw. $c \ge {b^2} - 3a$
$d \ge 0$ Dies entspricht den Fixkosten und diese sind zumindest Null oder höher. d hat keinen Einfluss auf den Verlauf vom Graph der Funktion, sondern verschiebt diesen nur entlang der y-Achse.
${x_{kk}} = - \dfrac{b}{{3a}}$ muss für die produzierte Menge an der Kostenkehre gelten

Degressiver Kostenverlauf

Bis zum Wendepunkt der Kostenfunktion (Kostenkehre) verläuft diese degressiv (Wegfall von Stillstandszeiten, Output steigt bei zunehmenden Arbeitseinsatz … ). Degressiv = negativ, rechts bzw. konvex gekrümmt.

$K''\left( x \right) < 0$: Erhöht sich die Stückzahl um n%, so stiegen die Kosten um weniger als n%.

Progressiver Kostenverlauf

Ab dem Wendepunkt der Kostenfunktion (Kostenkehre) verläuft diese progressiv (zu viele Arbeitskräfte behindern sich gegenseitig, Mangel an Facharbeitern, es wird zunehmend teurer, eine Mengeneinheit zu produzieren)

$K''\left( x \right) > 0$: Erhöht sich die Stückzahl um n%, so stiegen die Kosten um mehr als n%.

In der betrieblichen Praxis kennt man die Kostenfunktion mitunter nicht. Aus der innerbetrieblichen Kostenrechnung kann man aber

für bestimmte Produktionsmengen die zugehörigen Gesamtkosten erhalten
diese in eine Punktwolke einzeichnen um dann
mit Hilfe der Methode der kleinsten Quadrate

die ertragsgesetzliche Kostenfunktion bilden.

Illustration zur Veranschaulichung der ertragsgesetzlichen Kostenfunktion

Das Betriebsminimum wird als Tangente aus dem Punkt (0|Fixkosten) an die ertragsgesetzliche Kostenfunktion konstruiert. Das Betriebsminimum liegt dort wo die variablen Durchschnittskosten ihr Minimum haben.
Das Betriebsoptimum wird als Tangente aus dem Punkt (0|0) an die ertragsgesetzliche Kostenfunktion konstruiert. Das Betriebsoptimum liegt dort, wo die Durchschnittskostenfunktion ihr Minimum hat.

Marginale Stückkosten (Grenzkosten) einer ertragsgesetzlichen Kostenfunktion

Man erhält die Grenzkostenfunktion K' durch einmaliges Ableiten der Gesamtkostenfunktion K(x).

$\eqalign{ & K\left( x \right) = a \cdot {x^3} + b \cdot {x^2} + c \cdot x + d{\text{ mit }}a > 0;\,\,d > 0; \cr & K'\left( x \right) = 3 \cdot a \cdot {x^2} + 2 \cdot b \cdot x + c \cr} $

Dabei fallen die Fixkosten K_f (Parameter d) weg, da sie unabhängig von der Stückzahl sind, und Konstante beim Ableiten wegfallen.

Kennt man die Grenzkostenfunktion und die Fixkosten, so kann man die ertragsgesetzliche Kostenfunktion wie folgt anschreiben:

$K\left( x \right) = {K_v} + {K_f} = \int {K'\left( x \right)} \,\,dx + {K_f}$

Dort wo die ertragsgesetzliche Kostenfunktion K ihren Wendepunkt hat (Kostenkehre) dort hat die u-förmig verlaufende Grenzkostenfunktion ihr Minimum. Die Grenzkostenfunktion K' muss im ganzen Definitionsbereich positiv sein.

Illustration zur Veranschaulichung der kurz- bzw. langfristigen Preisuntergrenze bei einer ertragsgesetzlichen Kostenfunktion

Die kurzfristige Preisuntergrenze, das sind Kosten pro Stück, liegt dort wo die variable Durchschnittskostenfunktion ihr Minimum hat.
Die langfristige Preisuntergrenze, das sind Kosten pro Stück, liegt dort, wo die Durchschnittskostenfunktion ihr Minimum hat.

Kostenkehre

Die Kostenkehre ist der Wendepunkt der ertragsgesetzlichen Kostenfunktion K(x) (an der Stelle x_KK), bzw. der Tiefpunkt der Grenzkostenfunktion K'(x)

Betriebsoptimum

Das Betriebsoptimum ist zugleich die langfristige Preisuntergrenze. Es liegt bei jener Produktionsmenge x, bei der die Stückkosten minimal sind bzw die Durchschnittskostenfunktion $\overline K (x) = \dfrac{{{K_v}\left( x \right)}}{x} + \dfrac{{{K_F}}}{x}$ ihr Minimum hat. Konstruiert wird das Betriebsoptimum als Tangente aus (0|0) an die ertragsgesetzliche Kostenfunktion. Das Betriebsoptimum errechnet sich durch Nullsetzen der 1. Ableitung der Stückkostenfunktion. Es ist das Minimum der durchschnittlichen Kosten. Das Betriebsoptimum ist in der Regel nicht ident mit dem Gewinnmaximum.
$\begin{array}{l} \overline K \left( x \right) = \dfrac{{K\left( x \right)}}{x}\\ {\overline K ^\prime }\left( {{x_{opt}}} \right) = 0 \end{array}$

Langfristige Preisuntergrenze

Die langfristige Preisuntergrenze liegt dort wo die Stückkosten minimal sind. Es handelt sich dabei um das Betriebsoptimum x_opt . Verkauft ein Unternehmen zu einem Preis, welcher den Stückkosten im Betriebsoptimum entspricht, so deckt es seine Fixkosten und seine variablen Kosten. Wird ein höherer Preis als die langfristige Preisuntergrenze erwirtschaftet, so macht das Unternehmen Gewinn.

Betriebsminimum

Das Betriebsminimum ist zugleich die kurzfristige Preisuntergrenze. Das Betriebsminimum liegt bei jener Produktionsmenge x, bei der die variablen Durchschnittskosten $\overline {{K_v}} = \dfrac{{{K_v}\left( x \right)}}{x}$ minimal sind. Konstruiert wird das Betriebsminimum als Tangente aus (0|Fixkosten) bzw. (0|d) an die ertragsgesetzliche Kostenfunktion. Rechnerisch bestimmt man x_min durch Ableiten und Nullsetzen des variablen Anteils von der Stückkostenfunktion.

$\begin{array}{l} \overline {{K_v}} \left( x \right) = \dfrac{{{K_v}\left( x \right)}}{x}\\ {\overline {{K_v}} ^\prime }\left( {{x_{\min }}} \right) = 0 \end{array}$

Kurzfristige (absolute) Preisuntergrenze

Die kurzfristige Preisuntergrenze entspricht den Stückkosten im Betriebsminimum x_min . Sie liegt dort wo die variablen Durchschnittskosten $\overline {{K_v}} = \dfrac{{{K_v}\left( x \right)}}{x}$ ihr Minimum haben. Verkauft ein Unternehmen zu einem Preis, welcher den Stückkosten im Betriebsminimum entspricht, so deckt es seine Fixkosten nicht und das Unternehmen macht Verluste. Die Verluste sind gleich hoch, als ob das Unternehmen gar nichts produzieren würde. Das macht nur Sinn, um kurzfristig Marktanteile zu halten. Wird hingegen ein höherer Preis als die kurzfristige Preisuntergrenze erwirtschaftet, so entsteht ein Deckungsbeitrag für die Fixkosten.

Die nachfolgende Illustration veranschaulicht diese Zusammenhänge

Kostenfunktion

Variable Kosten

Fixkosten

Ertragsgesetzliche Kostenfunktion

Durchschnittliche Stückkosten

Stückkostenfunktion

Marginalkosten

Langfristige Preisuntergrenze

Kurzfristige Preisuntergrenze

Preisfunktionen von Angebot bzw. Nachfrage

Die Preisfunktion beschreibt den erzielbaren Preis pro Stück. Der Preis pro Stück stellt dabei ein Gleichgewicht zwischen der nachgefragten und der angebotenen Menge dar, wobei dieser Ausgleich am besten in Märkten mit vollständiger Konkurrenz erfolgen kann. Der Preis ist dabei eine Bewertung in Geldeinheiten für die Knappheit eines Gutes. Anbieterseitig lenkt der Preis die produzierte Menge, nachfragerseitig lenkt der Preis die konsumierte Menge des Produkts.

$P\left( x \right) = \dfrac{{E\left( x \right)}}{x}$

Die Preisfunktion der Nachfrage gibt den Zusammenhang zwischen dem Preis eines Gutes und der nachgefragten Menge an. Steigt die Nachfrage, so wird das Gut zunächst seltener und es steigt der Preis.
${p_N}\left( x \right) = \dfrac{{E\left( x \right)}}{x}$
Die Preisfunktion des Angebots gibt den Zusammenhang zwischen dem Preis eines Gutes und der angebotenen Menge an. Steigt der Preis so wird von den Anbietern mehr von dem Gut produziert wodurch größere Mengen verfügbar werden und der Preis sinkt.
Im Marktgleichgewicht stimmen die angebotene und die nachgefragte Menge überein.

Preisfunktion der Nachfrage bzw. Preis-Absatzfunktion

Die Preisfunktion der Nachfrage gibt den Zusammenhang zwischen dem Preis p eines Gutes und der nachgefragten (=abgesetzten) Menge x_N an.

${p_N} = {p_N}\left( x \right)$ ... Preis pro Mengeneinheit, in Abhängigkeit von der nachgefragten Menge

Im Allgemeinen ist die Preisfunktion der Nachfrage streng monoton fallend. (Hoher Preis → geringe Nachfrage)

Der Prohibitivpreis bzw. Höchstpreis p_H ist jener Preis, bei dem die nachgefragte Menge Null wird ${p_N}\left( {x = 0} \right) = {p_H}$, weil niemand mehr bereit ist, zu einem so hohen Preis eine Produktionseinheit zu kaufen. Der Prohibitivpreis heißt daher auch Höchst- oder Maximalpreis.
Die Sättigungsmenge x_S ist jene Menge, wo auch zum Preis Null nicht mehr Produkteinheiten am Markt nachgefragt werden ${p_N}\left( {{x_S}} \right) = 0$, weil es keinen weiteren Bedarf gibt, selbst wenn das Produkt verschenkt wird. Grafisch handelt es sich um den Schnittpunkt der Preis-Absatzkurve mit der x bzw. Mengenachse. Die Sättigungsmenge ist also die Nullstelle der Preis-Absatz-Funktion. Nicht jede Preis-Absatzfunktion muss auch eine Nullstelle haben.

Nachfragefunktion

Die Nachfragefunktion ist die Inverse der Preis-Absatzfunktion.
${x_N} = x_N\left( p \right)$ ... Menge in der ein Gut nachgefragt wird, in Abhängigkeit vom Preis

Die Funktion ist monoton fallend, denn ein tiefer Preis führt zu einer hohen Nachfrage und umgekehrt. In der Praxis hat die Nachfragefunktion Unstetigkeitsstellen, denn die Nachfrage ist bei einem Preis von 9,99 € mitunter aus psychologischen Gründen größer als bei einem Preis von 10,01 €, obwohl de facto kein Preisunterschied besteht.

Die nachfolgende Illustration veranschaulicht die Zusammenhänge p=p(x) bzw. von x=x(p) - es handelt sich ja um den selben Funktionsgraph:

Preiselastizität der Nachfrage

Die Preiselastizität der Nachfrage ist ein Maß (ein sogenanntes Reagibilitätsmaß) dafür, um wie viele Prozent sich die Nachfrage der Konsumenten ändert, wenn sich der Preis um einen bestimmten Prozentsatz ändert. Die Elastizität ist somit neben der relativen Änderungsrate und der momentanen Änderung (1. Ableitung) ein Maß dafür, wie sich eine Funktion innerhalb eines Intervalls ändert.

Die mathematische Definition im Falle einer differenzierbaren Nachfragefunktion lautet:
$\varepsilon \left( x \right) = \dfrac{{{p_N}^\prime \left( x \right)}}{{{p_N}\left( x \right)}} \cdot x$

Mikroökonomische Definition der Preiselastizität:

${\varepsilon _N} = \dfrac{{\dfrac{{\Delta {x_N}}}{{{x_N}}}}}{{\dfrac{{\Delta p}}{p}}} = \dfrac{{{\text{relative Mengenänderung}}}}{{{\text{relative Preisänderung}}}}$

Da die Nachfragefunktion ${p_N}\left( x \right)$ eine fallende Funktion, also k<0 ist, gilt

die 1. Ableitung ${p_N}^\prime \left( x \right)$ ist negativ
die Elastizität $\varepsilon \left( x \right) < 0$ ist ebenfalls negativ, höchstens Null

In der nachfolgenden Übersicht verwenden wir daher nicht das negative $\varepsilon $ sondern dessen Betrag $\left| \varepsilon \right|$

$\left\| \varepsilon \right\| = 0$	vollkommen unelastische Nachfrage	Eine Preisänderung von $ \pm x\% $ bewirkt keine Änderung der Nachfrage
$\left\| \varepsilon \right\| < 1$	Preisunelastische Nachfrage	Eine Preisänderung von $ \pm x\% $ bewirkt eine unterproportionale Änderung der Nachfrage um $ \mp y\% $ mit x>y Eine Preissenkung führt zu einer Absatzerhöhung aber zu einer Gewinnreduktion Für den optimalen Gewinn ist eine Preiserhöhung notwendig
$\left\| \varepsilon \right\| = 1$	proportional elastische Nachfrage	Eine Preisänderung von $ \pm x\% $ bewirkt eine Änderung der Nachfrage um $ \mp x\% $ Umsatzmaximaler Preis
$\left\| \varepsilon \right\| > 1$	Preiselastische Nachfrage	Eine Preisänderung von $ \pm x\% $ bewirkt eine überproportionale Änderung der Nachfrage um $ \mp y\% $ mit x<y Eine Preissenkung führt zu einer Absatzerhöhung und Gewinnerhöhung
$\left\| \varepsilon \right\| = \infty $	vollkommen elastische Nachfrage	Eine kleine Preisänderung bewirkt eine ganz erhebliche Änderung der Nachfrage

Illustration zur Veranschaulichung von preiselastischer bzw. preisunelastischer Nachfrage

Beispiel:
Preiselastizität 1,5 → 1,5>1 → Preiselastische Nachfrage ⇔ überproportionale Änderung der Nachfrage

Eine Preissteigerung um 10% bewirkt einen Absatzrückgang um $(10\% \cdot 1,5 = )15\% $
Eine Preissenkung um 10% bewirkt eine Absatzzuwachs um $(10\% \cdot 1,5 = )15\% $

Preisfunktion des Angebots

Die Preisfunktion des Angebots gibt den Zusammenhang zwischen dem Preis p eines Gutes und der angebotenen Menge x_A an

${p_A} = {p_A}\left( x \right)$ ... Preis pro Mengeneinheit, in Abhängigkeit von der angebotenen Menge

Im allgemeinen ist die Preisfunktion des Angebots streng monoton steigend. (Hoher Preis → hohes Angebot)

Mindestpreis

Der Mindestpreis p_Min ist jene Preisuntergrenze, bei der sich erstmals ein Anbieter findet um das Produkt auf den Markt zu bringen.

Angebotsfunktion

Die Angebotsfunktion gibt die Menge in der ein Gut angeboten wird in Abhängigkeit vom Preis an
${x_A} = x_A\left( p \right)$ ... Menge in der ein Gut angeboten wird, in Abhängigkeit vom Preis

In der Regel handelt es sich um eine monoton steigende Funktion. Es erfordert einen bestimmten Mindestpreis, damit Anbieter anfangen ihre Produkte zu verkaufen. Der Mindestpreis ergibt sich aus den Herstellkosten HK und einer Vertriebsspanne VSP, die der Verkäufer erzielen will. Je höher der erzielbare Preis, umso mehr Anbieter bringen eine immer größere Menge auf den Markt. Zufolge des so entstehenden Überangebots reduziert sich der Preis wieder, da die Verbraucher nicht mehr entsprechend nachfragen und Anbieter wieder aus dem Markt aussteigen.

Illustration zum Auffinden des Marktgleichgewichts

Marktgleichgewicht

Im Marktgleichgewicht stimmen die angebotene und die nachgefragte Menge überein. Es gibt keine Über- und keine Unterversorgung.

${p_A}\left( x \right) = {p_N}\left( x \right)$

Gleichgewichtspreis

Der Gleichgewichtspreis ist jener Preis, bei dem die nachgefragte und die angebotene Menge auf einem vollkommenen Markt genau übereinstimmen. Es kommt zu keinem Nachfrage- oder Angebotsüberschuss.

Marktpreis ist gleich Gleichgewichtspreis

Die Nachfrager können genau jene Menge kaufen, die sie beim Gleichgewichtspreis kaufen wollen. Die Anbieter können genau jene Menge produzieren und verkaufen, die sie beim Gleichgewichtspreis verkaufen wollen. Es kommt zu keinem Nachfrage- oder Angebotsüberschuss.

Marktpreis ist ungleich Gleichgewichtspreis

Bei einem vom Gleichgewichtspreis abweichendem Preis gibt es entweder eine Übernachfrage (=Unterangebot) oder ein Überangebot.

Preisobergrenze liegt über dem Gleichgewichtspreis → Überangebot

Es entsteht ein Überangebot am Markt. Die Preisobergrenze wirkt nicht als Schutz der Nachfrager, da sie weit über und nicht unter dem Gleichgewichtspreis liegt. Die Preisobergrenze wird als nicht bindend bezeichnet, wenn sie über dem Gleichgewichtspreis liegt.

Preisobergrenzen bzw. Höchstpreise dienen dem Schutz der Nachfrager vor zu hohen Preisen. Sie führen zu einem Nachfrageüberschuss und zu Warteschlangen vor den Geschäften, da die Produzenten keine wirtschaftliche Motivation haben, zu investieren oder mehr zu produzieren. Dies führt langfristig dazu, dass der Nachfrageüberschuss immer größer wird und immer mehr Konsumenten das begehrte Produkt mangels Angebot nicht mehr kaufen können.

Preisobergrenze liegt unter dem Gleichgewichtspreis → Übernachfrage bzw. Unterangebot

Es entsteht ein Unterangebot am Markt.

Preisuntergrenzen bzw. Mindestpreise dienen dem Schutz der Anbieter vor Preisdumping durch den Mitbewerber und führen zu Angebotsüberschüssen. Die Preisobergrenze wird als bindend bezeichnet, wenn sie unter dem Gleichgewichtspreis liegt.

Eine Gegenmaßnahme ist die Kontingentierung, d.h. die Angebotsmenge wird durch einen Regulator beschränkt, sodass weniger Produkte auf den Markt kommen.

Preisuntergrenze liegt über dem Gleichgewichtspreis → Angebotsüberschuss

Liegen etwa die Löhne über dem Gleichgewichtspreis, so bieten immer mehr Arbeitnehmer ihre Arbeitsleistung am Markt an. Auf Grund der hohen Löhne sind aber weniger Arbeitgeber als beim Gleichgewichtspreis (-lohn) bereit, so viele Arbeitnehmer einzustellen. Es kommt zu Arbeitern ohne Arbeit, also zu Arbeitslosigkeit.

Preisuntergrenze liegt unter dem Gleichgewichtspreis → Unterangebot

Liegen etwa die Löhne unter dem Gleichgewichtspreis, so bieten immer weniger Arbeitnehmer ihre Arbeitsleistung am Markt an. Auf Grund der niederen Löhne sind immer mehr Arbeitgeber an zusätzlichen Arbeitnehmern interessiert, die sie am Arbeitsmarkt nicht finden, wodurch offene unbesetzte Stellen entstehen. Es gibt mehr freie Stellen, als zu dem niederen Lohn (=Preis) besetzt werden können.

Beispiel: Die Nachfrage- (Demand)- und Angebotsfunktionen (Supply) nach einer Dienstleistung sind gegeben durch:

$\eqalign{ & {Q_D} = 1200 - 2p \cr & {Q_S} = 1100 + 2p \cr} $

Wir formulieren die gegebenen Gleichungen so um, dass der Preis p eine Funktion der Menge x ist. Damit wird, so wie wir es gewohnt sind, der Preis auf der y-Achse und die Menge auf der x-Achse dargestellt.

$ \eqalign{ & {Q_D} = 1200 - 2p \to {p_D} = 600 - 0,5 \cdot x \cr & {Q_S} = 1100 + 2p \to {p_S} = - 550 + 0,5 \cdot x \cr} $

Anmerkung: Würden wir diese Umformung nicht machen, käme natürlich das selbe Resultat heraus, es würden lediglich auf der x-Achse der Preis und auf der y-Achse die Menge dargestellt werden.

Nun setzen wir die beiden Gleichungen einander gleich, um die Gleichgewichtsmenge zu bestimmen:

$\eqalign{ & 600 - 0,5 \cdot x = - 550 + 0,5 \cdot x \cr & 1150 = x \cr} $

Im Preis, bei dem sich das Marktgleichgewicht einstellt, stimmen die angebotene Menge und die nachgefragte Menge überein. Diese Gleichgewichtsmenge kennen wir gemäß x=1150, daher bestimmen wir noch den Gleichgewichtspreis, indem wir in die Preis-Absatzkurve bzw. die Angebotsfunktion einsetzen. Es kommt jedes Mal der idente Gleichgewichtspreis von 25 GE heraus:
$\eqalign{ & x = 1150 \cr & \cr & {p_D}\left( {x = 1150} \right) = 600 - 0,5 \cdot 1150 = 600 - 575 = 25 \cr & {p_S}\left( {x = 1150} \right) = - 550 + 0,5 \cdot 1150 = - 550 + 575 = 25 \cr & \cr & {p_D} = {p_S} = 25 \cr} $

Bei einem Preis von 25 Geldeinheiten wird eine Menge von 1150 Dienstleistungseinheiten nachgefragt. Es gibt keine Über- oder Unterversorgung.

Preisfunktion der Nachfrage

Preisfunktion des Angebots

Preiselastizität der Nachfrage

Marktpreis gleich Gleichgewichtspreis

Marktpreis ungleich Gleichgewichtspreis

Zinsrechnung

Die Zinsrechnung ist eine Anwendung der Prozentrechnung.

Prozentrechnung	Zinsrechnung
Prozentsatz p, Prozentueller Anteil vom Prozentwert am Grundwert	Zinssatz p, Prozentueller Anteil vom Prozentwert am Kapital
Prozentwert P, Anteil am Grundwert	Zinsen Z, Anteil am Grundwert
Grundwert G	Kapital K
${\text{Prozentsatz = }}\dfrac{{{\text{Prozentwert}}}}{{{\text{Grundwert}}}} \cdot 100\% $	${\text{Zinssatz = }}\dfrac{{{\text{Zinsen}}}}{{{\text{Kapital}}}} \cdot 100\% $

Gläubiger

Unter einem Gläubiger versteht man eine natürliche oder juristische Person (Kreditunternehmen) welche einer anderen natürlichen oder juristischen Person, dem Schuldner, temporär Kapital zur Verfügung stellt.

Schuldner

Unter einem Schuldner versteht man eine natürliche oder juristische Person, die von einer anderen natürlichen oder juristischen Person, dem Gläubiger, temporär Kapital gegen Zahlung einer Überlassungsgebühr, den Zinsen, leiht.

Kapital

Das Kapital ist jener Geldbetrag, den ein Kreditgeber einem Kreditnehmer gegen Bezahlung von Zinsen am Anfang der Verzinsungsperiode überlässt.

$K = \dfrac{Z}{p} \cdot 100\% $

Zinssatz

Der Zinssatz ist ein in Prozent ausgedrücktes Entgelt für den Kreditgeber, damit dieser temporär auf Liquidität zu Gunsten des Kreditnehmers verzichtet. Für den Zinssatz p gilt üblicherweise: $0 \leqslant p \leqslant 1$. Der Zinssatz bezieht sich immer auf einen bestimmten Zeitraum, welcher Verzinsungsperiode genannt wird. Eines negativen Zinssatzes bedient man sich, wenn man Bankguthaben für Anleger unattraktiv machen möchte, etwa um sie zu motivieren in andere Anlageformen (Aktien) zu investieren.

$p = \dfrac{Z}{K} \cdot 100\% $

Zinsen

Die Zinsen sind ein in Geldeinheiten (€, $,..) ausgedrückter Preis für die Überlassung von Kapital vom Kreditgeber an den Kreditnehmer. Der Kreditgeber verzichtet temporär auf Liquidität und erhält den Zins als Entschädigung für das Risiko, das eingesetzte Kapital nicht vollständig vom Schuldner zurück zu erhalten.

$Z = K \cdot \dfrac{p}{{100\% }}$

Zinseszinsen

Zinseszinsen sind Zinsen auf Zinsen. Die Zinsen aus der ersten Zinsperiode werden dem Kapital zugeschlagen und zukünftig mitverzinst.

Zinsperiode

Zinsen werden zu bestimmten Terminen zur Zahlung fällig. Die zeitliche Differenz zweier aufeinanderfolgender Zinszahlungstermine bezeichnet man als Zinsperiode. Übliche Zinsperioden sind ein Jahr oder ein Quartal, also alle drei Monate bzw. viermal im Jahr.

Verzinsungsmodelle

Bei den verschiedenen Verzinsungsmodellen sind immer Geldzahlungen, Zahlungszeitpunkt bzw. Verzinsungsperioden sowie der Zinssatz von zentraler Bedeutung.

Es werden 2 verschiedene Verzinsungsmodelle unterschieden

Bei der einfachen Verzinsung werden die Zinsen einmalig für die gesamte Laufzeit vom Anfangskapital K₀ berechnet. Es wird daher nur das Angangskapital verzinst, die Zinsen selbst werden nicht verzinst.
Bei der Verzinsung mit Zinseszinsen werden die anfallenden Zinsen am Ende der jeweiligen Verzinsungsperiode dem Kapital zugeschlagen und fortan ebenfalls der Verzinsung unterworfen. Verbreitete Verzinsungsperioden sind die jährliche, die quartalsweise und die kontinuierliche Verzinsung.

Erlösfunktion

Die Erlösfunktion (auch Umsatz- bzw. Ertragsfunktion), gibt den Erlös E (oft auch R für revenue) in Abhängigkeit von der abgesetzten Menge x an.

$E\left( x \right) = p\left( x \right) \cdot x$

In der Erlösfunktion ist der erzielbare Preis p(x) abhängig von der absetzbaren Menge x. Man kann daher ohne weiteres Wissen nichts über den Verlauf der Erlösfunktion aussagen. Aber eines gilt immer: Wenn man nichts produziert, kann man auch nichts verkaufen und somit nichts erlösen. Dh alle Erlösfunktionen müssen bei x=0 Null sein, also E(0)=0

Illustration von der Erlösfunktion und vom Grenzerlös

Ist die abgesetzte Menge null, dann ist auch der Erlös null. Bei geringer Angebotsmenge steigen die erzielbaren Preise und somit auch die Erlöse, bis bei weiter steigender Angebotsmenge zufolge eines Angebotsüberschusses die Preise und somit die Erlöse wieder zu sinken beginnen. Ist letztlich bei der Sättigungsmenge der erzielbare Preis null, so wird auch der Erlös ein zweites Mal zu null. Produziert man über die Sättigungsmenge hinaus, so wird der Erlös negativ.

Erlös bzw. Umsatz:

Der Erlös errechnet sich als Produkt vom Verkaufspreis mal der Anzahl der verkauften Mengeneinheiten.

Erlösfunktion bei vollständiger Konkurrenz

In der Erlösfunktion ist der erzielbare Preis abhängig von der absetzbaren Menge. In einem Polypol, wo viele Anbieter vielen Abnehmern gegenüber stehen, sodass niemand die Marktmacht hat, den Marktpreis wesentlich zu beeinflussen, ist der erzielbare Preis jedoch eine Konstante, also unabhängig von der absetzbaren Menge. Da bei vollständiger Konkurrenz der Marktpreis unbeeinflussbar ist, muss jeder Anbieter die von ihm angebotene Menge anpassen.

$E\left( x \right) = R\left( x \right) = p \cdot x$

Illustration von der Erlösfunktion und vom Grenzerlös bei vollständiger Konkurrenz, also bei konstantem weil mengenunabhängigem Preis

Bei konstantem Verkaufspreisen steigt der Erlös linear mit der abgesetzten Menge an. Der Grenzerlös, er ist die 1. Ableitung der linearen Erlösfunktion, ist eine Parallele zur x-Achse im Abstand p.

Die Erlösfunktion bei einem monopolistischen Anbieter

In der Erlösfunktion ist der erzielbare Preis abhängig von der absetzbaren Menge. In einem Monopol, wo ein einziger Anbieter den Preis und die angebotene Menge einseitig bestimmen kann, wird der Monopolist genau jene Menge anbieten, für die er den gewinnmaximalen Preis erzielt. Den Monopolisten bezeichnet man daher als "Mengenfixierer". Er gibt die angebotene Menge vor, somit ergibt sich der zugehörige Preis, den die Abnehmer bereit sind zu bezahlen.

$E\left( x \right) = {p_N}\left( x \right) \cdot x$

Grenzerlös

Der Grenzerlös ist der Erlöszuwachs, der aus dem Verkauf einer zusätzlichen marginal kleinen Mengeneinheit (dx) resultiert. Der Erlös ist dort maximal, wo der Grenzerlös null ist. An der Stelle wo der Grenzerlös null wird, liegt die optimale Produktionsmenge, bei welcher der maximale Ertrag erwirtschaftet wird.

$E'\left( x \right) = \dfrac{{dE\left( x \right)}}{{\operatorname{dx} }}$

Beispiel:

Gegeben ist die Umsatz- bzw. Erlösfunktion

$E\left( x \right) = 540 \cdot x - {x^2}$

Gesucht sind die optimale Produktionsmenge und der sich einstellende Preis und der zugehörige Gesamterlös!

$\eqalign{
& E\left( x \right) = 540 \cdot x - {x^2} \cr
& 540 \cdot x - {x^2} = 0 \cr
& {x_1} = 0 \cr
& {x_2} = 540 \cr} $

Die Erlösfunktion ist zwischen 0 und 540 Stück positiv. Bei 540 Stück liegt die Sättigungsmenge. Werden mehr Stück produziert, dann wird der Erlös negativ. Der Erlös ist dort maximal, wo der Grenzerlös E‘(x) null ist:

$\eqalign{
& E'\left( x \right) = 540 - 2 \cdot x \cr
& E'\left( x \right) = 0 \cr
& 540 - 2 \cdot x = 0 \cr
& 540 = 2 \cdot x \cr
& x = \frac{{540}}{2} = 270 \cr} $

Die optimale Produktionsenge beträgt 270 Stück.

$\eqalign{
& E(x = 270) = 540 \cdot 270 - {270^2} = 72.900 \cr
& p\left( x \right) = \frac{{E\left( x \right)}}{x} = \frac{{72.900}}{{270}} = 270 \cr} $

Dabei ergibt sich Gesamterlös von 72.900 Geldeinheiten und ein Preis von 270 Geldeinheiten pro Stück

Wenn die Produktionseinschränkungen durch Ungleichungen gegeben sind, die den zulässigen Lösungsbereich umfassen, dann liegt die optimale Produktionsmenge im optimlaen Punkt und dieser liegt dort, wo die Gerade der Zielfunktion den zulässigen Lösungsbereich berührt.

Im Fall von einem Angebotsüberschuss sinken die Preise, sodass mit jedem zusätzlich verkauften Produkt der Grenzerlös abnimmt. Wird letztlich der Grenzerlös kleiner als die Kosten der Herstellung eines zusätzlichen Produkts, dann bewirkt der zusätzliche Verkauf keine Gewinnsteigerung mehr, sondern im Gegenteil einen Verlust.

Illustration vom maximalen Ertrag

Optimale Produktionsmenge

Gewinnmaximum eines Monopolisten

Gewinnfunktion

Der Gewinn ist die Differenz zwischen Erlösen und Kosten. Der Gewinn ist bei kleinen Stückzahlen zunächst negativ, wird beim Erreichen der Gewinnschwelle positiv und wird bei einer großen Stückzahl ab der Gewinngrenze wieder negativ.
$G\left( x \right) = E\left( x \right) - K\left( x \right)$

Grenzgewinn

Der Grenzgewinn ist jener Gewinn, der für eine zusätzliche, marginal kleine (dx), abgesetzte Produktmenge erzielt werden kann.

$G'\left( x \right) = \dfrac{{dG\left( x \right)}}{{\operatorname{dx} }}$

Break-Even-Point, Gewinnschwelle

Als Break-Even-Point, auch Gewinnschwelle genannt, bezeichnet man jenen Punkt an dem Kosten und Erträge gleich hoch sind. Erzielt ein Unternehmen einen höheren Ertrag liegt es in der Gewinnzone, bei einem niedrigeren Ertrag macht es Verluste.

$\eqalign{ & G\left( x \right) = 0 \cr & E\left( x \right) = K\left( x \right) \cr} $

Den Break-Even-Point ermittelt man, in dem man:

die 1. Nullstelle der Gewinnfunktion ermittelt.
als den 1. Schnittpunkt aus Erlös- und Kostenfunktion

Zur Ermittlung vom Break-Even-Point muss man

die Fixkosten, die variablen Kosten und den Deckungsbeitrag kennen. Dividiert man die Fixkosten durch den Deckungsbeitrag erhält man die Mindestumsatzmenge.
$\eqalign{ & x \cdot p = x \cdot {K_v} + {K_f} \cr & x = \dfrac{{{K_f}}}{{p - {K_v}}} = \dfrac{{{K_f}}}{{DB}} \cr} $

Gewinnzone

Die Gewinnzone erhält man, wenn man G(x)=0 setzt.

1. Nullstelle der Gewinnfunktion: Gewinnschwelle bzw. Break-Even-Point: Erstmals wird ein positiver Gewinn wird erzielt, sobald der Erlös die Gesamtkosten übersteigt. Die Gewinnschwelle liegt im 1. Schnittpunkt von Erlös- und Kostenfunktion
Hochpunkt der Gewinnfunktion: Gewinnmaximum G_max: Das Gewinnmaximum wird bei jener Produktionsmenge erreicht, bei der der Hochpunkt der Gewinnfunktion liegt. Mathematisch ist das jene Stelle an der die 1. Ableitung der Gewinnfunktion ihre Nullstelle hat.
2. Nullstelle der Gewinnfunktion: Gewinngrenze : Bei großen Produktionsmengen steigen die Kosten überproportional an und übertreffen die Erlöse, wodurch aus dem Gewinn ein Verlust wird. Dies ist bedingt durch den s-förmigen Verlauf der ertragsgesetzlichen Kostenfunktion. Die Gewinngrenze liegt im 2. Schnittpunkt von Erlös- und Kostenfunktion.

Illustration der Gewinnzone

Cournot’scher Punkt

Der Cournot’sche Punkt ist jener Punkt auf der Gewinn-Funktion bei dem sich das Gewinnmaximum befindet. Die Gewinnfunktion ergibt sich als die Differenz von der Erlös- und der Kostenfunktion
$G\left( x \right) = E\left( x \right) - K\left( x \right)$

Man bestimmt daher die Nullstelle der 1. Ableitung der Gewinnfunktion.

x-Koordinate: Jene Produktionsmenge, bei der das Gewinnmaximum liegt
y-Koordinate: Preis bei gewinnmaximaler Produktionsmenge

Anmerkung: Ein Unternehmen im Wettbewerb hat auf den Preis keinen Einfluss, es muss den Gleichgewichtspreis (Angebot und Nachfrage) als gegeben akzeptieren. Für einen Monopolisten ist der Cournot'sche Punkt jene Preis-Mengen Kombination für die der Gewinn maximal ist.

Gewinnmaximum eines Monopolisten

Der Gewinn eines Monopolisten hat bei einer linearen Preis-Absatzfunktion dann sein Maximum, wenn er die halbe Sättigungsmenge zum halben Prohibitivpreis anbietet.

$C\left( {\dfrac{{{x_C}}}{{p\left( {{x_C}} \right)}}} \right){\text{ sodass }}G\left( x \right) = \max $

Im Cournot’schen Punkt sind Grenzkosten und Grenzerlöse gleich.

$K'\left( x \right) = E'\left( x \right)$

Äquivalenzprinzip der Finanzmathematik

Rentenrechnung

Bei der Rentenrechnung werden die Raten berechnet, mit denen ein vorher angespartes Kapital in regelmäßigen Zeitabständen und in konstanter Höhe ausbezahlt wird. Das Prinzip der Rentenrechnung lässt sich besonders gut an der Alterspension erklären: In Österreich zahlen Berufstätige während ihres Erwerbslebens als Teil der Sozialversicherung monatlich in eine Pensionskasse ein. Der Dienstnehmer bezahlt dabei 10,25% und der Dienstgeber 12,55% vom beitragspflichtigen Verdienst. Im Jahr 2020 beträgt die monatliche Höchstbeitragsgrundlage 5.370 € Brutto. Sollte man ein höheres Einkommen erzielen, dann ist dafür kein zusätzliche Sozialversicherungsbeitrag zu bezahlen. Durch die Beitragszahlungen spart der Erwerbstätige einen Pensionsanspruch an.

Erreicht der Erwerbstätige das Pensionsantrittsalter von derzeit 65 Jahren, so wird der Rentenbarwert aus den Einzahlungen der letzten 40 Jahre bzw. 480 Monate ermittelt und in Form einer Rentenzahlung für den Rest des Lebens ausbezahlt, wobei der Rentenbarwert auf die versicherungsmathematisch ermittelte voraussichtliche verbleibende Lebenserwartung gleichmäßig aufgeteilt und in Form von Ratenzahlungen monatlich ausbezahlt wird. Die höchste Pension, ausgenommen für Beamte, beträgt 3.566 € im Jahr 2020, gesetzt den Fall man hat während des gesamten Durchrechnungszeitraumes die jeweiligen Höchstbetragsgrundlage (über)erreicht. Dabei handelt es sich um einen Bruttobetrag, von dem man noch 5,1% Krankenversicherung und die Lohnsteuer abziehen muss. Im Durchschnitt beträgt die Nettopension 78% vom letzten Erwerbstätigeneinkommen.

Illustration Rentenrechnung, vereinfacht

Rente

Unter einer Rente versteht man Zahlungen - die man wiederum als Raten bezeichnet - die in regelmäßigen Zeitabständen und in konstanter Höhe erfolgen

Raten

Regelmäßige Zahlungen werden als Rente bezeichnet. Die in gleichen Zeitabständen erfolgenden Zahlungen bezeichnet man als Rate R.

Vorschüssige Raten werden am Anfang der Zahlungsperiode (z.B. Monatsanfang) geleistet. Die Auszahlung der Darlehenssumme erfolgt bereits um die erste Rate reduziert.
Nachschüssige Raten werden am Ende der Zahlungsperiode (z.B. Monatsende) geleistet.
Der Barwert einer Rente, ist der gegenwärtige Wert aller Raten, vor Beginn der Laufzeit.
Der Endwert einer Rente, ist der zukünftige Wert aller Raten, am Ende der Laufzeit.

R	Ratenhöhe
n	Anzahl der Raten
i	Jährlicher Zinssatz (Dezimalzahl)
q=1+i	Jährlicher Aufzinsungsfaktor
$\nu = \dfrac{1}{q} = \dfrac{1}{{\left( {1 + i} \right)}}$	Jährlicher Abzinsungsfaktor
K₀	Barwert heute
K_n	Endwert in n Jahren

Anmerkung: Kennt man nur den monatlichen Aufzinsungsfaktor q_m, weil man monatlichen Raten berücksichtigen muss, so kann man den jährlichen Aufzinsungsfaktor q wie folgt berechnen:
$q = {q_m}^{12}$

Äquivalenzprinzip der Finanzmathematik

Das Äquivalenzprinzip der Finanzmathematik besagt: Damit Zahlungen die zu unterschiedlichen Zeitpunkten getätigt wurden verglichen können, müssen sie auf einen Bezugszeitpunkt auf- oder abgezinst werden.

Barwert und Endwert

Um Zahlungen die zu unterschiedlichen Zeitpunkten eingehen vergleichbar zu machen, bezieht man sie mit Hilfe des Barwerts auf den Anfang des Zahlungsstroms oder mit Hilfe des Endwerts auf das Ende vom Zahlungsstrom.

Barwert

Der Barwert ist ein Maß für den Wert, der einer zukünftigen Zahlung in der Gegenwart entspricht. Der Barwert einer Rente ist die Summe aller Rentenzahlungen auf den Anfangszeitpunkt abgezinst.
${K_0} = \dfrac{{{K_n}}}{{{q^n}}} = {K_n} \cdot {\nu ^n}$

Beispiel:
$\eqalign{ & {K_n} = 15.000\mbox{€} \cr & p = 10\% \to i = 0,1 \to q = 1,1 \cr & n = 5{\text{ Jahre}} \cr & {K_0} = \dfrac{{15.000}}{{{{1,1}^5}}} = 9.313,82 \cr} $

→ 15.000 € die man erst in 5 Jahren ausbezahlt bekommt, haben heute einen Barwert von nur 9.313 €, wenn für den Veranlagungszeitraum ein risikoloser Zinssatz von 10% erzielt werden kann.

Endwert

Der Endwert ist ein Maß für den Wert, der einer heutigen Zahlung in der Zukunft entspricht. Der Endwert einer Rente ist die Summe aller Rentenzahlungen, welche auf den Endzeitpunkt aufgezinst werden.
${K_n} = {K_0} \cdot {q^n}$

Beispiel
$\eqalign{ & {K_0} = 9.313,82\mbox{€} \cr & p = 10\% \to i = 0,1 \to q = 1,1 \cr & n = 5{\text{ Jahre}} \cr & {{\text{K}}_n} = {K_0} \cdot {q^n} = 9.313,82\mbox{€} \cdot {1,1^5} = 15.000\mbox{€} \cr} $

→ Für 9.313,82€ die man für die kommenden 5 Jahre verborgt, erwartet man einen Endwert von immerhin 15.000€ zurück zu erhalten, wenn für den Veranlagungszeitraum ein risikoloser Zinssatz von 10% erzielt werden kann.

Barwert einer Rente mit vorschüssigen Raten

Der Barwert einer vorschüssigen Rente entspricht dem Zeitwert zu jenem Zeitpunkt, an dem die 1. Ratenzahlung erfolgt.

${B_{{\rm{vorsch}}}} = \left( {R \cdot \dfrac{{{q^n} - 1}}{{q - 1}}} \right) \cdot \dfrac{1}{{{q^{n - 1}}}}$

${B_{{\text{vorsch}}}} = R \cdot \dfrac{{1 - {{\left( {1 + i} \right)}^{ - n}}}}{i} \cdot \left( {1 + i} \right)$

Endwert einer Rente mit vorschüssigen Raten

Der Endwert einer vorschüssigen Rente entspricht dem Zeitwert zu jenem Zeitpunkt, welcher 1 Zinsperiode nach der letzten Ratenzahlung liegt.

${E_{{\rm{vorsch}}}} = \left( {R \cdot \dfrac{{{q^n} - 1}}{{q - 1}}} \right) \cdot q$

${E_{{\text{vorsch}}}} = R \cdot \dfrac{{{{\left( {1 + i} \right)}^n} - 1}}{i} \cdot \left( {1 + i} \right)$

Barwert einer Rente mit nachschüssigen Raten

Der Barwert einer nachschüssigen Rente entspricht dem Zeitwert zu jenem Zeitpunkt, welcher 1 Zinsperiode vor der 1. Ratenzahlung liegt.

${B_{{\rm{nachsch}}}} = \left( {R \cdot \dfrac{{{q^n} - 1}}{{q - 1}}} \right) \cdot \dfrac{1}{{{q^n}}}$

${B_{{\text{nachsch}}}} = R \cdot \dfrac{{1 - {{\left( {1 + i} \right)}^{ - n}}}}{i}$

Endwert einer Rente mit nachschüssigen Raten

Der Endwert einer nachschüssigen Rente entspricht dem Zeitwert zu jenem Zeitpunkt an dem die letzte Ratenzahlung erfolgt.

${E_{{\rm{nachsch}}}} = \left( {R \cdot \dfrac{{{q^n} - 1}}{{q - 1}}} \right)$

${E_{{\text{nachsch}}}} = R \cdot \dfrac{{{{\left( {1 + i} \right)}^n} - 1}}{i}$

Rate (Rentenrechnung)

Steigung (Prozentrechnung)

Verhältnisgrößen

Bei manchen Fragestellungen ist ein Vergleich aussagekräftiger, wenn man die zu vergleichenden Größen zu deren „Anteil am Ganzen“ in Relation setzt. Der Vergleich von Anteilen erfolgt über den Umweg von Verhältnisgrößen wie Prozent, Promille oder Steigung

Prozent
Der Prozentwert gibt den Anteil am Ganzen, dem sogenannten Grundwert in Hundertstel an. 1% ist ein Hundertstel des Grundwerts.
Promille
Der Promillewert gibt den Anteil am Ganzen, dem sogenannten Grundwert, in Tausendstel an. 1‰ ist ein Tausendstel des Grundwerts.
Steigung
Die Steigung s (einer Straße) gibt das Verhältnis des vertikalen Höhenunterschieds v, zur horizontal zugrunde liegenden Strecke h an.

Beispiel:
z.B.: Ein Schulausflug kostet 50€ je Schüler. Eine Mutter verdient 1.000 € / Monat, eine andere Mutter verdient 2.000 € / Monat.

Absolut kostet der Ausflug zwar jeder Mutter gleich viel (immer 50 €)
In Anteilen am Einkommen gibt es aber einen wesentlichen Unterschied
- für die Mutter mit 1.000 € / Monat bedeuten 50 € eine Ausgabe von 5% ihres Monatseinkommens,
- für die andere Mutter bedeuten 50 € nur 2,5% ihres Monatseinkommen, d.h. ihre finanzielle Belastung ist nur halb so groß, wie die der 1. Mutter

Prozentrechnung

Bei der Prozentrechnung legt man fest, dass dem Grundwert hundert Prozent entspricht. So kann man verschiedene Prozentwerte mit einander vergleichen. Das Prozent-Symbol % ist gleichbedeutend mit einem Bruch in dessen Zähler der Prozentwert steht und in dessen Nenner der Grundwert steht. Multipliziert man diesen Quotienten mit 100% so erhält man den Prozentsatz.

${\text{Prozentsatz = }}\dfrac{{{\text{Prozentwert}}}}{{{\text{Grundwert}}}} \cdot 100\% $

Prozentsatz	Prozentualer Anteil vom Prozentwert am Grundwert. Die Einheit ist %
Prozentwert	Absoluter Anteil am Grundwert; Der Wert der mit dem Grundwert verglichen wird. Die Einheit ist die gleiche wie die vom Grundwert
Grundwert	Das Ganze; Der Wert mit dem verglichen wird. Der Grundwert entspricht immer 100%; Die Einheit ist die gleiche wie die vom Prozentwert

Dass der Zahlenwert vom Prozentsatz ungleich dem Zahlenwert vom Prozentwert sein kann, veranschaulicht das folgende Beispiel:

Beispiel
In einer 1. Lieferung von 72 Bauteilen sind 28 Bauteile defekt. In einer 2. Lieferung von 70 Bauteilen sind 27 Bauteile defekt. Welche Lieferung hat eine geringere Fehlerrate?

1. Lieferung:
$\dfrac{{28}}{{72}} \cdot 100\% = 38,88\% $
28 Teile von einem Ganzen, welches 72 Teile umfasst, entspricht einer Fehlerrate von 38,88%
Prozentsatz=38,8%; Prozentwert=28 Bauteile; Grundwert=72 Bauteile

2. Lieferung:
$\dfrac{{27}}{{70}} \cdot 100\% = 38,57\% $
27 Teile von einem Ganzen, welches 70 Teile umfasst, entspricht einer Fehlerrate von 38,57%
Prozentsatz=38,57%; Prozentwert=27 Bauteile; Grundwert=70 Bauteile

→ Die 2. Lieferung hat eine geringere Fehlerrate

Promillerechnung

Bei der Promillerechnung legt man fest, dass dem Grundwert tausend Promille entspricht. So kann man verschiedene Promillewerte mit einander vergleichen. Das Promille-Symbol ‰ ist gleichbedeutend mit einem Bruch in dessen Zähler der Promillewert steht und in dessen Nenner der Grundwert steht. Multipliziert man diesen Quotienten mit 1000‰ so erhält man den Promillesatz.

${\text{Promillesatz = }}\dfrac{{{\text{Promillewert}}}}{{{\text{Grundwert}}}} \cdot 1000 ‰$

Umwandlung Prozent in Bruch

Um einen Prozentsatz in einen Bruch umzuwandeln, schreibt man den Prozentsatz - aber ohne dem %-Symbol - in den Nenner eines Bruchs, dessen Zähler 100 ist.

Beispiel
$7\% \buildrel \wedge \over = \dfrac{7}{{100}}$

Umwandlung Bruch in Prozent

Um einen Bruch in einen Prozentsatz umzuwandeln, dividiert man den Zähler durch den Nenner und multipliziert anschließend mit 100%

Beispiel
$\dfrac{{28}}{{72}} \cdot 100\% = 38,8\% $

Umwandlung Prozent in Dezimalzahl

Um einen Prozentsatz in eine Dezimalzahl umzuwandeln, schreibt man den Prozentsatz ohne dem Prozentzeichen als Hundertstel an.

Beispiel
$17\% \buildrel \wedge \over = 0,17$

Umwandlung Dezimalzahl in Prozent

Um eine Dezimalzahl in einen Prozentsatz umzuwandeln, multipliziert man die Dezimalzahl mit 100%

Beispiel
$1,567 \buildrel \wedge \over = 1,567 \cdot 100\% = 156,7\% $

Verhältnisgrößen

Promillerechnung

Prozentrechnung

Umwandlung Bruch in Prozent

Umwandlung Prozent in Dezimalzahl

Umwandlung Dezimalzahl in Prozent

Prozentsatz

Prozentwert

Grundwert

Umwandlung Prozent in Bruch

statische Investitionsrechnung

Investitionsrechnung

Verfahren, um im Vorfeld einer Investition (Anschaffung von Gegenständen des Anlagevermögens unter Einsatz von freiem Kapital) deren wirtschaftlichen Erfolg zu bewerten. Man unterscheidet zwischen statischen und dynamischen Verfahren.

Statische Verfahren der Investitionsrechnung

Die statische Investitionsrechnung dient der Bewertung von geplanten Investitionen in kurzen Zeiträumen, ohne der Berücksichtigung von Zinseffekten und ohne der Berücksichtigung von Zahlungszeitpunkten. Man unterscheidet in

Kostenvergleichsrechnung
Gewinnvergleichsrechnung
Rentabilitätsrechnung
Return on Investment = RoI
Amortisationsrechnung (Pay-off-Period)

Kostenvergleichsrechnung

Bei der Kostenvergleichsrechnung vergleicht man die investitionsbedingten Kosten pro Wirtschaftsperiode, um anschließend die kostengünstigste Alternative wählen zu können.

Gewinnvergleichsrechnung

Bei der Gewinnvergleichsrechnung vergleicht man die investitionsbedingten Kosten und die zu erwartenden Gewinne pro Wirtschaftsperiode um anschließend die gewinnmaximale Alternative wählen zu können.

Rentabilitätsrechnung

Bei der Rentabilitätsrechnung berechnet / vergleicht man die Renditen von alternativen Investitionen.

$R = \dfrac{{\left( {{\rm{Gewinn + Zinsen}}} \right)}}{{{\rm{Anschaffungskosten}}}} \cdot 100$

R	Gesamtkapitalrentabilität

Return on Investment

Der Return on Investment (RoI) sagt aus, zu wie viel Prozent das eingesetzte Kapital (Gesamtkapital, investiertes Kapital) in Form von Gewinnen zurückgeflossen ist. Es handelt sich um die Berechnung der Gesamtkapitalrentabilität ohne Berücksichtigung der kalkulatorischen Zinsen.

$\begin{array}{l} {\rm{RoI}} = {\rm{Umsatzrendite}} \cdot {\rm{Kapitalumschlag}} = \dfrac{{{\rm{Gewinn}}}}{{{\rm{Nettoumsatz}}}} \cdot 100 \cdot \dfrac{{{\rm{Nettoumsatz}}}}{{{\rm{Gesamtkapital}}}}\\ RoI = \dfrac{{{\rm{Gewinn}}}}{{{\rm{Gesamtkapital}}}} \cdot 100 \end{array}$

RoI	Return on Invest

Amortisationsrechnung

Bei der Amortisationsrechnung untersucht man die Zeitdauer (Amortisationsdauer, Pay-off-Period), bis das eingesetzte Kapital wieder zurück in das Unternehmen geflossen ist. Die Investition hat sich amortisiert, sobald die Erlöse die Anschaffungskosten und die laufenden Betriebskosten decken. Sie beantwortet die Frage nach der Kapitalbindungsdauer bis die Refinanzierung der Anschaffungskosten erfolgt ist.

${\text{Amortisationsdauer = }}\dfrac{{{\text{Anschaffungskosten}}}}{{{\text{durchschnittlicher Rückfluss pro Zeiteinheit}}}}$

Dynamische Verfahren der Investitionsrechnung

Die dynamische Investitionsrechnung dient der Bewertung von geplanten Investitionen in längeren Zeiträumen unter Berücksichtigung von Zinseffekten und Zahlungszeitpunkten. Man unterscheidet in:

Kapitalwertmethode
Methode vom internen Zinssatz
Methode vom modifizierten internen Zinssatz
Annuitätenmethode

Kapitalwertmethode

Bei der Kapitalwertmethode werden unterschiedliche zukünftige Zahlungsströme durch Abzinsung auf den Zeitpunkt des Beginns der Investition vergleichbar gemacht. Der Kapitalwert C₀ ist der Wert des gesamten Gewinns einer Investition, abgezinst auf den Zeitpunkt der Investition. Eine Investition ist rentabel, wenn der Kapitalwert positiv ist, wenn also der Barwert der Einnahmen größer ist, als der Barwert der Ausgaben.

${C_0} = \left[ {\dfrac{{{R_1}}}{{\left( {1 + i} \right)}} + \dfrac{{{R_2}}}{{{{\left( {1 + i} \right)}^2}}} + ... + \dfrac{{{R_n}}}{{{{\left( {1 + i} \right)}^n}}}} \right] - {A_0}$

C₀	Kapitalwert = Barwert der Rückflüsse minus Investition
A₀	Anschaffungskosten
R_t	Überschuss im Jahr t (Einnahmen - Ausgaben)
n	Nutzungsdauer in Jahren
i	kalkulatorischer Zinssatz, fiktive Verzinsung von im Unternehmen zinslos eingesetztem Eigenkapital

Investitionsvorhaben deren Kapitalwert positiv ist, erzielen eine Rendite, welche höher ist, als der Kalkulationszinsatz und sind daher für den Investor vorteilhaft. Bei einem negativen Kapitalwert bringt die betrachtete Investition hingegen keine Verzinsung in Höhe vom Kalkulationszinsatz.

Methode vom internen Zinssatz

Die Methode vom internen Zinssatz dient der Beantwortung der Frage, welcher Zinssatz beim Vergleich von Einnahmen und Ausgaben bewirkt, dass die abgezinsten Rückflüsse gleich hoch sind wie die Investition. Es wird also derjenige Zinssatz ermittelt, bei dem der Kapitalwert zu Null wird. Das ist nämlich jener Zinssatz, zu dem das im Investment gebundene Kapital tatsächlich verzinst wird. Die Investition ist dann wirtschaftlich, wenn der so ermittelte interne Zinssatz höher ist, als ein durch ein alternatives Investment erzielbarer Zinssatz (z.B. Veranlagung bei einer Bank) zum Zeitpunkt des Investments.

$\left[ {\dfrac{{{R_1}}}{{\left( {1 + {i_{{\text{int}}}}} \right)}} + \dfrac{{{R_2}}}{{{{\left( {1 + {i_{{\text{int}}}}} \right)}^2}}} + ... + \dfrac{{{R_n}}}{{{{\left( {1 + {i_{{\text{int}}}}} \right)}^n}}}} \right] - {A_0} = 0$

i_int	Wiederveranlagungszinssatz
R_t	Überschuss im Jahr t (Einnahmen - Ausgaben)
A₀	Anschaffungskosten

Der interne Zinssatz ist jener Diskontierungssatz, bei dem sich für eine Investition ein Kapitalwert von Null errechnet. Er entspricht daher der Nullstelle der Kapitalwertkurve, wenn man diese über den Zinssätzen aufträgt.

Methode vom modifizierten internen Zinssatz

Bei der Methode vom modifizierten internen Zinssatz zinst man die Einnahmenüberschüsse auf das Ende der Nutzungsdauer auf und berechnet unter Berücksichtigung vom Anschaffungswert die Verzinsung.

$\eqalign{ & {A_0} \cdot {\left( {1 + {i_{\bmod }}} \right)^n} = E \cr & E = {R_1} \cdot {\left( {1 + {i_W}} \right)^{n - 1}} + {R_2} \cdot {\left( {1 + {i_W}} \right)^{n - 2}} + ... + {R_{n - 1}} \cdot \left( {1 + {i_W}} \right) + {R_n} \cr} $

i_W	Wiederveranlagungszinssatz

Annuitätenmethode

Eine Investition ist dann wirtschaftlich, wenn die Annuität größer oder gleich Null ist. Dabei wird ein bereits vorab ermittelter Kapitalwert C₀ unter Verwendung des Annuitätenfaktors ANF in Annuitäten a umgerechnet. (Annuitäten sind gleich hohe Zahlungen über einen bestimmten Zeitraum)

$\eqalign{ & a = {C_0} \cdot AN{F_{n.i}} \cr & AN{F_{n,i}} = \dfrac{{{{\left( {1 + i} \right)}^n} \cdot i}}{{{{\left( {1 + i} \right)}^n} - 1}} = \dfrac{{{q^n} \cdot \left( {q - 1} \right)}}{{{q^n} - 1}} \cr} $

Investitionsrechnung

dynamische Investitionsrechnung

Kostenvergleichsrechnung

Gewinnvergleichsrechnung

Return on Investment

Amortisationsrechnung

Kapitalwertmethode

Interner Zinssatz

Modifizierter interner Zinssatz

Annuitätenmethode

Rentabilitätsrechnung

Kalkulatorischer Zinssatz

Wiederveranlagungszinssatz

Lösungsweg Beat the Clock

Aufgaben

Aufgabe 244

Kosten- und Preistheorie

Eine Kostenfunktion laute: $C\left( x \right) = 4x + 2000$. Die momentane Produktionsmenge x beträgt 10.000 ME.

Aufgabenstellung:

1. Teilaufgabe: Berechne die durchschnittlichen Stückkosten $\overline C $
2. Teilaufgabe: Berechne die marginalen Kosten $C'$

Durchschnittliche Stückkosten

Marginalkosten

Lösungsweg Beat the Clock

Aufgabe 223

Kosten- und Preistheorie

Anwendung aus der Wirtschaft: Für die Produktion eines Wirtschaftsguts ist die Kostenfunktion wie folgt gegeben

$K\left( x \right) = {x^3} - 30{x^2} + 400x + 512$

1. Teilaufgabe: Berechne die Fixkosten K(0) in Euro
2. Teilaufgabe: Berechne die Stückkosten
3. Teilaufgabe: Berechne das langfristige Betriebsoptimum
4. Teilaufgabe: Berechne die gesamten Produktionskosten beim langfristigen Betriebsoptimum
5. Teilaufgabe: Wie viel kostet durchschnittlich ein Stück im langfristigen Betriebsoptimum?
6. Teilaufgabe: Berechne die Stückkosten im langfristigen Betriebsoptimum
7. Teilaufgabe: Berechne die Grenzkosten im langfristigen Betriebsoptimum
8. Teilaufgabe: Wie stark steigen die Kosten, wenn ein zusätzliches Stück über das langfristige Betriebsoptimum hinaus produziert wird?
9. Teilaufgabe: Berechne die gesamten Produktionskosten , wenn (Betriebsoptimum + 1 Stück) erzeugt werden
10. Teilaufgabe: Berechne das kurzfristige Betriebsoptimum, wenn man also auf die Deckung der Fixkosten verzichtet
11. Teilaufgabe: Wie viel kostet ein Stück im kurzfristigen Betriebsoptimum, wenn man auf die Deckung der Fixkosten verzichtet?

Lösungsweg Beat the Clock

Aufgabe 233

Kosten- und Preistheorie

Die nicht-lineare Kostenfunktion in € eines Betriebs lautet:

$K\left( x \right) = 3{x^2} + 50x + 4800$

Ermittle

1. Teilaufgabe: die Stückkostenfunktion k(x)
2. Teilaufgabe: die Grenzkostenfunktion K‘(x)
3. Teilaufgabe: das Betriebsoptimum k‘(0)
4. Teilaufgabe: die minimalen Stückkosten

Marktpreis ungleich Gleichgewichtspreis

Lösungsweg

Aufgabe 256

Gleichgewichtspreis und Auswirkungen einer Preisobergrenze, die über dem Gleichgewichtspreis liegt

Der Markt für ein Produkt ist durch folgende Nachfrage- und Angebotsfunktionen bestimmt:

Q_d= 1150-o,5p
Q_s = 1100+2p

p	Preis in Euro
Q	Menge in Stück

1. Teilaufgabe

Berechnen Sie den Preis und die Menge im Gleichgewicht.

Angenommen, ein Regulator setzt eine Preisobergrenze von € 600 pro ME fest.

2. Teilaufgabe
Berechnen Sie die angebotenen und nachgefragten Mengen. Was ist Ihre Beobachtung? Ist die Preisobergrenze bindend?

Gleichgewichtspreis

Preisobergrenze

Grundkompetenzen

symbolische und numerische Berechnung mathematischer Aufgabenstellungen

In dieser Mikro-Lerneinheit lernst du, Computer Algebra Systeme für die symbolische oder numerische Berechnung mathematischer Aufgabenstellung kennen, speziell die Programme „Mathematica“, „Maple“ und „MATLAB“. Wir stellen „Python“ und „R“ als beliebte Programmiersprechen für numerische Berechnungen vor. Weiters stellen wir „GeoGebra“ und „Wolfram Alpha“ als beliebte CAS, für den ad-hoc Einsatz vor.

Wir erklären Stärken und Schwächen von keyword-basierter, wissensbasierer und sprachmodelbasierter Recherche speziell im MINT-Umfeld und weisen auf die Gefahren durch die Monopolisierung von Wissen hin.

2023 ist das Jahr in dem generative KI zu einer disruptiven Technologie wird. Wir gehen daher kurz auf die Historie der vier bisherigen industriellen Revolutionen ein, um auf Grund vergangener Umbrüche zu verstehen, ob es einen speziellen Grund zur Furcht vor den Auswirkungen der neuen Technologie gibt.

Mathematik Lernen mit Computer Algebra Systemen, Suchmaschinen und KI basierten Sprachmodellen

Mathematik Lernen mit Computer Algebra Systemen

Computer-Algebra-Systeme (CAS) sind Softwareprogramme, welche die symbolische oder numerische Berechnung mathematischer Aufgabenstellungen ermöglichen.

Bei der symbolischen Berechnung werden mathematische Ausdrücke so umgeformt oder berechnet bis ein exaktes allgemeingültiges Resultat vorliegt, ohne dass dabei für die Variablen konkrete Werte eingesetzt werden.
Bei der numerischen Berechnung wird die (näherungsweise) Lösung eines mathematischen Ausdrucks durch schrittweise Annäherung anhand spezifischer numerischer Werte iterativ ermittelt. Es werden dabei konkrete Zahlen für die Variablen eingesetzt und die resultierenden Ausdrücke ausgewertet. Auf die sehr rechenintensive numerische Berechnung greift man zurück, wenn eine symbolische Berechnung nicht sinnvoll möglich ist.

Beliebte Computer-Algebra-Systeme

Mathematica wurde von Wolfram Research entwickelt und ist ein umfassendes CAS, das eine breite Palette an mathematischen und rechnerischen Fähigkeiten speziell für symbolische Berechnungen bietet.
Maple ist ein leistungsstarkes CAS, das von Maplesoft entwickelt wurde. Es bietet umfangreiche Werkzeuge für symbolische Berechnungen, mathematische Visualisierung und Programmierung.
MATLAB ist in erster Linie als numerische Rechenumgebung bekannt, umfasst aber über seine Symbolic Math Toolbox auch Funktionen für symbolische Berechnungen. Es kann durch Simulink ergänzt werden, welches speziell zur Modellierung von technischen, physikalischen oder finanzmathematischen Aufgabenstellungen optimiert ist.

Obige Computer-Algebra-Systeme werden in verschiedenen Bereichen eingesetzt, darunter Mathematik, Physik, Ingenieurwesen, Informatik und Bildung. Sie helfen Forschern, Wissenschaftlern, Ingenieuren und Studenten bei der Durchführung komplexer Berechnungen, der Erforschung mathematischer Konzepte und der Lösung komplizierter mathematischer Probleme.

Bei den oben genannten CAS handelt es sich um kommerzielle Software deren Vollversion auf Grund der Anschaffungskosten für Nutzer mit begrenzten Budgets kaum zugänglich sind. Die Software ist nicht für ad-hoc Einsätze gedacht, da sie eine umfangreiche Einarbeitung erfordern.

Beliebte Programmiersprachen für numerische Berechnungen

Python als eine weit verbreitete und lizenzlos zugängliche Programmiersprache, die sich leicht erlernen und für numerische Berechnungen verwenden lässt, speziell um große Datenmengen zu sammeln, zu strukturieren, zu analysieren und zu visualisieren. NumPy- und SciPy-Bibliotheken bieten einen umfangreichen Satz numerischer Funktionen und Algorithmen, einschließlich linearer Algebra, Optimierung, Interpolation und mehr. Bei rechenintensiven Aufgaben kann Python im Vergleich zu kompilierten Sprachen langsamer sein. Obwohl NumPy und SciPy leistungsstark sind, bieten sie möglicherweise nicht das gleiche Leistungsniveau wie spezialisierte numerische CAS-Systeme
R ist eine beliebte Sprache für statistische Berechnungen und Datenanalysen mit umfangreichen Paketen und Bibliotheken. Es bietet eine breite Palette an Statistikfunktionen und Visualisierungsmöglichkeiten. R verfügt über eine starke Community und eine Fülle an Ressourcen zum Lernen und zur Unterstützung. Für allgemeine numerische Berechnungen, die über Statistik und Datenanalyse hinausgehen, ist R möglicherweise nicht so gut geeignet wie spezialisierte numerische CAS-Systeme.

Beliebte Computer-Algebra-Systeme für ad-hoc Einsätze

GeoGebra ist vor allem als dynamische Mathematiksoftware bekannt, die verschiedene mathematische Darstellungen integriert, darunter Geometrie, Algebra, Analysis und Statistik. Es bietet Benutzern eine Plattform zum Erstellen und Bearbeiten geometrischer Objekte, zum Plotten von Funktionen und zum Durchführen symbolischer Berechnungen mithilfe des integrierten CAS. GeoGebra legt Wert auf interaktives Lernen und Visualisierung und ist daher bei Pädagogen und Studenten beliebt.
Mit den CAS-Funktionen von GeoGebra können Benutzer symbolische Berechnungen durchführen, beispielsweise Ausdrücke vereinfachen, Gleichungen lösen, Ableitungen finden und Integrale auswerten. Allerdings ist die CAS-Funktionalität im Vergleich zu dedizierten CAS-Tools eingeschränkt. Auch die Möglichkeiten komplexe numerische Berechnungen durchzuführen können auf Grund der zugrundeliegenden Spezialisierung nicht mit Wolfram Alpha oder Wolfram Mathematik mithalten. GeoGebra‘s CAS ist in eine umfassenderen mathematischen Visualisierungs- und Explorationsfunktionen integriert und ermöglicht es Benutzern, symbolische Berechnungen mit dynamischen geometrischen Konstruktionen und Visualisierungen zu verbinden.
Wolfram Alpha ist eine rechnergestützte Wissensmaschine, die darauf ausgelegt ist, Fragen zu beantworten und detaillierte Informationen zu einem breiten Themenspektrum bereitzustellen. Es beinhaltet ein leistungsstarkes CAS, das über traditionelle mathematische Berechnungen hinausgeht und ein breites Spektrum an Bereichen abdeckt, darunter Mathematik, Naturwissenschaften, Ingenieurwesen, Finanzen, Linguistik und mehr. Wolfram Alpha kann komplexe mathematische Operationen verarbeiten, sein Anwendungsbereich geht jedoch weit über die reine Mathematik hinaus.
Das CAS von Wolfram Alpha kann anspruchsvolle Berechnungen durchführen, die symbolische Manipulation, Gleichungslösung, Analysis, lineare Algebra, Statistik und mehr umfassen. Es bietet umfassendes integriertes Wissen und Algorithmen, die es ihm ermöglichen, komplexe Probleme in verschiedenen Disziplinen zu lösen. Im Gegensatz zu GeoGebra konzentriert sich Wolfram Alpha in erster Linie auf die Bereitstellung detaillierter Antworten und Erklärungen auf der Grundlage von Benutzeranfragen und nicht auf interaktive Erkundungen oder dynamische Visualisierungen.

Zusammenfassend lässt sich sagen, dass sowohl GeoGebra als auch Wolfram Alpha CAS-Funktionen bieten, GeoGebra sein CAS jedoch in eine umfassendere interaktive Mathematiksoftware integriert und dabei den Schwerpunkt auf visuelles Erkunden und Lernen legt. Im Gegensatz dazu ist Wolfram Alpha eine umfassende rechnerische Wissensmaschine, die neben ihren vielen Funktionen auch ein robustes CAS umfasst und als Werkzeug zum Erhalten detaillierter Antworten und Erklärungen in zahlreichen Bereichen dient.

Mathematik Lernen mit Hilfe von Suchmaschinen

Lernen mit Keyword basierten Suchmaschinen mittels organischer Treffer

Keyword basierte Suchmaschinen wie Google, Bing, Yahoo oder Ecosia durchforsten mit Hilfe eines Web-Crawlers zyklisch die ihnen zugänglichen Teile vom Internet und erstellen einen Index, der für jedes Schlüsselwort die relevanten Webseiten auflistet. Da Google 2022 einen Anteil von 95% der Suchanfragen im deutschen Sprachraum hatte, werden wir uns im Folgenden auf die Google Terminologie beschränken.

Sucht ein Nutzer der Suchmaschine nach einem bestimmten Schlüsselwort – z.B.: „Binomialkoeffizient“, werden auf der SERP (Search Engine Result Page) nach einem (geheimen) Ranking-Algorithmus aus dem Index die blauen Links auf die relevanten Webseiten ausgegeben. Man spricht dabei von organischen Suchtreffern. Klickt der Suchende den Link an, landet er auf der entsprechenden Website eines Inhalteanbieters irgendwo auf der Welt. Da mehr als ein Treffer angeboten wird, bleibt die Meinungsvielfalt gewahrt.

2012 haben die keyword-basierten Suchmaschinen bezüglich der Strukturierung von Daten aufgerüstet. Oberhalb der organischen Treffer gibt Google auf der SERP, abgesehen von bezahlter Werbung, mehrere Boxen aus, deren Inhalt von Google generiert wird. D.h. Google verlinkt nicht mehr auf externe Inhalte, sondern generiert die Inhalte selbst. Die Quellen werden möglichst unauffällig angegeben und es ist nicht die Absicht von Google, dass Nutzer zum eigentlichen Inhalteanbieter weitersurft. Der Nutzer bleibt im Ökosystem von Google und es fällt kaum mehr Traffic für externe Webseiten an, die Meinungsvielfalt bleibt auf der Strecke.

Direkt Answer, beantwortet einfache Suchanfragen, die über ein gigantischem Suchvolumen verfügen direkt, z.B.: "km Meilen". Der Nutzer bleibt im Google Ökosystem.
Knowledge Panel bzw. Informationen aus dem Knowledge Graph, damit werden die auf verschiedenen Webseiten gefunden Informationen automatisch von Google zusammengefasst. Die Nutzer erhalten einen schnellen Überblick über allgemeine Themen, ohne auf externe Webseiten zu surfen. Hier werden ab 2023 wohl KI generierte Texte den Nutzer noch stärker zum Verweilen im Google Ökosystem verleiten.
Featured Snippets, damit werden Auszüge aus einer durch Favicon und URL grundsätzlich identifizierbaren externen Webseite in Form einer Antwort auf die sehr konkrete Suchanfrage zusammengefasst. Trafficstarke Featured Snippets bringen viel organischen Traffic auf die Website des Inhalte-Erstellers. Hier werden ab 2023 wohl KI generierte Texte den Nutzer noch stärker zum Verweilen im Google Ökosystem verleiten.
People Also Ask - Boxen, damit werden ähnliche Fragen beantwortet, die für den Nutzer ohne dessen Zutun die Suchanfrage verfeinern oder leicht abwandeln.

D.h. der Nutzer erhält eine erste oberflächliche und natürlichsprachige Antwort auf seine Suchabfrage bereits direkt durch Google, und zwar ganz oben auf der Trefferseite, noch vor den organischen Treffern. Der Nutzer "erspart" es sich dadurch auf die der Antwort zugrunde liegende Website zu surfen, was den Webseiten, welche die Inhalte aufwendig erstellt haben, um die Besucher und die damit verbundenen Vermarktungsmöglichkeiten bringt. An dieser Stelle sei vor einem Informationsmonopol durch Google, Bing, Yandex und Baidu gewernt!

Der Betrieb eines Indexers ist extrem teuer, daher gibt es weltweit nur 4 große Suchindizes (Google und Bing aus den USA; Yandex aus Russland bzw. den Niederlanden und Baidu aus China) die auf Grund ihrer Dominanz das Potential haben, die gesellschaftliche Willensbildung zu beeinflussen. Daher fördert die EU derzeit den Aufbau von einem europäischen Suchindex.

Das Training einer KI und deren Betrieb in einem Rechenzentrum sind ebenfalls extrem teuer, sodass es auch hier vor einem Informationsmonopol gewarnt werden muss.

Lernen mit wissensbasierten semantischen Suchmaschinen

Wissensbasierte semantische Suchmaschinen wie Wolfram Alpha suchen nicht nach einzelnen Schlüsselwörtern, sondern nach deren Bedeutung („Notable people born in Vienna“ wird zerlegt in „City=Vienna“ & „notable people born in city“) und nützten dabei durch „Data Curators“ händisch ausgewählte vertrauenswürdige Datenquellen, etwa von Statistischen Zentralämtern. Es kommt kein Indexer zum Einsatz.

Als Ausgabe erhält der Nutzer keine Links auf die Datenquellen wie bei Google, aber auch keinen Text in natürlicher Sprache wie bei ChatGPT, sondern ein Set an strukturierten Daten.

Bei der Suchfunktionalität von Wolfram Alpha handelt es sich um ein wissensbasiertes System, welches formalisierte Regeln und Logiken verwendet, um Fragen faktenbasiert zu beantworten. Der Nachteil dieses Ansatzes ist, dass die Suchmaschine komplex formulierte sprachliche Anfragen nicht verarbeiten kann und nur auf Fragen aus ausgewählten Wissenschaften eine Antwort liefern kann.

Mathematik Lernen mit KI basierten Sprachmodellen

KI-basierte Sprachmodelle wie ChatGPT von OpenAI oder Gemini (ehemals Bard) von Google wurden vorab mit gigantischen Textmengen trainiert. Sie nützen neuronale Netze, um Beziehungen zwischen einzelnen Worten und Texten zu erfassen und darauf aufbauend, basierend auf Wahrscheinlichkeiten und Modellen von Wortabfolgen, neue Texte zu erzeugen und diese dann in natürlicher Sprache auszugeben.

Während ChatGPT einen Text schreibt, evaluiert es auf der Basis eines komplexen Sprachmodells mit Milliarden an Parametern vor jedem neuen Wort, welche Wörter mit der größten Wahrscheinlichkeit auf den bisher geschriebenen Satzteil folgen sollten, um letztlich eine sinnvolle Abfolge von Sätzen zu ergeben.

Für mathematische Anwendungen bedeutet dies, dass ChatGPT die Summe aus 2+3 nicht eigenständig errechnen kann, sondern darauf angewiesen ist, das Resultat in den Trainingsdaten zu finden. Ist das nicht der Fall, fängt ChatGPT an zu raten!

Andererseits kann ChatGPT mathematisches Grundlagenwissen, welches in den Trainingsdaten umfangreich enthalten ist, sehr gut an die konkrete Fragestellung des Nutzers in dessen natürlicher Sprache angepasst wiedergeben. Z.B.: „Wobei nützt mir der Binomialkoeffizient?“

Durch die Sprachmodelle werden Features Snippets, Knowledge Panel und People Also Ask – Boxen obsolet.
Obwohl die Sprachmodelle mit Hilfe von Büchern sowie wissenschaftlichen Arbeiten trainiert wurden und auch auf den Indexer von schlüsselwortbasierten Suchmaschinen (Google, Bing,..) zugreifen können, bleibt dem Nutzer die Herkunft der Daten verborgen.

In den Trainingstexten liegen also zugleich die Stärken und Schwächen der KI-basierten ChatBots. Sind die dort enthaltenen Daten falsch oder trendig (z.b. vorurteilsbehaftet) so schlägt dies auf die Antworten durch.

Hinweis auf die Gefahr der Monopolisierung von Wissen

So begeistert Lernende über diesen Durchbruch bei Recherchetools auch sein mögen, so sei dennoch vor Missbrauch gewarnt:

Im Oktober 2022 hat der Tech-Milliardär Elon Musk Twitter – nunmehr X – um unvorstellbare 40 Milliarden Euro gekauft und nach seinen ganz persönlichen Vorstellungen dieses weltumspannende Informationsnetzwerk umgestaltet.

Im September 2023 kamen Gerüchte auf, Elon Musk als Gründer und CEO von SpaceX, dem Mutterunternehmen von Starlink, hätte persönlich angeordnet das Satellitenkommunikationsnetzwerk in der Umgebung der russisch besetzen Krim Halbinsel abzuschalten, um einen potenziellen Angriff der Ukraine auf die dort stationierte russische Flotte zu verhindern.

Diese beiden Beispiele zeigen, welchen realen Einfluss bereits heute ein einzelner Mensch auf die freie Meinungsbildung und auf den Verlauf eines Krieges hat.

Stellen wir uns vor, ein anderer Tech-Milliardär hatte vergleichbaren Einfluss auf die Trainingsdaten von ChatGPT. Stellen wir uns weiter vor, er würde beispielsweise daran glauben, dass Gott die Erde wörtlich in sieben Tagen erschaffen hat und damit Darwins Theorie von der Evolution negieren. Könnte er diese Meinung auf Grund seines Aktenanteils durchsetzen und Darwins Theorie fortan nicht mehr zu den Traingsdaten gehören, so würde auch ChatGPT diese fragwürdige Schöpfungstheorie mit Nachdruck gegenüber seinen Nutzern vertreten.

Risiko systematischer Fehlinformation bei Suchindex basierte Recherche beim Lernen:

Die Nutzung von schlüsselwortbasierten Suchmaschinen wie Google zur Informationsbeschaffung beim Lernen ist uns heute bestens vertraut. Der Nutzen ist unbestritten, die größte Gefahr liegt in der weltweiten Konzentration des Angebots auf nur 4 Betreiber von Suchindizessen (Google, Bing, Yandex und Baidu).

Bislang gibt der Nutzer einen Suchbegriff als Anfrage ein und erhält als Antwort eine Liste mit relevanten Links. Aus dieser Vielzahl an möglichen Antworten sucht er sich dann die passende Antwort selbst heraus. Auf Grund der Impressumspflicht weiß der Nutzer, von welchem Menschen die Antwort stammt.

Risiko systematischer Fehlinformation bei Sprachmodell basierte Recherche beim Lernen:

Seit der Einführung von ChatGPT, dem Sprachmodell von Open AI, basiert die Anfrage nicht mehr auf einem Schlüsselwort oder Satzteil, sondern auf mehreren ausformulierten Sätzen, mit denen die Such-Intention genau abgegrenzt werden kann. Die Antwort ist aber keine Vielzahl an Verweisen auf individuelle Websites, sondern ein eloquent ausformulierter Text aus mehreren Sätzen bzw. Absätzen, jedoch ohne Bezug auf die zugrunde liegenden Quellen. Der Nutzer kann auch um eine Korrektur, Vereinfachung oder Vertiefung der Antwort bitten und erhält so, wie bei einem Dialog zwischen Menschen, eine kontextbezogene Antwort. Super!

Weniger Super: Die Antwort ist allerdings nicht einmal ein „best-off“ aller (ungenannten) Quellen, sondern – man lasse sich das auf der Zunge zergehen – „Jene Abfolge von Worten, mit der höchsten statistischen Wahrscheinlichkeit, für eine sinnvoll formulierte Antwort“. ChatGPT kann 1+1 nicht (!) berechnen, es kann nur auf Grund von Trainingsdaten sagen, dass es statistisch wahrscheinlich ist, dass „1+1=2“ gilt. Sind die Trainingsdaten zudem nicht objektiv, sondern tendenziell (rassistisch, frauenfeindlich, politisch geschönt, verschwörerisch, …), so ist die Antwort ebenfalls nicht objektiv. Bei der indexbasierten Suche hingegen deckt die Liste an Links auf verschiedene Websites ein breites Meinungsspektrum ab.

Kommen Informationen in den Trainingsdaten nicht vor, so fabuliert ChatGPT. Sprachmodelle können grundsätzlich und für alle Zukunft gar nicht entscheiden, ob ihre Antwort richtig ist oder falsch ist, denn sonst müsste die KI bei der Bewertung der Anfrage über mehr Wissen verfügen als bei der Formulierung der Antwort.

Evolutionäre versus revolutionäre Entwicklungen im Bereich von Technologie

Generative KI gilt als eine disruptive Technologie, durch die die Erstellung von Texten, Musik, Bildern und Videos radikal verändert wird, indem menschliche intellektuelle Leistung durch maschinelle Leistung ersetzt wird.

Eine vergleichbare Entwicklung zu den anstehenden Veränderungen zufolge des breiten Einsatzes von KI im Beruf und Alltag, hat es mit dem Ersatz von manueller durch maschinelle Arbeit, also durch die Erfindung der Dampfmaschine, schon einmal gegeben. Zur besseren geschichtlichen Einordnung der aktuellen Herausforderungen, denen wir speziell seit dem Jahr 2023 zufolge des lawinenartigen Einsatzes von KI gegenüberstehen, beginnen wir daher mit einem kurzen Rückblick:

Während durch evolutionäre technologische Entwicklungen Produkte im Laufe der Zeit durch inkrementelle Verbesserungen kontinuierlich weiterentwickelt werden und dabei auf vertrauten Vorgängermodellen aufbauen (das neueste Automodell stellt eine Verbesserung des Vorgängermodells dar, das schon seinerseits eine Verbesserung des Vorgängermodells darstellte, …), führen revolutionäre Entwicklungen zu radikalen Veränderungen, welche die bestehende Paradigmen in Frage stellen und völlig neue Möglichkeiten und Risken schaffen.

Revolutionäre Entwicklungen stellen einen raschen dramatischen Umbruch dar und haben weitreichende Auswirkungen auf Wirtschaft, Technologie, Arbeitsmarkt und Gesellschaft. Die Weiterentwicklung von Innovationen zufolge revolutionärer technologischer Entwicklungen haben einen exponentiellen Charakter. Sie haben das Potential Produktivität sprunghaft zu steigern und damit punktuellen Wohlstand zu erzeugen, der jedoch oft zu Lasten von breiten Schichten an Erwerbstätigen geht, und neue Einkommensungleichheiten schafft.

Sie sind daher verbunden mit Ängsten vor sozialer und wirtschaftlicher Ungerechtigkeit, denen man durch Regulierung und Politik so entgegenwirken sollte, dass die Vorteile der neuen Technologien einer breiten Bevölkerungsschicht zugutekommen.

KI als General Purpose Technology und die vier bisherigen industriellen Revolutionen

Unter dem Ausdruck „General Purpose Technologies“ fasst man bisherige revolutionäre technologische Fortschritte zusammen, die auf Grund ihrer exponentiellen und globalen technologischen Umbrüche das Potential haben, tiefgreifende und weitreichende Veränderungen in Wirtschaft und Gesellschaft herbeizuführen. Beispiele für derartige General Purpose Technologies sind:

Dampfmaschine: (1770, Watt) Sie prägte die erste industrielle Revolution, in dem sie den Übergang von handwerklicher auf industrielle Produktion ermöglichte. Die Dampfmaschine revolutionierte durch die damit einher gehende Mechanisierung die Landwirtschaft, die produzierende Industrie und das Transportwesen.

Elektrizität: (1882, Edison) Sie prägte die zweite industrielle Revolution, weil elektrischer Strom den Transport und die Nutzung von Energie revolutionierte. Sie ermöglichte kostengünstige Motoren, Beleuchtung und die Fernkommunikation durch Telefon und Radio, wodurch sich der Lebensstandard breiter Bevölkerungsschichten erheblich verbesserte.

Digitalisierung: (1950, IBM bzw. 1990, Berners-Lee) Sie prägte die dritte industrielle Revolution, durch den Übergang von analogen zu digitalen Techniken. Lernende sind nicht mehr darauf angewiesen Bücher physikalisch in die Hand zu bekommen, sondern ganze Bibliotheken sind digital 24/7 verfügbar. Computer, das Internet, HTML-basierte Webbrowser, Keyword basierte Suchmaschinen mit Links auf organische Treffer revolutionierten die Art und Weise wie Menschen und Maschinen Informationen verarbeiteten, bereitstellten und teilten.

Erfolgten die ersten drei industriellen Revolutionen noch mit einem zeitlichen Abstand von jeweils 100 Jahren, erfolgt die vierte industrielle Revolution staccatoartig auf breiter Front und mit exponentieller Geschwindigkeit.

Vernetzung von gigantischen Datenmengen: (2010) Vor allem die Auswertung von Datenmengen, deren Umfang von Menschen nicht mehr erfasst werden kann, begründet die vierte industrielle Revolution: Big Data, IoT (Internet der Dinge), Maschinelles Lernen und darauf aufbauend KI (Künstliche Intelligenz; Englisch: AI), aber auch Augmented bzw. Virtual Reality (erweiterte Realität) und autonomes Fahren sind zu alltäglichen Buzzwords geworden.

Hinzu kommt der signifikante Ersatz von fossiler durch erneuerbare Energie im Rahmen des Kampfs gegen den Klimawandel, sowie der Einsatz von Biotechnologie basierend auf der Genomsequenzierung im Bereich der Medizin.

Computer Algebra Systeme

Mathematica kurz vorgestellt

Maple kurz vorgestellt

MATLAB kurz vorgestellt

Python kurz vorgestellt

R kurz vorgestellt

GeoGeobra kurz vorgestellt

Wolfram Alpha kurz vorgestellt

keyword basierte Suche

wissensbasierte Suche

sprachmodell basierte Suche

Gefahr der Monopolisierung von Wissen

disruptive Technologie

industrielle Revolutionen

Grundlegende Bedienung von GeoGebra

Lektion 1: Grundlegende Bedienung von GeoGebra

In dieser Mikro-Lerneinheit verschaffen wir uns einen Überblick über die wesentlichen Bedienelemente von GeoGebra. Wir lernen die Hauptansichten kennen, die vier ansichtenspezifischen Werkzeugleisten, die Menüleiste, die beiden Eingabezeilen und die virtuelle Tastatur. Klicke die einzelnen Icons mal an und erfahre mehr über die vielfältigen Möglichkeiten des Programms.

Zuerst verschaffst du dir zuerst einen Überblick darüber, welche Aufgabenstellungen mit GeoGebra überhaupt gelöst werden können. Mit welcher Eingabe man dann eine konkrete Aufgabenstellung löst, weiß man - bei häufig wiederkehrenden Aufgabenstellungen - auswendig, oder - bei selteneren Aufgabenstellungen – schaut man in der Dokumentation nach.

Die Hauptansichten

GeoGebra ist ein dynamisches Mathematikprogramm, welches bis zu 5 verschiedene Ansichten auf ein und dasselbe mathematische Objekt (z.B.: die Gleichung einer Geraden $y = f(x) = k \cdot x + d$) liefert. GeoGebra verbindet geometrischen Darstellungen („Grafik“) mit algebraische Ein- bzw. Ausgaben („Algebra“) und ermöglicht Parametervariationen mit Schiebereglern. Zusätzlich verfügt es über ein Computer Algebra System („CAS“), eine rudimentäre Tabellenkalkulation („Tabelle“) und ein Statistikmodul („Wahrscheinlichkeitsrechner“).

In der Grafik-Ansicht kann man geometrische Objekte konstruieren. Parallel dazu erscheint die mathematische Beschreibung in der Algebra-Ansicht.
In der Algebra-Ansicht kann man mathematische Objekte definieren. Parallel dazu erscheint die geometrische Konstruktion in der Grafik-Ansicht.
In der CAS-Ansicht kann man Terme umformen, Gleichungen lösen sowie integrieren und differenzieren.
In der Tabellen-Ansicht kann man Punktpaare zu Listen zusammenfassen um anschließend mit Hilfe der Regression die zugrundeliegende Funktionsgleichung zu ermitteln.
Mit dem Wahrscheinlichkeitsrechner kann man Wahrscheinlichkeits- bzw. Dichtefunktionen und Verteilfunktionen berechnen.

Die Werkzeugleisten

Die Werkzeugleiste von GeoGebra verläuft horizontal am oberen Rand des Fensters. Sie ist zweigeteilt.

Im linken Bereich werden Icons angezeigt, welche Werkzeuge repräsentieren, die abhängig von der jeweiligen Ansicht sind. Klickt man auf eines der Werkzeuge, so werden unterhalb weitere, ähnliche Werkzeuge angezeigt.

Im rechten Bereich werden die Werkzeuge für „Rückgängig“, „Wiederherstellen“ und „Lupe“ angezeigt. Klickst du auf „Lupe“, kommst du automatisch auf die Online-Plattform mit zahlreichen kostenlosen Unterrichtsmaterialien. Zudem kann ganz rechts die Menüleiste ein- bzw. ausgeblendet werden.

Die Gestaltungsleisten

Jede Ansicht (Grafik, Algebra, 3D-Grafik, CAS und Tabelle) verfügt über eine eigne Gestaltungsleiste, mit der verschiedene Grundeinstellungen für

die Ansicht selbst
die in der Ansicht enthaltenen Objekte

verändert werden können.

Ein- und ausblenden kann man die Gestaltungsleiste rechts oben im Fenster der jeweiligen Ansicht.

Gestaltungsleiste der Grafik-Ansicht

Klickt man in der Grafik-Ansicht auf das Icon der Gestaltungsleiste so lassen sich folgende Einstellungen vornehmen:

Achsen anzeigen oder verbergen
Koordinatengitter anzeigen oder verbergen
Standardeinstellungen der Koordinatenachsen wieder herstellen
Punkte an den Ecken der Koordinatengitter fangen
Einstellungen öffnen
Weitere Ansichten einblenden

Klickt man hingegen auf ein bestimmtes Icon der Werkzeugleiste, dann kann man die Eigenschaften (Farbe, Strichstärke, Linienart, Beschriftung,...) eines konkreten Objekts (Punkt, Gerade, Vektor, Kreis,...) verändern.

Sehr nützlich: Wenn man in der Grafik-Ansicht einmal den Überblick verloren hat, wo am Zeichenblatt sich überhaupt Inhalte befinden, kann man in der Gestaltungsleiste mittels dem Haus-Icon und dem Werkzeug mit dem "Dehnen-Pfeil" alle Inhalte sichtbar machen.

Gestaltungsleiste der Algebra-Ansicht

Klickt man in der Algebra-Ansicht auf das Icon der Gestaltungsleiste so lassen sich folgende Einstellungen vornehmen:

Sortierung der Zeilen in der Algebra Ansicht wählen.
- Sortieren nach freien und abhängigen Objekten
- Sortieren nach dem Typ des Objekts (Punkte, Vektoren,...)
- Sortieren der Objekte nach Ebenen, in denen sie konstruiert wurden
- Sortieren nach der Reihenfolge der Konstruktion
- Einstellungen öffnen
- Weitere Ansichten einblenden

Gestaltungsleiste der CAS-Ansicht

Klickt man in der CAS-Ansicht auf das Icon der Gestaltungsleiste so lassen sich folgende Einstellungen vornehmen:

Textformatierungen der Formelinhalte je Zeile, z.B.: Farbe, Fettschrift, Schrägschrift
Einstellungen öffnen
Weitere Ansichten einblenden

Gestaltungsleiste der Tabellen-Ansicht

Textformatierungen der Formelinhalte je Zeile, z.B.: Fettschrift, Schrägschrift, Text-Bündigkeit
Hintergrundfarbe
Einstellungen öffnen
Weitere Ansichten einblenden

Gestaltungsleiste der 3D-Grafik-Ansicht

Klickt man in der 3D-Grafik-Ansicht auf das Icon der Gestaltungsleiste so lassen sich folgende Einstellungen vornehmen:

Achsen anzeigen oder verbergen
Koordinatengitter anzeigen oder verbergen
Standardeinstellungen der Koordinatenachsen wieder herstellen
Punkte an den Ecken der Koordinatengitter fangen
Drehung der Ansicht starten bzw. stoppen
Blickrichtung auf die 3D-Darstellung wählen: Grundriss, Aufriss bzw. Kreuzriss
Art der Projektion wählen: Parallelprojektion, Perspektive mit Fluchtpunkt, 3D für rot-grün-3D-Brille, Schrägprojektion
Einstellungen öffnen
Weitere Ansichten einblenden

Die Menüleiste

Die GeoGebra Menüleiste wird mit dem Icon aus 3 Strichen, ganz rechts in der oben horizontal verlaufenden Werkzeugleiste, ein- und ausgeblendet. Sie enthält Menüs mit denen man Dateien öffnen oder abspeichern kann, mit der man die Hauptansichten wählen kann, oder mit denen man globale die Einstellungen ändern kann.

Die Eingabezeilen

Mit Hilfe der Eingabezeile und Befehlen kann man die algebraische Repräsentation eines mathematischen Objekts eingeben bzw. ändern. Die GeoGebra Eingabezeile kann über die Menüleiste und das Ansicht-Menü ein- bzw. ausgeblendet werden. Sie befindet sich dann am untersten Rand vom Fenster.

Ist die Algebra-Ansicht aktiviert, dann wird dort eine Algebra-Eingabezeile angezeigt, wenn die oben beschriebene GeoGebra Eingabezeile ausgeblendet ist.

Die virtuelle Tastatur

Wenn man GeoGebra erstmalig startet, dann erscheint links die Algebra-Ansicht und rechts die Grafik-Ansicht. Darunter wird eine virtuelle Tastatur angezeigt, die mit der Maus bedient wird.

Sollte die virtuelle Tastatur mal unsichtbar werden, dann klickt man auf das "+" in der Algebra-Eingabezeile und wählt "Ausdruck". Dann wird die virtuelle Tastatur eingeblendet.

Bei der virtuelle Tastatur kann zwischen unterschiedlichen Tastatur-Layouts umgeschaltet werden.

GeoGebra Hauptansichten

GeoGebra Werkzeugleiste

GeoGebra Menüleiste

GeoGebra Virtuelle Tastatur

GeoGebra Eingabezeile

GeoGebra Gestaltungsleiste

Dateihandling und Dateneingabe in GeoGebra

Lektion 2: Dateihandling und Dateneingabe in GeoGebra

In dieser Mikro-Lerneinheit verschaffen wir uns einen Überblick über den "Datei" - Eintrag in der Menüliste und über diverse programmspezifische Anforderungen an die Eingabe.

Zuerst verschaffst du dir zuerst einen Überblick darüber, wie du eine neue oder bestehende GeoGebra Datei mit der Datei-Endung .ggb öffnest, bearbeitest und wieder abspeicherst. Weiters ist es unbedingt erforderlich zu wissen, wie man die diversen Eingaben korrekt eintippen muss, damit sie von GeoGebra korrekt verarbeitet werden können.

"Einstellungen" - Eintrag in der Menüleiste

Als Erstes sollte man einige globale Einstellungen vornehmen. Die Sprache, die Anzahl der Nachkommastellen, ob Objekte in der Grafik-Ansicht sichtbar benannt werden und die Schriftgröße (12pt) wählt man in der Menüleiste unter "Einstellungen".

„Datei“ – Eintrag in der Menüleiste

Beschäftigen wir uns zunächst damit, wie wir ein GeoGebra-Arbeitsblatt öffnen und speichern können.

„Neu“ erstelle ein neues leeres Arbeitsblatt
„Öffnen“ macht dasselbe wie ein Klick auf die „Lupe“ in der Werkzeugleiste:
- „online“: In der Hauptansicht vom GeoGebra Fenster wird die GeoGebra-Online-Plattform mit zahlreichen kostenlosen Unterrichtsmaterialen angezeigt und man kann eine Datei auswählen, öffnen, bearbeiten und abspeichern.
- „lokal“: Über den Button ganz links oben im Fenster kann man auf lokal am Computer gespeicherte Dateien zugreifen
„Speichern“ ermöglicht das Abspeichern vom gesamten Arbeitsblatt in einer GeoGebra-Datei vom Typ .ggb.
„Bild exportieren“ ermöglicht es die Grafik-Ansicht als pixelbasierte Bilddatei vom Typ .png abzuspeichern.
„Teilen“ ermöglicht es, zuvor auf der GeoGebra-Online-Plattform abgespeicherte Arbeitsblätter, über soziale Netzwerke oder als direkter Link weiterzugeben.
„Herunterladen als…“ ermöglicht das Abspeichern des aktuell sichtbaren Ausschnitts der Grafik-Ansicht, in verschiedenen Dateiformaten wie .png, .svg oder .pdf.
Will man mehr Einfluss – z.B. einen transparenten Bildhintergrund - auf die Parameter der Bilddatei haben, dann empfiehlt sich der Befehl „ExportImage“.
z.B.: ExportImage("filename", "beispiel_4410_1.svg", "type", "svg", "transparent", "true")
„Druckvorschau“ ermöglicht das Ausdrucken des aktuell sichtbaren Ausschnitts der Grafik-Ansicht

Anforderungen an die Eingabe:

Mit Hilfe der Eingabezeile und Befehlen kann man die algebraische Repräsentation eines mathematischen Objekts eingeben bzw. ändern. Dabei sind folgende Regeln zu beachten:

Dezimalzahlen erfordern die englische Schreibweise, d.h. das Komma wird als Punkt geschrieben. Beispiel: ½ als 0.5 nicht als 0,5
Hochzahl einer Potenz erzeugt man mit der „Dach-Taste“, also etwa 2^x durch 2^x
Fakultät wird als n! geschrieben und ist das Produkt aller natürlichen Zahlen größer Null und kleiner gleich n
Binomialkoeffizient n über k wird als nCr(n,k) geschrieben und besagt, wie viele Möglichkeiten es gibt, k Elemente aus einer Menge von n Elementen auszuwählen
Permutation ohne Zurücklegen nPr(n,k) besagt, wie viele Möglichkeiten es ohne Zurücklegen gibt, k Elemente aus einer Menge von n unterscheidbaren Elementen auszuwählen
Komplexe Zahl im CAS: Die Eingabe muss in der Form (a+bi) erfolgen, nicht aber als (a+ib).
Punkte werden mit Großbuchstaben eingegeben: A=(2,2)
Vektoren werden mit Kleinbuchstaben eingegeben v=(1,1,2)
Listen werden mit dem Kleinbuchstaben l und einer Zahl innerhalb einer geschwungenen Klammer eingegeben: l1={1,2,3} oder l2={4,5,6}. Am einfachsten erzeugt man Listen in der Listenansicht.
Matrizen werden mit dem Kleinbuchstaben m und einer Zahl innerhalb einer geschwungenen Klammer als Liste von Listen eingegeben: m1= {{1, 2, 3}, {4, 5, 6}} oder m1={l1,l2}

Eulersche Zahl $e$ darf nicht als Buchstabe „e“ eingegeben werden, sondern wird
- entweder als Sonderzeichen über die virtuelle Tastatur (im Bereich 123 zu finden) eingegeben
- oder mittels „Alt + e“ über die Tastatur
Kreiszahl Pi wird
- durch das Wort pi oder Pi eingegeben
- oder als Sonderzeichen über die virtuelle Tastatur (im Bereich 123 zu finden) eingegeben
- oder mittels „Alt P“ über die Tastatur
Imaginäre Einheit i darf nicht als Buchstabe „i“ eingegeben werden, sondern wird
- entweder als Sonderzeichen über die virtuelle Tastatur (im Bereich f(x) zu finden) eingegeben
- oder mittels „Alt + i“ über die Tastatur
Unendlich-Zeichen $\infty $ wird
- entweder als Sonderzeichen über die virtuelle Tastatur eingegeben
- durch das Wort infinity oder Infinity eingegeben
- oder mittels „STRG + U“ über die Tastatur.

Zuweisung := vs Gleichung = In der CAS-Ansicht werden Variable und Terme mit einem den Gleichheitszeichen vorgesetzten Doppelpunkt „:=“ zugewiesen, nicht so in der Algebra-Ansicht
- CAS-Eingabe: f(x):=2x^2
- Algebra-Eingabe: f(x)=2x^2
Mal-Rechenzeichen „*“ der Multiplikation muss in der CAS-Ansicht verpflichtend in der Form „*“ eingegeben werden, nicht so in der Algebra-Ansicht
- CAS-Eingabe: a*(b+c)
- Algebra-Eingabe: a(b+c)
Brüche werden in Form einer Division angeschrieben, wobei sowohl Zähler als auch Nenner in runde Klammern gesetzt werden sollten.
Variablen existieren nur ein Mal innerhalb eines Arbeitsblattes. Es kann der Variablen in einer nachfolgenden CAS-Eingabe kein neuer Wert zugewiesen werden. Variablen, die in der Algebra-Ansicht definiert wurden, werden in der CAS-Ansicht nicht erneut dargestellt, können aber verwendet werden.

Funktionen kann man durch den Funktionsterm einzugeben, man kann aber auch y= oder f(x)= voran setzen.
Betragsfunktion gibt man als abs(..) ein, wobei die Zahl zwischen runden Klammern gesetzt wird.
Signumfunktion liefert Vorzeichen, die man mit Hilfe der Signum-Funktion sign(x) ermittelt
- Liefert +1 für positive Zahlen, -1 für negative Zahlen und 0 für null
Rundungsfunktionen erhält man mit Hilfe
- round(x), wodurch auf die nächste ganze Zahl gerundet wird
- ceil(x), wodurch auf die nächste ganze Zahl aufgerundet wird
- floor(x), wodurch auf die nächste ganze Zahl abgerundet wird
Wurzel zieht man mit Hilfe von sqrt(x)
Logarithmen berechnet man mit Hilfe von ln(x), log(x) bzw. mit log10(x) oder log2(x)
Winkelfunktionen berechnet man mit sin(x), cos(x), tan(x),…
Umkehrung der Winkelfunktionen liefern mit
- arcsind(x) das Ergebnis in Grad
- arcsin(x) das Ergebnis in Radianten

Unterschied freie und abhängige Objekte

Freie Objekte (z.B.: 2 Punkte A, B) hängen nicht von der Position oder vom Wert bereits zuvor erstellter Objekte ab. Werden freie Objekte über ihre "Einstellungen" fixiert, können sie nicht mehr gezogen und damit auch nicht mehr in ihrer Position am Zeichenblatt verändert werden.
Abhängige Objekte (z.B.: die Strecke AB) hängen von der Position oder vom Wert bereits zuvor erstellter freier Objekte ab. Löscht man das zugrunde liegende freie Objekt, so löscht man auch das abhängige Objekt.

Statische und dynamische Texte

Die Eingabemaske für Texte wird über die Werkzeugleiste und das Icon "ABC Text" eingegeben. Über "Erweitert" kann man 4 Kartei-Reiter (Vorschau, GeoGebra-Symbol, Griechischen Zeichensatz und vordefinierte LaTeX Formeln) anzeigen.

Statischer Text wird über die Tastatur eingegeben und ist von Objekten und Änderungen an Objekten unabhängig. Statischer Text kann in Form von ASCII Code oder als LaTeX-Code eingegeben werden. Während mit ASCII Code die von der Tastatur vertrauten Buchstaben und Ziffern und einige darüber hinausgehende Sonderzeichen eingegeben werden können, kann man mit LaTeX-Code ganze Formeln (samt Wurzel- und Integralzeichen oder Brüchen) eingeben.
Dynamischer Text wird mit Hilfe der im Kartei-Reiter mit dem GeoGebra-Symbol enthaltenen Objekten erstellt.
Statischer und Dynamischer Text zusammen ermöglichen Texte mit Koordinaten zu vereinen.

GeoGebra statischer und dynamischer Text

Geogebra Binomial (Befehl)

Binomial( <Anzahl der Versuche>, <Erfolgswahrscheinlichkeit> )
Mit dem Befehl Binomial (n, p) erzeugt man in der Grafik-Ansicht ein Balkendiagramm.
- Der Parameter n steht dabei für die Anzahl der von einander unabhängigen Bernoulli-Versuche.
- Der Parameter p steht für die Erfolgswahrscheinlichkeit pro Versucht

Beispiel

Gegeben:
- n=20
- p=0,9
Gesucht:
- Balkendiagramm der Binomialverteilung
Ausführung:
- Syntax: Binomial( <Anzahl der Versuche>, <Erfolgswahrscheinlichkeit> )
- Geogebra Grafik-Ansicht: Binomial(20, 0.9)
- Anmerkung: x-Achse auf 0 .. 22 skalieren; y-Achse auf 0 .. 0,5 skalieren
Lösung:
- Wir erhalten ein Balkendiagramm der Binomialverteilung.
- Der höchste Balken entspricht dem zugehörigen Erwartungswert $E(x) = \mu $

Beispiel

Gegeben:
- n=20
- p=0,9
Gesucht:
- Erwartungswert $E(x) = \mu $ der Binomialverteilung
- Standardabweichung $\sigma$ der Binomialverteilung
Ausführung:
- Geogebra → Ansicht → Wahrscheinlichkeitsrechner
- Im Feld für die Verteilung von Normal auf → Binomial umstellen
- n=20 und p=0.9 eingeben
- Die Klammerausdrücke können unbeachtet bleiben
Lösung:
- Wir erhalten ein Balkendiagramm der Binomialverteilung.
- Wir erhalten den zugehörigen Erwartungswert zu $E(x) = \mu = 18$
- Wir erhalten die zugehörige Streuung zu $\sigma = 1,3416$

Geogebra Binomial Befehl

Geogebra InversNormal Befehl

Geogebra InversNormal (Befehl)

InversNormal[ <Mittelwert>, <Standardabweichung>, <Wahrscheinlichkeit> ]
Mit dem Befehl InversNormal (μ, σ , P] berechnet man jene Zufallsvariable X, welche die gegebene Wahrscheinlichket P als Fläche unter der Gauß'schen Glockenkurve besitzt.

Beispiel

Gegeben:
- Erwartungswert μ = 1005 mm
- Standardabweichung σ = 5 mm
- Fläche = 0,025 bzw. Wahrscheinlichkeit P = 2,5%
Gesucht:
- Zufallsvarialble X
Ausführung:
- Syntax: InversNormal[ <Mittelwert>, <Standardabweichung>, <Wahrscheinlichkeit> ]
- Geogebra - CAS Ansicht: InversNormal[1005, 5, 0.025] → X=x₁ = 995,25
Lösung
- Für die Zufallsvariable X=x₁ = 999,25 mm beträgt bei einer μ = 1005 mm und σ = 5 mm verteilten Normalverteilung die Wahrscheinlichkeit 2,5% bzw. die Fläche unter der Gauß'schen Glockenkurve 0,025

Beispiel

Gegeben:
- Erwartungswert μ = 1005 mm
- Standardabweichung σ = 5 mm
- Fläche = 0,95 bzw. Wahrscheinlichkeit P = 95%
Gesucht:
- Ermitteln Sie dasjenige um μ symmetrische Intervall, in dem 95 % der Zufallswerte liegen.
Ausfühung:
- untere Grenze: Fläche links von der unteren Grenze: $\dfrac{{1 - 0,95}}{2} = 0,025$
  - Syntax: InversNormal[ <Mittelwert>, <Standardabweichung>, <Wahrscheinlichkeit> ]
  - Geogebra - CAS Ansicht: InversNormal[1005, 5, 0.025] → x₁ = 995,25
- obere Grenze: Fläche links von der oberen Grenze: $\dfrac{{1 - 0,95}}{2} + 0,95 = 0,975$
  - Syntax: InversNormal[ <Mittelwert>, <Standardabweichung>, <Wahrscheinlichkeit> ]
  - Geogebra - CAS Ansicht: InversNormal[1005, 5, 0.975] → x₂ = 1014,75
Lösung:
- Das symmetrische Intervall, in dem mit einer Wahrscheinlichkeit P=95% alle Zuvallsvariablen X einer μ = 1005 mm und σ = 5 mm verteilten Normalverteilung liegen, lautet: [995,2; 1 014,8]
Grafische Darstellung
- Der Befehl mit der Syntax: Normal[μ, σ, x, false] erzeugt eine Darstellung der Wahrscheinlichkeitsdichtefunktion der Normalverteilung f
  - Geogebra Grafik-Ansicht: Normal(1005, 5, x, false)
- Der Befehlt mit der Syntax: Integral(<Funktion>, <untere Grenze>, <obere Grenze>) berechnet das bestimmte Integral der Funktion f zwischen unterer und oberer Grenze und schattiert die Fläche über die integriert wurde.
  - Geogebra Grafik-Ansicht: Integral(f, 995.25, 1014.75)

Geogebra Normal (Befehl)

Normal[ <Erwartungswert>, <Standardabweichung>, <Wert der Variablen x₁> ]
$P\left( {X \le x_1} \right)$ einer ${\rm{N}}\left( {\mu ,\sigma } \right)$ Normalverteilten Zufallsvariablen X berechnen
Mit dem Befehl Normal[μ, σ , x₁] berechnet man die Wahrscheinlichkeit P dafür, dass eine Zufallsvariable X kleiner oder gleich einem Grenzwert x₁ ist. Das Resultat entspricht der Fläche unter der Gauß'schen Glockenkurve, welche links von x₁ liegt.

Beispiel

Gegeben:
- Erwartungswert μ = 12,000 mm
- Standardabweichung σ = 0,06 mm
- untere Grenze x₁ = 11,96 mm
- obere Grenze x₂ = 12,04 mm
Gesucht:
- Wahrscheinlichkeit, dass eine Zufallsvariable X zwischen einer unteren x₁und einer oberen x₂ Grenze liegt
- $P\left( {{x_1} \le X \le {x_2}} \right)$ einer ${\rm{N}}\left( {\mu ,\sigma } \right)$ -verteilten Zufallsvariablen X berechnen
Ausführung:
- Syntax: Normal[μ, σ , x₂] - Normal[μ, σ , x₁]
- Geogebra Algebra-Ansicht: Normal[12, 0.06, 12.04] - Normal[12, 0.06, 11.96] → (0,7475 - 0,2525 =) 0,495
Lösung
- Die Wahrscheinlichkeit, daß ein μ = 12,000 mm und σ = 0,06 mm verteilter Zufallswert zwischen x₁ = 11,96 mm und x₂ = 12,04 mm liegt, beträgt 49,5%
Grafische Darstellung
- Der Befehl mit der Syntax: Normal[μ, σ, x, false] erzeugt eine Darstellung der Wahrscheinlichkeitsdichtefunktion der Normalverteilung f
  - Geogebra Grafik-Ansicht: Normal(12, 0.06, x, false)
- Der Befehlt mit der Syntax: Integral(<Funktion>, <untere Grenze>, <obere Grenze>) berechnet das bestimmte Integral der Funktion f zwischen unterer und oberer Grenze und schattiert die Fläche über die integriert wurde.
  - Geogebra Grafik-Ansicht: Integral(f, 11.96, 12.04)

Geogebra Normal Befehl

Interaktive Illustration auf GeoGebra.org anzeigen

Satz von Thales

Bewege den Punkt P entlang vom Halbkreis und beobachte wie sich die beiden Winkel immer zu 90° aufsummieren.

Satz von Thales

Interaktive Illustration auf GeoGebra.org anzeigen

Exponentialfunktion

Regler a: Verändere die Basis
Regler c: Verändere den Faktor

Exponentialfunktionen

Interaktive Illustration auf GeoGebra.org anzeigen

Natürliche Exponentialfunktion

Regler $\lambda$: Entscheidet über Wachstum oder Zerfall
Regler N₀: Entscheidet über Startwert

Natürliche Exponentialfunktion

Wolfram Alpha ein erster Eindruck

Wolfram Alpha ein erster Eindruck

Wolfram Alpha (Pro)

Wolfram Alpha (Pro) ist eine kostenlose Website, welche einzelne Suchabfragen basierend auf kuratierten Daten und CAS-Funktionalität miteinander verbindet. Die Benutzeroberfläche weist einen Suchslot auf, in den man die jeweilige Abfrage, losgelöst von vorherigen Abfragen, entweder in englischer natürlicher Sprache oder als mathematischen Term gemäß der Wolfram-Language eingibt. Die Ausgabe erfolgt als Set von strukturierten Daten.

Die Basisversion Wolfram Alpha ist kostenlos, die Pro Version bietet zusätzlich Schritt-für-Schritt Lösungen, ermöglicht Downloads und verfügt über einen Aufgaben-Generator, dafür ist sie kostenpflichtig.

Wolfram Alpha Notebook Edition

Wolfram Alpha Notebook Edition ist kostenpflichtig als Desktop- bzw. als Online-Variante verfügbar. Die Alpha Notebook Edition ist als separates Produkt und als Teil von Mathematica erhältlich. Die Wolfram Alpha Notebook Edition erweitert die Funktionalität von Wolfram Alpha Pro, indem es aufeinander aufbauende Verarbeitungen ermöglicht, während Alpha Pro auf eine „one-Shot“ Abfrage/Antwort limitiert ist. Die Notebook Edition basiert auf Mathematica, erlaubt aber weitgehend eine Eingabe in englischer natürlicher Sprache, dh man muss die Wolfram-Language nicht unbedingt beherrschen.

Wolfram Mathematica

Wolfram Mathematica ist kostenpflichtig als Desktop- bzw. als Online-Variante verfügbar. Mathematica ist eine professionelle Software für Mathematik auf Universitäts-Niveau und erfordert einiges an Einarbeitungszeit. Die Notebook Edition ist auch Teil von Mathematica.

Mathematik lernen mit ChatGPT

In dieser Mikro-Lerneinheit lernst du die Recherche mittels der KIs „OpenAI ChatGPT“, „Google Gemini“, bzw. „Microsoft Bing / Copilot“ kennen.

Zunächst machen wir uns mit dem Begriff „Künstliche Intelligenz“ vertraut und zeigen, dass sich unser Verständnis, was künstliche Intelligenz ist, im Laufe der Zeit verändert.

Maschinelles Lernen ist der Unterbau vieler KIs, ebenso deren Trainingsdaten. Wir beschreiben den Unterschied zwischen KIs ohne und mit maschinellem Lernen, sowie die Ansätze mit überwachtem, nicht überwachtem und bestärkendem maschinellem Lernen. Wir erklären wie maschinelles Lernen mit Hilfe von neuronalen Netzen und Deep Learning ohne menschliches Zutun funktioniert.

Wir erklären, was generative KIs sind, und dass die Mensch-Maschine-Schnittstelle auf Natural Language Processing und dieses wiederum auf Large Language Modellen basiert. Danach arbeiten wir den Unterschied zwischen Algorithmus und Modell heraus.

Als Verarbeitungseinheiten eines LLMs lernen wir Prompt, Token, Token-Vektor sowie Chat samt Kontext kennen. Anschließend gehen wir auf die beiden sprachbasierte generative KIs „ChatGPT“ und „Bard“ ein, indem wir die Stärken und Schwächen der unterschiedlichen Architekturen „GPT“, „LaMDA“ und „Gemini“ beschreiben.

Wir zeigen, wie man die jeweilige KI startet und bedient, und gehen auf deren Einschränkungen im Bereich Mathematik näher ein.

Recherche und Lernen mit den KIs ChatGPT und Bard

Künstliche Intelligenz und ihre Komponenten

Der Begriff künstliche Intelligenz (KI, englisch: Artificial Intelligence bzw. AI) wird gerne verwendet, wenn IT-Systeme Entscheidungen treffen, für die Intelligenz erforderlich ist.

Dabei verändert sich im Laufe der Zeit unsere Einschätzung darüber, was wir als künstliche Intelligenz wahrnehmen oder eben nicht, und zwar indirekt proportional zur Vertrautheit mit der jeweiligen Technologie.

Ein Beispiel zur zeitabhängigen Wahrnehmung von künstlicher Intelligenz

Vor 10 Jahren hat man Navigationssysteme im Auto noch als „intelligent“ bezeichnet.
Heute versteht man sie eher rational als eine Kombination aus GPS-Signalen samt genauer Zeitmessung, einer Straßendaten-Datenbank, einem Algorithmus aus der Graphentheorie zur Berechnung des kürzesten Weges (etwa der Dijkstra Algorithmus) und eventuell noch Echtzeit-Verkehrsfluss-Informationen, sowie einer Mensch-Maschine Schnittstelle, die heute oft das vertraute und allgegenwärtige Smartphone mit der Anwendung Google Maps ist.

Das ehemals intelligente System ist 10 Jahre später zu einem dummen Rechenknecht degeneriert.

Heute, 02.2024, versteht man die Weiterentwicklung der Navigationssysteme, nämlich selbstfahrende Autos, als intelligente Systeme.

Unter einer künstlichen Intelligenz versteht man ein Computerprogramm, welches genau definierte Aufgaben ausführen kann, für die normalerweise menschliche Intelligenz erforderlich wäre. Die Betonung liegt auf „genau definierte Aufgaben“: Ein Schachcomputer auf Großmeisterniveau kann nicht unbedingt auch die Schachfiguren am Brett greifen, anheben, bewegen und wieder abstellen, was jedes Kind kann.

Maschinelles Lernen

Maschinelles Lernen ist eine Schlüsseltechnologie für Systeme der künstlichen Intelligenz, gewissermaßen ihr Unterbau. Als maschinelles Lernen bezeichnet man jenen Prozess, bei dem das Verhalten eines Computerprogramms nicht durch einen menschlichen Programmierer festgelegt wurde, sondern das Programm – die KI - aus Trainingsdaten lernt, darin enthaltene Muster selbsttätig erkennt, um darauf aufbauend Aufgaben erfüllen zu können.

Maschinelles Lernen bewährt sich besonders dort, wo der menschlichen Intelligenz keine Regeln in Form von Ursache – Wirkungszusammenhängen zugänglich sind, oder die Datensätze unüberschaubar groß sind.

Es gibt KIs mit und solche ohne maschinelles Lernen.

KIs ohne maschinelles Lernen, Expertensystem

Bei KIs ohne maschinelles Lernen, sogenannten regelbasierten KIs, werden die Algorithmen vom Entwickler so programmiert, dass sie bestimmte Aufgaben erfüllen. Beispiele für solche regelbasierten Algorithmen sind Regression, Klassifikation, Clustering, Zeitreihen.

Wenn eine KI darauf abzielt das menschliche Wissen eines Experten, sogenanntes Domänen-Knowhow zu modellieren und zu replizieren, dann spricht man von einem Expertensystem.

KIs mit maschinellem Lernen

Bei KIs mit maschinellem Lernen findet das Computerprogramm die spezifischen Regeln durch selbstständiges Ausprobieren und Benchmarken an einem vorgegebenen Ziel selbst. Durch maschinelles Lernen können also Regeln gefunden werden, die dem Programmierer zuvor nicht zugänglich waren.

Maschinelles Lernen umfasst also die Fähigkeit des Programms Erfahrungen zu machen, in dem es Regeln sucht und findet, um die Zielerfüllung eigenständig zu verbessern, dazu passt es während eins Lernvorgangs die Parameter des Modells an. Beispiele für solche Algorithmen sind Entscheidungsbäume, k-nächste Nachbarn, Support-Vektor-Maschinen (SVM) und neuronale Netze.

Neuronale Netze

Neuronale Netze sind eine von mehreren Techniken des maschinellen Lernens, die speziell gut dafür geeignet ist, komplexe, nicht lineare Beziehungen in Trainingsdaten zu modellieren. Neuronale Netze bestehen aus einer Eingangs- und einer Ausgangsschicht von Neuronen. Zwischen diesen beiden Schichten liegen die sogenannten verborgenen Schichten. Der Informationsfluss zwischen den Neuronen erfolgt über sogenannte Kanten, denen wiederum ein Gewicht (gedanklich eine Verstärkung bzw. Dämpfung) zugeordnet ist. Das maschinelle Lernen erfolgt vorwiegend durch Anpassung der Gewichte in den Kanten, solange bis das neuronale Netz die zum Eingangssignal entsprechenden Ausgangssignale liefert. Die Gewichtung der Kanten erfolgt durch kontinuierliche Justage und ist nicht durch einen Algorithmus – den ein Programmierer vorgibt - beschreibbar.

Neuronale Netze sind also eine Grundtechnologie von KI-Systemen mit maschinellem Lernen. Ihr Aufbau aus, miteinander verbundenen, künstlichen Neuronen ist vom Aufbau des menschlichen Gehirns inspiriert. Ihre Aufgabe ist es Informationen zu verarbeiten und Muster in Daten zu erkennen.

Deep Learning

Beim Deep Learning besteht das neuronale Netz, neben der obligaten Eingangs- und Ausgangsschicht aus vielen zusätzlichen Schichten, die es ermöglichen komplexere Modelle abzubilden.

Bedeutung von Trainingsdaten und Big Data für maschinelles Lernen

Für maschinelles Lernen sind neben Hardwareanforderungen an die verarbeitende IT noch qualitativ hochwertige Trainingsdaten erforderlich, geeignete Algorithmen und die Definition eines klar beschriebenen Ziels. Interessant ist, dass die Lernalgorithmen teils schon seit Jahrzehnten bekannt sind.

Da aber die Trainingsdaten umfangreich sein müssen, ging der Durchbruch beim maschinellen Lernen, Hand in Hand mit den Fortschritten bei der Verarbeitung von Big Data.

Der Nutzung von Trainingsdaten gehen zwei Arbeitsschritte voraus:

Datenquellen müssen zugänglich gemacht werden und die daraus resultierenden Daten müssen digital erfasst werden
In den erfassten Daten allenfalls enthaltene Fehler müssen korrigiert werden und die Daten müssen so aufbereitet werden, dass sie für den eigentlichen maschinellen Lernprozess automatisiert und im Falle von Wiederholungen unverändert zugänglich sind.

Die Beschaffung von Trainingsdaten ist daher sehr aufwändig und kostenintensiv. Nachfolgend 2 öffentlich zugängliche Quellen für Trainingsdaten:

Wikipedia wird gerne für Trainingsdaten herangezogen. Dabei wird gerne übersehen, dass die Artikelverteilung keineswegs ausgewogen ist. Beispiele dafür können hier nachgelesen werden:

Veröffentlichungen des Übersetzungszentrums für die Einrichtungen der EU werden gerne als Trainingsdaten für Übersetzer verwendet, da dort professionelle Übersetzungen innerhalb der 24 Amtssprachen der EU vorliegen.

Je nach der spezifischen Aufgabe und der Art der verfügbaren Trainingsdaten können verschiedene Lernmethoden verwendet werden, um optimale Ergebnisse zu erzielen.

Überwachtes maschinelles Lernen (Supervised Learning)

(dem Algorithmus werden Daten mit „richtigen“ Lösungen zur Verfügung gestellt)

Beim überwachten Lernen teilt man die Trainingsdaten in 2 Kategorien: 70% Lerndaten und 30% Testdaten.

Lerndaten: Anhand der Lerndaten lernt der Algorithmus Vorhersagen zu treffen, da ihm die richtige Lösung bereits mitgegeben wird.
Testdaten: Anhand der Testdaten wird anschließend der Grad der Zielerreichung ermittelt. Daher spricht man von „überwachtem“ Lernen.
Beispiel:

Ein KFZ-Sachverständiger verfügt über Trainingsdaten, die aus 1.000 Fotos von PKWs samt Typbezeichnung bestehen.
700 Fotos samt Typbezeichnung werden dem Algorithmus als Lerndaten zur Verfügung gestellt.
Den Testdaten, bestehend aus den restlichen 300 Fotos, die dem Algorithmus jedoch ohne Typbezeichnung vorgelegt werden, muss der Algorithmus die Typbezeichnung auf Grund der gelernten Regeln selbsttätig zuordnen.
Der KFZ-Sachverständige überprüft anschließend den Erfolg in Prozent der richtigen Antworten.

Bei überwachtem Lernen sind sowohl Eingabemuster als auch die gewünschten Ausgabemuster bekannt.
Das neuronale Netz vergleicht das berechnete Ausgabemuster mit dem gewünschten Ausgabemuster und passt die Gewichtungen zwischen den Neuronen entsprechend an.
Dieses Verfahren ist effizient und schnell.
Es erfordert das Vorhandensein von Daten mit der „richtigen“ Antwort, sogenannte gelabelte Daten, die mit menschlicher Expertise erstellt wurden. Ausreißer bzw. atypische Daten, die nicht in den Lerndaten enthalten waren, verursachen Probleme.
Es wird häufig für Aufgaben wie Klassifikation und Regressionsprobleme verwendet.

Unüberwachtes maschinelles Lernen (Unsupervised Learning)

(dem Algorithmus werden keine Daten mit „richtigen“ Lösungen zur Verfügung gestellt)

Unüberwachtes Lernen erfolgt ohne Trennung zwischen Lern- und Testdaten. Dem Algorithmus werden also während des Lernens keine Vorlagen für „richtige“ Lösungen mitgegeben.
Das Netzwerk muss eigenständig lernen, Muster in den Daten zu erkennen und in verschiedene Gruppen oder Kategorien einzuteilen, indem es Ähnlichkeiten bzw. Unterschiede zwischen den Mustern erkennt.
Die Gewichtungen werden so angepasst, dass ähnliche Eingabemuster ähnliche Ausgaben erzeugen.

Beispiel:

Ein KFZ-Sachverständiger verfügt über Trainingsdaten, die aus 1.000 Fotos von PKWs bestehen und die ohne weitere Angaben dem Algorithmus vorgelegt werden.
Der Algorithmus versucht nun Muster in den Daten zu erkennen.
Eventuell sortiert er die Autos nach KFZ-Typ, eventuell nach deren Farbe, eventuell nach Spuren von Unfällen, eventuell sortiert er auch nur die sehr seltenen Pick-Ups aus. Es kann sogar sein, dass sich die gefundenen Muster nicht interpretieren lassen, weil sie nicht zur Erlebniswelt des Sachverständigen passen.
Der KFZ-Sachverständige muss anschließend entscheiden, ob die Sortierung für ihn einen praktischen Nutzen hat oder nicht.

Da das Verfahren ohne gelabelte Daten auskommt, ermöglicht es die Entdeckung von neuen Zusammenhängen, die im Voraus nicht bekannt waren. Das kann aber auch negativ sein, wenn die erlernten Muster nicht für die vorgesehene Anwendung relevant sind, d.h. die KI entwickelt dann Lösungen, für die womöglich niemand das zugehörige Problem hat.
Unüberwachtes Lernen wird oft beim Clustering angewendet. Es kann Musikvorschläge liefern oder Brustkrebs auf Grund von Strukturen in Bildern erkennen.

Bestärkendes maschinelles Lernen (Reinforcement Learning)

(dem Algorithmus wird positives oder negatives Feedback gegeben)

Bestärkendes Lernen wird in Situationen eingesetzt, die sich permanent verändern
Der Algorithmus führt verschiedene Aktionen aus und erhält für Versuch und Irrtum positives oder negatives Feedback, je nachdem ob seine Ausgabemuster richtig oder falsch sind.
Er muss aber selbstständig die richtigen Ausgabemuster finden, indem er versucht das positive Feedback zu maximieren und das negative Feedback zu minimieren.

Beispiel:

Ein Roboterarm mit Greifzange muss ein Wasserglas anheben, welches jedes Mal an einer anderen Stelle am Tisch steht. Dazu positioniert er über Motoren den Greifarm relativ zum Wasserglas.
Es gibt eine positive Bewertung, wen er das Wasserglas hochhebt, ohne es zu zerbrechen.
Es gibt eine neutrale Bewertung, wenn das Wasserglas nur vermeintlich hochgehoben wird, aber unversehrt stehen bleibt.
Es gibt eine negative Bewertung, wenn das Wasserglas zerbricht.

Dieser Lernprozess ist nicht so schnell wie das überwachte Lernen, aber er eignet sich für Situationen, in denen keine klaren Entscheidungskriterien vorhanden sind, wie etwa beim autonomen Fahren.

Unterscheidungsbasierte KIs

Unterscheidungsbasierte KIs können Beziehungen und Regeln finden und nutzen, von denen Existenz der menschliche Programmierer gar keine Ahnung hatte. Zudem können auch Aufgaben gelöst werden, für die es schwer ist, eine Schritt-für-Schritt Anleitung zu geben, etwa welches Lied einem Nutzer auf Basis der bisher gehörten Lieder als nächstes gefallen würde. Sie kommen in Spamfiltern, in der Bild- und Spracherkennung zum Einsatz und liefern Daten und Trainingsmaterial für generative KIs.

Generative KIs

Generative KIs lernen aus bestehenden Inhalten und erzeugen eigenständig neue Inhalte. Anwendungsbereiche dafür sind Text-zu-Bildgenerierung (Middourney, DALL-E, Stable Diffusion), Sprachgenerierung (ChatGPT, Gemini, Copilot),… Generative KIs generieren Text für die Interaktion mit Nutzern mittels conversational KIs.

Conversational AIs

Erfolgt das Dialogmanagement, also die Mensch-Maschine-Schnittstelle über einen Chat, so spricht man von einem conversational AI-System. Dieses ermöglicht es, mehrere aufeinanderfolgende Textein- und -ausgaben im Rahmen eines Gesprächsverlaufs (Chat) zu verwalten, um eine längere Konversation zu ermöglichen, ohne dass die KI den „roten Faden“ verliert.

Semantik

Semantik ist ein Begriff aus der Sprachwissenschaft und beschäftigt sich damit, wie in einer Sprache Bedeutung während einer Kommunikation auf Basis von Zeichen, Symbolen, Wörtern und Sätzen verstanden wird.

Betrachten wir den Satz: „Die Katze jagt die Maus“. Die Semantik beschäftigt sich damit, was die Worte bedeuten und in welcher Beziehung sie zueinanderstehen.

Eine Katze ist ein beliebtes Haustier auf 4 Pfoten, welches über einen angeborenen Jagdtrieb verfügt und sich gerne von Nagetieren und Vögeln ernährt.
Eine Maus ist ein anpassungsfähiges Nagetier, das sich von Pflanzen und Körnern ernährt und Katzen meidet.
Jagen bedeutet, dass die Katze auf die Maus lauert, sie verfolgt, angreift, tötet und frißt.

Der Kontext, in dem dieser Satz zu sehen ist, besteht darin, dass ein Raubtier, welches ein beliebtes Haustier ist, kleine Nagetiere jagt, um sich von ihnen zu ernähren. Zu mindestens dort, wo es kein Kitekat zu fressen gibt ;-)

Mensch-Maschine Schnittstelle zwischen KI und Nutzer

Entscheidend für die Akzeptanz der auf künstlicher Intelligenz basierenden Anwendungen ist die Mensch-Maschine-Schnittstelle (MMI, Man-Machine-Interface).

Für die Kommunikation zwischen Anwender und KI haben sich besonders Natural Language Processing Systeme bewährt. Gesprochene oder geschriebene Sprache sind uns Menschen bestens vertraut und NLP-Systeme reduzieren die Hürden bei der Interaktion mit KI-Systemen und erhöhen, da sie intuitiv und effektiv nutzbar sind, die Akzeptanz von KI-Anwendungen.

Natural Language Processing (NLP)

Als Schnittstelle zwischen dem Menschen und der KI, also der sogenannten Mensch-Maschine-Schnittstelle (MMI), haben sich Natural Language Processing (NLP) Systeme bewährt.

NLP-Systeme sind darauf ausgerichtet, menschenähnliche Kommunikation in Textform zu ermöglichen. Die Kommunikation zwischen Menschen und Maschine kann z.B. in Form eines Chats erfolgen.

Semantik spielt in NLP-Systemen eine wichtige Rolle, denn deren Ziel ist es, die Bedeutung von Texten automatisch zu erfassen, zu analysieren und darauf zu reagieren.

Bei Chatbots dient NLP dazu, Fragen zu analysieren und präzise sinnvolle Antworten in Textform zu generieren. Der Chatbot stellt dabei die Mensch-Maschine-Schnittstelle auf Basis textueller Ein- und Ausgaben dar.

Für die simple maschinelle Übersetzung einzelner Phrasen aus wenigen Wörtern ist kein „Erinnerungsvermögen“ der NLP erforderlich.

Bei chatbasierte KIs, wie bei ChatGPT und Bard, wird das Erinnerungsvermögen in Token (Textfragmenten) gemessen. Es müssen hinreichend viele neuen Token generiert wird, damit der „rote Faden“ während des Chats nicht verloren geht und andererseits nur so wenige Token um das Ziel (die Antwort) erreichen zu können, ehe der Speicherplatz überläuft. ChatGPT-3.5 nennt selbst 4096 Token als Maximum für alle Ein- und Ausgabe zusammen, die während eines Chats anfallen.

Large Language Modelle (LLM)

Die bereits erwähnten Natural Language Processing (NLP) Systeme basieren wiederum auf Large Language Modellen. LLMs sind auf das Verständnis von natürlicher Sprache spezialisierte neuronale Netze, die, wenn sie über mehrere Hidden Layer verfügen, als Deep Learning bezeichnet werden.

Sprachmodelle sind eine mathematische Beschreibung dafür, wie natürlich-sprachige Sätze typischerweise aufgebaut sind. Sie funktionieren aber nicht regelbasiert, etwa auf der Basis von grammatikalischen Regeln und Wörterbüchern, sondern basieren auf statistischen Zusammenhängen über das gemeinsame Auftreten von Wörtern.

„An einem heißen Sommertag führte ich ein Glas Wasser zum Mund und nahm einen kräftigen ?????“. Vermutlich hat Ihr Gehirn den Satz – auf Grund von Erfahrungen und der damit verbundenen statistischen Wahrscheinlichkeit – schon vervollständigt. Denn wir haben seit unserer Kindheit gelernt, dass wir Menschen in diesem Kontext einen „Schluck“ nehmen und ganz sicher nicht einen Bissen oder gar einen Elefanten.

Bei einem LLM werden solche statistischen Zusammenhänge selbstständig anhand von riesigen Datenmengen auf Basis von Wahrscheinlichkeiten erlernt und durch künstliche neuronale Netze abgebildet.

Große Sprachmodelle (LLMs) wie ChatGPT und Bard wurden mit mehreren hundert Milliarden an Texten trainiert, wovon etwa Wikipedia weniger als 0,5% der Trainingsdaten ausmacht.

Nach dem Training können Texte kontextbezogen in natürlicher Sprache automatisiert gelesen und geschrieben werden.

Man sei sich auch der Gefahren von LLM bewusst!

Etwa in der Unterscheidung zwischen Wahrscheinlichkeit und Wahrheit: LLM erstellen Antworten auf Basis von aus Trainingsdaten gelernten Wahrscheinlichkeiten für sinnvolle Wortabfolgen, nicht aber auf Basis des zugrunde liegenden Wahrheitsgehalts. Durch diesen Ansatz neigen LLM bei Antworten systembedingt zum „Halluzinieren“ und „Schwafeln“.

Mist-rein → Mist raus: Von wesentlicher Bedeutung für die Qualität der Antworten eines LLM ist die Qualität der Trainingsdaten. Beinhalten die Trainingsdaten falsche, trendige oder diskriminierende Aussagen, darf man von der Antwort nichts Besseres erwarten. Darin liegt auch die Problematik LLM basierte KIs online auf das Internet zugreifen zu lassen. Nicht jeder ist mit der unentgeltlichen Nutzung seiner Daten durch KI-Betreiber einverstanden, und es kommen zunehmend „vergiftete“ Daten ins Netz. Dabei werden Daten absichtlich so verfälscht, dass eine KI in die Irre geführt wird und meinen einen Hund auf einem Bild zu identifizieren, wo eigentlich eine Katze abgebildet ist

In der Zensur von Daten: Wenn Trainingsdaten ausgewählt werden, entspricht dies einer Wissenskontrolle. Wenn die Trainingsdaten hingegen nicht ausgewählt werden, sondern frei aus dem Web stammen, besteht die Gefahr des Erlernens von Vorurteilen.

Themenfilter: Sowohl bei der Auswertung von Eingaben als auch bei der Ausgabe von Antworten arbeiten die Betreiber von LLMs mit Verbotslisten. Verbotslisten umfassen Wörter, Phrasen oder Muster, die von einem LLM nicht verarbeitet werden dürfen, um sicher zu stellen, dass keine unerwünschten, unangemessenen oder diskriminierende Inhalte erzeugt werden. Andererseits schränken Verbotslisten die Meinungsfreiheit ein und fördern Zensur.

Algorithmus

Ganz allgemein beschreibt ein Algorithmus mittels einer Handlungsvorschrift, wie aus einer Eingabe eine Ausgabe wird.

Eingabe → Verarbeitung gemäß Algorithmus → Ausgabe

Ein Kochrezept ist ein praktisches Beispiel für einen Algorithmus. Es ist eine Schritt-für-Schritt Anleitung, lässt aber persönliche Präferenzen und Freiheiten zu, da man bestimmte Zutaten auch durch andere Zutaten ersetzen kann, und nicht jeder Koch unter einer Prise Salz dieselbe Menge an Salz versteht.

Beim maschinellen Lernen ist ein Algorithmus eine systematische und geordnete Abfolge von Schritten, bzw. Anweisungen an einen Computer, die präzise ausgeführt werden müssen, um eine bestimmte Aufgabe zu lösen.

Modell

Während des Trainings wird der Algorithmus so lange angepasst, bis er in der Lage ist, korrekte Vorhersagen zu nicht in den Trainingsdaten enthaltenen Daten zu treffen. Ein Modell ist also das Ergebnis des maschinellen Lernens in Form eines parametrierten Algorithmus.

Beispiel für den Zusammenhang zwischen Algorithmus und Modell:

Ein Regressionsalgorithmus bestimmt die Koeffizienten k und d der zugrunde liegenden Regressionsgeraden vom Typ $y = k \cdot x + d$ , für ein linearen Modell, aus einer Vielzahl von Punkten, die in einem xy-Koordinatensystem eingetragen sind.

Das lineare Regressionsmodell liegt in Form einer Geradengleichung $y = 2 \cdot x + 0,5$ vor, welche die Beziehung zwischen der Eingangsvariable (x) und der Zielvariable y beschreibt.

Verarbeitungseinheiten eines LLMs

Prompt

So wie es uns von der Google-Suche vertraut ist, gibt man in den Eingabe-Slot von ChatGPT und Bard eine Suchanfrage, die Prompt genannt wird, ein. Der Prompt steuert wie das LLM den Text verarbeitet.

Im Unterschied zur Google-Suche formuliert man sein Ansinnen aber nicht stichwortartig, sondern in mehreren ganzen natürlich-sprachigen Sätzen. Stellt man eine Frage in deutscher oder englischer Sprache, so erfolgt die Antwort in der entsprechenden Sprache. Der Eingabe kann und soll auch Hinweise auf die Zielgruppe der Antwort mitgeben (etwa „schülergerecht“, „in 5 Bullet Points“, …).

Man kann ChatGPT auch bitten eine konkrete Sichtweise einzunehmen ("Wie hätte Newton das erklär") oder ein Sprachniveau (A1, also einfachstes Vokabular) einzuhalten. Für jedes neue Thema sollte man einen separaten Chat anlegen, damit die KI den Überblick behält, worum es thematisch geht.

Token

Der mittels Prompt eingegebene Text wird in einzelne Text-Fragmente, sogenannte Token zerlegt. Ein Token ist zugleich die kleinste Einheit in der ChatGPT Texte verarbeitet und sie sind auch die Basis für die Verrechnung bei Bezahlmodellen. ChatGPT versteht Eingaben auf Basis von Token und generiert Ausgaben auf Basis von Token. Ein Token kann dabei ein Satzzeichen, der Teil eines Worts, ein einzelnes Wort oder eine ganze Phrase umfassen.

Token-Vektor

Jeder Token aus den Trainingsdaten wird mittels eines Zahlenvektors in einem virtuellen multi-dimensionalen Vektorraum dargestellt. Das ist extrem aufwändig!

Die Vektoren sind so konzipiert, dass sie semantische Informationen über den Token enthalten und es dem Transformer (das T in GPT) ermöglichen, Beziehungen zwischen den Tokens zu modellieren. Auf Basis der Token-Vektoren kann der Transformer komplexe sprachliche Muster erkennen. Die Vektoren können dazu verwendet werden, um mathematische Operationen auf den Token anzuwenden, wie das Berechnen von Ähnlichkeiten zwischen Token oder das Generieren von Text basierend auf Token unter Berücksichtigung der Wahrscheinlichkeit für eine insgesamt intelligente Antwort über mehrere Sätze hinweg.

Chat

Ein kontext-umfassender Chat kann nur eine endliche Anzahl an Token umfassen. D.h. ChatGPT verliert nach dem Überschreiten einer vorgegebenen Anzahl an Token (4096 Token bei Version ChatGPT-3.5) den “roten Faden“ in einem Chat. D.h. es weiß nicht mehr, was es zuvor von sich gegeben hat. Das ist bei uns Menschen aber auch so …

Chatverlauf mit durchgängigem Kontext

Die vergangenen Anfragen bleiben in der linken Bildleiste von ChatGPT erhalten und können jederzeit im Rahmen dieses Chats fortgeführt werden. Will man das Thema wechseln, so bietet sich der Button „New Chat“ an, wodurch man einzelne Chats thematisch fokussieren kann.

Man spricht vom Kontext des Chats, der es ChatGPT ermöglicht zu wissen um welches übergeordnete Thema es bei einer Abfolge von Anfragen – dem Chatverlauf - geht.

ChatGPT und Gemini

Das Jahr 2023 wird wohl in die Geschichte eingehen, als das Jahr, in dem generative künstliche Intelligenz nicht mehr nur ein Thema für IT-Profis ist, sondern in der breiten Masse, der nicht technikaffinen Internetnutzer, angekommen ist.

11.2022 wurde ChatGPT von OpenAI öffentlich verfügbar und innerhalb von nur 5 Tagen erreicht ChatGPT eine Million Nutzer. Dafür hat Instagram 2,5 Monate benötigt, Facebook immerhin 10 Monate und Twitter gute 2 Jahre.

10.2023 machte Google seine KI namens Bard öffentlich verfügbar.

ChatGPT und Gemini sind beide sprachbasierte generative KIs, bei der eine künstliche Intelligenz vom Typ „Large Language Model (LLM)“ mit dem Nutzer unter Zuhilfenahme einer Chatoberfläche kommuniziert. Sie unterscheiden sich aber auf Grund ihrer Architektur.

ChatGPT

ChatGPT basiert auf der GPT-Architektur, welche von OpenAI entwickelt wurde. GPT-3 basiert auf 175 Milliarden und GPT-4 auf 100 Billionen Parametern. GPT gilt als Vielseitiger als Gemini.

Das Chat in ChatGPT steht für eine Mensch Maschine Schnittstelle (MMI), die einen Dialog zwischen Nutzer und KI in Form von Frage und Antwort ermöglicht.
ChatGPT und Bard kommunizieren beide mittels Chats.
Das „G“ in ChatGPT steht für Generative KI, was bedeutet, dass die KI eigenständige Texte erstellen (also „generieren“) kann, die sehr wahrscheinlich eine sinnvolle Antwort auf eine textuelle Eingabe bzw. Fragestellung darstellen.
ChatGPT und Gemini sind beide generative KIs.
Das „P“ in ChatGPT steht für Pre-Trained, was bedeutet, dass die KI vorab mit einer gigantisch großen Anzahl an Textinhalten bzw. Bildern aus Datenbanken trainiert wurde. Während des Trainings baut die KI einen multi-dimensionalen Vektorraum auf, in dem Token mittels Vektoren platziert werden.
ChatGPT und Gemini sind beide pre-trained.
Das „T“ in ChatGPT steht für Transformer. Transformer-Architiektur bezeichnet eine spezielle Architektur eines neuronalen Netzwerks, das in der Verarbeitung von natürlicher Sprache (Natural Language Processing, NLP) erfolgreich eingesetzt wird und welches von der Firma OpenAI entwickelt wurde.
- Zunächst werden in der Eingabe / Fragestellung („Prompt“ genannt), die für deren Beantwortung relevanten Daten mit Hilfe eines Aufmerksamkeitsmechanismuses erfasst.
- Auf Grund des Trainings hat sich das Modell selbst, also ohne menschliches Zutun, durch maschinelles Lernen, Muster und Beziehungen angelernt, um durch Gewichtungen bestimmen zu können, mit welchen Ausgaben es auf konkrete Eingaben reagieren soll.
- Auf Grund von Wahrscheinlichkeitsverteilungen erfolgt das Sampling, also die schrittweise Zusammenstellung der Antwort, bei der das wahrscheinlichste Wort der nächsten Ausgabe unter Berücksichtigung der bereits generierten Teilsätze so bestimmt wird, dass eine syntaktisch korrekte gut lesbare Antwort entstehen.

Die Stärke von ChatGPT liegt in der Fähigkeit textuelle Eingaben zu verstehen und zu beantworten. Darüber hinaus unterstützt ChatGPT-4 das Erstellen von Programmcode und die Fehlersuche in Programmcode. ChatGPT verfügt (Stand 02.2024) über keinen Zugriff auf aktuelle Webseiten. ChatGPT macht keine Angaben zur jeweiligen Quelle der Informationen. Ende 2023 hat OpenAI Verhandlungen mit Verlagen aufgenommen, um über die Kosten einer Lizenzierung von deren Inhalten für das Training von ChatGPT zu verhandeln.

Bing Chat

Bing Chat basiert auf der GPT-Architektur von OpenAI und auf dem Bildgenerator DALL-E3.

Bing Chat ist eine Erweiterung der Suchmaschine Bing von Microsoft und basiert auf GPT-4 von OpenAI, einem Unternehmen, an dem Microsoft umfangreich finanziell beteiligt ist.

Im Unterschied zu ChatGPT liefert Bing Chat sehr wohl Angaben zu den Quellen, mitunter ist das auch maths2mind.com. Der Nutzer kann zwischen den Konversationsstilen Precise, Balanced und Creative wählen. Die Wahrscheinlichkeit dass Bing Chat „halluziniert“ ist auf Grund der bestehenden Verbindung zu den Quellen geringer als bei ChatGPT.

Bing Chat bietet auch die Möglichkeit der Bildgenerierung mittels DALL-E.

Microsoft Copilot

Microsoft Copilot wiederum basiert auf Bing Chat.

Microsoft Copilot macht die Funktionen von Bing Chat außerhalb der eigentlichen Bing Suche, etwa in Microsoft Programmen wie Word verfügbar und erfordert Windows 11 mit mindestens dem 22H2-Update.

Google Bard

Bard basiert auf der LaMDA-Architektur, welche von Google AI bzw. Alphabet entwickelt wurde. Die LaMDA-Architektur wurde speziell für Dialoganwendungen, einschließlich Sprachübersetzungen, entwickelt.

So wie auch ChatGPT verwendet auch Bard Chats, ist eine generische KI und wurde vorab-trainiert, ist also pre-trained. Bard arbeitet aber nicht mit der GPT-Architektur, sondern mit der LaMDA Architektur. Bard basiert auf 137 Milliarden Parameter. LaMDA verwendet so wie GPT Token und eine Transformer-Architektur, die auf „Aufmerksamkeit“ basiert. Darüber hinaus verwendet LaMDA noch semantische Einbettungen, das sind zusätzliche Vektoren, welche die Bedeutung von Wörtern und Phrasen darstellen. Zudem hat LaMDA Zugriff auf weitere Google Dienste wie Google Search und Google Assistant.

LaMDA steht für Language Model for Dialog Applications

Google Gemini

Google AI verfügt neben der LaMDA-Architektur auch über die Gemini-Architektur, welche von Google Brain und Deepmind entwickelt wurde. Es gibt sie in den Varianten Ultra, Pro und Nano, die sich in der Anzahl der Hidden Layer der zugrunde liegenden neuronalen Netze unterscheiden. Bei Gemini handelt es sich um ein besonders effizientes LLM. Bard-Advanced basiert auf der Gemini-Pro Variante. Lokal auf Smartphones soll Gemini Nano zum Einsatz kommen. Für industrielle Anwendungen, etwa die Wettervorhersage, ist Gemini-Ultra vorgesehen.

Die Gemini-Architektur ist eine Multi-Model-Architektur, die mehrere Sprachmodelle mit unterschiedlichen Stärken und Schwächen kombiniert. Sie ist vielseitiger als die rein dialogorientierte LaMDA-Architektur. Die Gemini Architektur ist von Grund aus auf Multimodalität ausgelegt, d.h. sie kann mit Text, Bildern, Videos, Tönen und Code – mittels Alphacode 2 - umgehen.

Der Bildgenerator basiert auf Imagen-2. Haben Bildgeneratoren wie Midjourney bisher nach dem One-Shot-Verfahren Bilder aus einem Rauschen heraus generiert, kann man nun durch nachfolgende Befehle weitere Veränderungen am bereits generierten Bild vornehmen, ohne dass das Bild erneut aus einem Rauschen neu erzeugt wird. In die Bilder ist ein unsichtbares Wasserzeichen integriert, welches auf der Technologie SynthID basiert.

Gemini verfügt auch über die Fähigkeit durch den Nutzer hochgeladene Bilder verbal zu beschreiben und optisch Texte in Bildern zu erkennen (OCR – Optical Character Recognition).

Der Einstieg in ChatGPT

Sie können ChatGPT nutzen, indem Sie in ihrem Browser die URL „chat.openai.com“ aufrufen und sich dort mit Ihrem Google User anmelden. Du arbeitest also nicht anonym.

ChatGPT-3.5
Dann steht Ihnen die Version GPT-3.5 kostenlos und die Version GPT-4 gegen ein monatliches Entgelt zur Verfügung. ChatGPT 3.5 gibt den September 2021 als letztes Update für den trainierten Wissensstand an und arbeitet mit einem Limit von 4096 Token (Textfragmenten), was einem Chatverlauf von wenigen tausend Worten entspricht.
ChatGPT-4
Das kostenpflichtige ChatGPT 4 soll einen Chatumfang von ca. 50 Seiten umfassen und zusätzlich Bilder verarbeiten. Die Benutzeroberfläche wird nicht nur geschriebene Chats umfassen, sondern auch Spracheingabe (Voice-to-Text mittels Whisper) und Sprachausgabe (Text-to-Speech). Ebenfalls in Arbeit ist die Interpretation von Text, der in Fotos enthalten ist, als zusätzliche Eingabemöglichkeit. Zusätzlich gibt es zu ChatGPT-4 sogenannte Plug-Ins, die etwa die Anbindung des Computer Algebra Systems von Wolfram Alpha ermöglichen, wodurch ChatGPT auf tatsächlich rechnen kann

Der Einstieg in Gemini

Sie können Gemini nutzen, indem sie in ihrem Browser die URL „gemini.google.com“ aufrufen und sich dort mit Ihrem Google User anmelden. Auch hier arbeitest du nicht anonym.

Derzeit (02.2024) ist Gemini kostenlos.

Der Einstieg in Bing-Chat

Sie können Bing-Chat nutzen, indem sie in ihrem Browser die URL „bing.com“ aufrufen und sich dort mit Ihrem Microsoft Konto anmelden. Auch hier arbeitest du nicht anonym.

Derzeit (02.2024) ist Bing-Chat kostenlos.

Der Einstieg in Microsoft Copilot

Sobald Copilot von Microsoft in der entsprechenden Region freigegeben ist, und man über die erforderliche Windows-Version verfügt, sieht man in der Taskleiste das entsprechende Symbol, zudem wird es als Pop-Up-Fenster am rechten Bildschirmrand angezeigt. Copilot soll zudem direkt in Programmen von Microsoft Office verwendbar sein. (03.02.204, auf unserem Win-11-PC noch nicht verfügbar).

Sie können Copilot nutzen, indem sie in ihrem Browser die URL "copilot.microsoft.com" aufrufen und sich dort mit ihrem Microsoft User anmelden. Auch hier arbeitest du nicht anonym.

Derzeit (03.2024) ist Copilot kostenlos.

Sprachbasierte generative KI und Mathematik

Sprachbasierte generative KIs, bei der eine künstliche Intelligenz vom Typ „Large Language Model (LLM)“ mit dem Nutzer unter Zuhilfenahme einer Chatoberfläche kommuniziert können ohne Plugin, also Schnittstellen zu einem externen CAS, grundsätzlich nicht rechnen!

Das kann sich auch so lange nicht ändern als LLMs auf stochastischen Modellen basieren. D.h. sie erzeigen eine Wahrscheinlichkeitsverteilung von möglichen Antworten. Dies ist bei Texten über mathematische Inhalte ausreichend, …

Beispiel: Fragt man ChatGPT: „Wofür dient der Binomialkoeffizient“ so erhält man eine brauchbare Antwort: „Der Binomialkoeffizient, oft mit dem Symbol "n über k" oder "C(n,k)" dargestellt, ist eine mathematische Funktion, die in der Kombinatorik und Wahrscheinlichkeitstheorie weit verbreitet ist. Er dient dazu, die Anzahl der Möglichkeiten zu berechnen, k Elemente aus einer Menge von n Elementen auszuwählen, ohne die Reihenfolge zu berücksichtigen… Die Berechnung des Binomialkoeffizienten erfolgt in der Regel mithilfe der Kombinatorik-Formel: $C\left( {n,k} \right) = \left( {\begin{array}{*{20}{c}} n\\ k \end{array}} \right) = \dfrac{{n!}}{{k!\left( {n - k} \right)!}}$ .
In der weiteren Antwort kommt aber auch der Begriff „Binomiales Experiment“ vor. Fragt man nach, ob ein „Binomiales Experiment“ dasselbe wie eine „Bernoulli-Kette“ ist, so verfängt sich ChatGPT in Widersprüchen ….

… nicht aber für Rechenaufgaben, die eine exakte Antwort benötigen.

Beispiel: Fragt man ChatGPT „Wieviel ist 1+1?“, so erhält man als Antwort jenes Resultat, das ChatGPT am häufigsten in den Daten gefunden hat, mit denen es trainiert wurde: „1+1 ergibt 2“. Und müsste eigentlich hinzufügen: „Wahrscheinlich“.
Hat ChatGPT das Resultat aber noch nie gelesen, fängt es an zu raten: „Wieviel ist \root 5 \of {147,95} =“. Die Antwort lautet „Die fünfte Wurzel von 147,95 beträgt ungefähr 2,364“, was nicht wirklich brauchbar ist, denn: $\sqrt[5]{{147,95}} \approx 2,71658$

Rechenaufgaben erfordern ein Verständnis der zugrundeliegenden Mathematik, während KIs Muster in Trainingsdaten erkennen und daraus basierend auf einem Algorithmus ein Modell parametrieren, um neue Daten, ohne jegliches Verständnis der zugrundeliegenden Kausalitäten, – etwa von Gleichungen oder Formeln - zu generieren.

künstliche Intelligenz

generative KI

GPT

Generative Pre-Trained Transformer

Prompt

Chat mit KI

Large Language Model LLM

Natural Language Processing NLP

Trainingsdaten für maschinelles Lernen

KI ohne maschinellem Lernen

KI mit maschinellem Lernen

überwachtes maschinelles Lernen

nicht überwachtes maschinelles Lernen

bestärkendes maschinelles Lernen

neuronale Netze

Deep Learning

Algorithmus in der KI

Modell in der KI

Token in der KI

Token-Vektor in der KI

Einschränkung generativer KI im Bereich Mathematik

Transformer-Architektur

generative Fotobearbeitung

In dieser Mikro-Lerneinheit lernst du die Grundlagen der generative Fotobearbeitung und der generative Bildgenerierung mit Hilfe künstlicher Intelligenz kennen. Ausgehend von der Retouche analoger Fotos durch "nachbelichten" oder "abwedeln", kommen wir zum "photoshoppen" digitaler Fotos, damit diese am Smartphone "instagrammable" fürs soziale Netzwerk werden, wodurch leider unrealistische Standards etabliert werden.

Als die automatische Trennung vom Motiv im Vordergrund zum Himmel im Hintergrund durch leistungsfähige Computerprogramme möglich wurde, war der Grundstein für die generative Fotobearbeitung gelegt. Plötzlich konnten beliebige Bildteile markiert und gelöscht oder ausgetauscht werden. Durch generatives Erweitern wurden fehlende Bildteile durch die KI ergänzt.

Den derzeit aktuellen Entwicklungsstand dominieren generative Bildgeneratoren auf Basis "Text zu Bild". Diese Bildgeneratoren wurden mittels Diffusionsmethode, einer Anwendung maschinellen Lernens trainiert. Dabei beschreitet man den Weg vom klaren Foto mit textueller Beschreibung, über das Hinzufügen von Rauschen zu einem unkenntlichen Bild und wieder zurück zum klaren Foto durch Entrauschen. Das Entrauschen kann zweistufig erfolgen, wobei ein DAE (Denoising AutoEncoder) aus einem Ausgangsrauschen ein Bild niederer Auflösung generiert. Anschließend fügt ein VAE (Variational AutoEncoder) dem nieder aufgelösten Bild Details hinzu.

Beim maschinellen Lernen kommen neuronale Netze zum Einsatz. Wir gehen auf den Ansatz von der Firma OpenAI mittels CLIP (Contrastive Language-Image Pre-Training) ein, und erklären die Dual-Encoder-Architektur, mittels derer ein Bild-Encoder und ein Text-Encoder hochdimensionale vektorielle Darstellungen in einem Einbettungsraum erzeugen. Eine kontrastive Verlustfunktion sorgt dafür, dass im neuronalen Netz die Gewichte so angepasst werden, dass ähnliche Bild-Text-Paare im Einbettungsraum nahe beisammen zu liegen kommen.

Wir gehen auf die Eigenschaften eines optimalen Prompts ein und listen eine Auswahl an gängigen Tags auf. Den Abschluss bildet ein Test auf Praxistauglichkeit, bei dem wir unterschiedliche Bildgeneratoren die Darstellung des "Kampfes einer Mathematik-Studentin gegen ein aus Formeln und Termen zusammengesetztes Mathematik-Monster" generieren lassen.

Generative Fotobearbeitung und Bildgenerierung mittels KI

Foto-Retusche in der Zeit analoger Fotografie

Eine korrekte Belichtung und eine natürliche Farbwiedergabe, sowie eine ansprechende Auswahl der Vergrößerung bzw. des Bildausschnitts gehörten schon immer zu den selbstverständlichen Elementen einer gelungenen Fotoausarbeitung.

Selbst in den Anfängen der analogen Fotografie ging man bald einen Schritt weiter, indem man versuchte durch Foto-Retusche eine nachträgliche Verbesserung oder Veränderung der eigentlichen Aufnahme zu erreichen. Die Möglichkeiten bei der Ausarbeitung der Fotos waren zunächst sehr beschränkt, etwa auf partielles Nachbelichten, um Bildteile abzudunkeln, oder „Abwedeln“, um Bildteile aufzuhellen.

Photoshoppen, damit Bilder "instagrammable" werden, in Zeiten der Smartphone-Fotografie

Durch die digitale Fotografie, speziell in Verbindung mit dem ersten mächtigen computerbasierten Fotobearbeitungsprogramm „Adobe Photoshop“, haben sich Anfang des 3. Jahrtausends die technischen Möglichkeiten der Bildbearbeitung dramatisch verändert. Seither sind bearbeitete Fotos allgegenwärtig und der Ausdruck „photoshoppen“ ist zur umgangssprachlichen Bezeichnung für nachträglich veränderte Fotos geworden.

Speziell als private Amateurfotos durch das Aufkommen des auf Video- und Foto-Sharing spezialisierten sozialen Netzwerks Instagram plötzlich weltweite Verbreitung fanden, mussten Fotos auch „instagrammable“ sein. Atemberaubende Landschaften, neiderweckende Architektur, attraktive Menschen mit porenlos reiner Haut in modischen Outfits, wurden zunehmend bedeutend und durch technische Manipulation, etwa mittels „Filter“, auch für absolute Laien am Smartphone machbar.

Mittlerweile werden diese Entwicklungen in der Fotografie als sozial und psychisch problematisch angesehen, da sie unrealistische Standards etablieren und zu Selbstzweifeln und Depressionen führen können.

Generative Fotobearbeitung mit Hilfe von KI

Den nächsten Schritt nach „photoshoppen“ und „instagrammablen“ Fotos liegt in der generativen Fotobearbeitung, die erst durch den Einsatz von künstlicher Intelligenz möglich wurde.

Den Anfang generativer Fotobearbeitung machte vermutlich das automatische Freistellen des Bildvordergrunds vom Himmel im Bildhintergrund. Dadurch wurde es möglich, das Motiv im Vordergrund selektiv zu bearbeiten, gefolgt vom Austausch des oft flauen Erscheinungsbilds des Himmels, gegen einen „dramatischen“ Himmel.

Dazu war es erforderlich, dass die Bildbearbeitungssoftware automatisch zusammenhängende Objekte erkennt, obwohl die Objekte durch den Bildbearbeiter nur grob mit transparenten Pinselstrichen händisch markiert werden. Besonders problematisch sind dabei durchscheinende Objekte wie die Äste, Zweige und Blätter eines Baums oder feine Strukturen in Haaren, die sich gegen den Hintergrund kaum abheben.

Generative Bildbearbeitung mit Adobe Photoshop, Adobe Lightroom, Luminar Neo oder ähnlichen Bildbearbeitungsprogrammen entwickelten sich weiter und ermöglichen es heute, nicht nur den Himmel, sondern beliebige Details aus einem Foto zu löschen oder auszutauschen. So kann ein störender Strommast in einer Landschaftsaufnahme gelöscht werden, oder statt einer Bierkiste schwimmt plötzlich eine Meeresschildkröte im heimischen Pool...

Generatives Erweitern ermöglicht es etwa ein 4:3 Foto auf ein 16:9 Foto zu erweitern, indem fehlende Bildinhalte durch die KI passend ergänzt werden. D.h. die KI generiert Bildinhalte, die vorher nicht da waren.

Generative Bildgeneratoren auf Basis von "Text zu Bild"

Erneut einen Schritt weiter gehen generative Bildgeneratoren auf Basis „Text zu Bild“. Bildgeneratoren wie Midjourney, DALL-E, Stable Diffusion und Firelfy wurden anhand von Millionen Bildern trainiert und ermöglichen es, ohne eigenem bildlichen Ausgangsmaterial ein neues Bild allein auf Basis einer verbalen Beschreibung zu erschaffen.

Diffusionsprozess: Vom klaren Bild übers Rauschen zum künstlich generierten Bild

Diffusionsmodelle

Generative Bildgeneratoren, die auf Diffusionsmodellen basieren, erzielen derzeit (03.2024) die besten Bilder, die nur auf einer verbalen Bildbeschreibung basieren. „Diffusion“ ist dabei ein Vorgehen beim Training der Bildgeneratoren, welches vom MIT (Massachusetts Institute of Technology) und Adobe unter der Bezeichnung „Stable Diffusion“ mit dem Ziel entwickelt wurde, realistische Bilder zu generieren.

Diffusion ist daher eine Form des maschinellen Lernens und nicht etwa eine Architektur, wie „Transformer“.

Schritt 1 – Foto taggen: Der maschinelle Lernprozess startet mit Fotos oder Bildern, deren Bildgegenstand von Menschen mittels Tags sprachlich beschrieben wurde. Man spricht in diesem Zusammenhang von "gelabeleten" also beschriebenen Daten. Ein „Tag“ oder "Label" ist in diesem Zusammenhang eine kurze prägnante Bildbeschreibung, die in ein NLP-System (Natural Language Processing) einfließt. Das ist insofern nichts Neues, als schon seit langem alle Bilder in umfangreichen Bilddatenbanken mit Hilfe von Tags auffindbar gemacht wurden. Mit Hilfe des NLP-Systems soll letztlich aus einer verbalen Bildbeschreibung wieder ein Foto generiert werden und zwar künstlich durch die generative KI.

Während des maschinellen Lernens benötigt man hunderte Fotos mit ein und dem selben Bildgegenstand (z.B.: eine Erdbeere). Der jeweilige Bildgegenstand unterscheidet sich dabei von Foto zu Foto durch Farben, Formen, Texturen, Muster, Linien, Flächen und durch „unerwünschte“ Bildinhalte. Die Darstellungen unterscheiden sich zusätzlich durch Kunststile und Bildkomposition. Die Fotos mit dem Bildgegenstand zum Tag „Erdbeere“ zeigen: Erdbeeren am Feld, einzelne Erdbeeren, in 2 Hälften geteilte Erdbeeren, Erdbeeren mit drei Blättern am Stiel, Erdbeeren mit Zucker in einer Schale, Erdbeeren in eine Kiste, Erdbeeren in einem Korb, Erdbeeren mit Schlagobers, Erdbeere auf einem Tortenstück, Erdbeeren mit Stroh-Unterlage am Feld. Es kommen auch Zeichnungen, Grafiken und Gemälde von Erdbeeren zum Einsatz.

Der Midjourney Befehl /describe erstellt einen Prompt auf Basis eines Bildes, welches durch den Nutzer zuvor hochzuladen wurde. Anhand dieser Beschreibung kann man lernen mit welchen Tags Midjourney ein Foto assoziiert.

Schritt 2 - Verrauschen: Jedem Foto wird nach und nach Rauschen hinzugefügt, bis das dargestellte Objekt für den Betrachter völlig unkenntlich ist. Dazu verändert ein Algorithmus die Auflösung, die Pixel selbst oder fügt Gauß’sches Rauschen hinzu. Der Zusammenhang mit den ursprünglichen Tag bleibt dabei im so trainierten Modell erhalten.

Schritt 3 - Rauschreduzierung: Im Umkehrprozess wird anschließend versucht, das Rauschen aus dem Bild zu entfernen, um ein neues Bild zu erzeugen. Dabei kommen Diffusions-Transformer auf Basis neuronaler Netze zum Einsatz. Dieser Prozess kann etwa zweistufig erfolgen:

Schritt 3.1: Ein DAE (Denoising AutoEncoder) in Form eines neuronalen Netzes ist darauf trainiert, Rauschen aus einem anfänglichen Zufallsrauschen zu entfernen und ein, dem Prompt bzw. den Tags, entsprechendes Bild mit niedriger Auflösung zu generieren.
Schritt 3.2: Ein VAE (Variational AutoEncoder) ebenfalls in Form eines neuronalen Netzes ist darauf trainiert, einem Bild mit niedriger Auflösung, auf Grund von Wahrscheinlichkeiten, Details hinzuzufügen, damit ein, dem Prompt bzw. den Tags, entsprechendes Bild mit hoher Auflösung generiert wird.

Wenn alles richtig funktioniert hat, liegt dann wieder ein hochauflösendes Bild gemäß den Vorgaben vom Prompt vor.

Den Trainingsbildern wurde also „Rauschen“ hinzugefügt und das Modell hat so gelernt, wie es umgekehrt aus Rauschen wieder ein Bild erzeugen kann, welches der vorgegebenen Bildbeschreibung entspricht.

Wenn Midjourney einen /imagine Befehl abarbeitet, kann der Nutzer zusehen, wie es mit Rauschen startet und iterativ immer mehr Bilddetails hinzufügt, sodass sich das Bild den Vorgaben aus dem Prompt annähert. Gibt man mehrfach die selbe Bildbeschreibung ein, entstehen immer neue Varianten des Bildes, da das Ausgangsmaterial „Rauschen“ mit all seinen Zufälligkeiten ist.

Wie wir gesehen haben, ist die Bildgenerierung schwieriger als die reine Sprachgenerierung. Es muss nämlich nicht nur der Prompt „verstanden“ werden, sondern zusätzlich ein Zusammenhang zwischen der sprachlichen Beschreibung (Tag oder Label) und den entsprechenden, von der KI generierten, grafischen Bildelementen hergestellt werden.

Auch hier kommt wieder maschinelles Lernen auf Basis eines neuronalen Netzes zum Einsatz. Die Technik die OpenAI für diesen Zweck entwickelt hat, nennt sich CLIP (Contrastive Language-Image Pre-Training). Dabei kommt eine Dual-Encoder-Architektur zum Einsatz. Dual Encoder bedeutet, dass separate Encoder für Bilder und Texte parallel zum Einsatz kommen:

Der 1. Encoder ist ein Bild-Encoder. Dieser extrahiert während des Trainings relevante Merkmale aus einem Foto und erzeugt so eine hochdimensionale Vektordarstellung.
Der 2. Encoder ist ein Text-Encoder. Dieser erzeugt aus der Bildbeschreibung, also den Tags, eine semantische Bildbeschreibung und erzeugt ähnlich wie ein LLM eine Vielzahl an Token-Vektoren. „Contrastive Language“ bedeutet, dass für jedes Bild mehrere Bildbeschreibungen eingegeben werden. Und zwar solche, die mit dem Bildinhalt übereinstimmen, und solche, die nicht mit dem Bildinhalt nicht übereinstimmen. Dies ermöglicht es dem neuronalen Netz das Gewicht je Kante für übereinstimmende Bild-Text Paare zu erhöhen bzw. bei nicht übereinstimmende Bild-Text Paaren zu verringern.
Beide Vektordarstellungen werden in einen gemeinsamen Einbettungsraum vektoriell abgelegt. Dies ermöglicht es, die semantische Bedeutung von Texten mit visuellen Merkmalen in Bilddarstellungen parallel zu führen sodass zumindest die trainierte KI deren Beziehungen kennt. Diesen Einbettungsraum kann man sich zweidimensional wie ein Schachbrett vorstellen. Die Spalten sind mit den Text-Token und die Zeilen mit den Bild-Merkmalen beschriftet. In den Zellen finden sich die jeweiligen Bildinhalte. Diese Bildinhalte sind uns Menschen aber nicht mehr zugänglich. Man kann sie daher auch nicht kontrollieren oder manuell berichtigen, was bei der Erzeugung von Bildern zu unerwünschten Darstellungen, speziell bei Details wie Fingern führen kann.
CLIP verwendet dabei eine kontrastive Verlustfunktion, die darauf abzielt, ähnliche Text-Bild-Paare im Einbettungsraum nahe beisammen zu positionieren, während unähnliche Paare von einander entfernt zu liegen kommen. Dies erfolgt wie bei neuronalen Netzen üblich durch Anpassung der Gewichte entlang der Kanten im neuronalen Netz durch die Encoder. Dabei kommt eine Distanzmetrik (z.B.: der euklidische Abstand) zwischen den Repräsentationen zum Einsatz. Der Verlust wird minimiert, indem positive Paare nahe bei einander liegen.

So können zu vorgegebenen Texten passende Bilder generiert werden (Midjourney: /imagine) oder zu vorgegebenen Bildern beschreibende Texte (Midjourney: /describe) erstellt werden.

Diffusionsmodelle sind sehr trainings- und rechenintensiv. Man benötigt für deren Training etwa einen Datensatz von 400 Millionen Bild- und Textpaaren. Die Qualität des generierten Bildes hängt von der Qualität, der im Einbettungsraum hinterlegen vektoriellen Text- und Bild-Zuordnung ab.

Prompt-Engineering

Es erfordert vom Nutzer viel Erfahrung den Prompt so zu erstellen, dass das erwartete Bildresultat generiert wird. Man nennt diesen Vorgang „Prompt Engineering“. Diese Problematik wird noch verschärft, da sich die konkurrierenden Bildgeneratoren einerseits in deren Einbettungsraum, also im vektoriellen Text-Bild-Zusammenhang und andererseits in den verwendeten Trainingsdaten voneinander unterscheiden.

Wie wir bereits festgestellt haben wurden beim Training zur Beschreibung der Bildinhalte „Tags“ verwendet. Es ist daher naheliegend diese Tags auch in den Prompt einzubauen, um aus dem Ausgangsmaterial – einem Zufallsrauschen – ein gewünschtes Bild generieren zu lassen.

Ein optimaler Prompt sollte folgende Eigenschaften haben:

Stichwortartige, klare und präzise verbale Beschreibung des Bildinhalts, getrennt nach Hauptmotiv und Umfeld.
Angaben, wie man das Bild ohne KI erzeugen hätte können.

Nachfolgend eine Auflistung gängiger Tags, die sich für Prompt Engineering anbieten. Die Aufzählung erhebt keinerlei Anspruch auf Vollständigkeit und soll ausschließlich inspirieren!

Art Styles (Kunstrichtungen)

Painting (Malerei)
- Renaissance (Renaissance): Gekennzeichnet durch realistische Proportionen, Perspektive und klassische Themen. Stil der im 15. und 16. Jahrhundert vorherrschte. Markiert Übergang vom Mittelalter zur Frühen Neuzeit
- Baroque (Barock): Verschnörkelter, pompöser, reich verzierter Stil, der im 17. und 18. Jahrhundert vorherrschte.
- Impressionism (Impressionismus): Fängt flüchtige Momente, Licht und Atmosphäre mit lockerer Pinselführung ein. Stil des 19. Jahrhunderts.
- Expressionism (Expressionismus): Drückt Gefühle durch verzerrte, grobe Formen und lebhafte, ungemischte, kontrastreiche Farben aus. Stil des ausgehenden 19. Jahrhunderts
- Cubism (Kubismus): Stellt Objekte künstlich auf geometrischen Formen wie Würfel reduziert dar. Stil Anfang des 20. Jahrhunderts
- Surrealism (Surrealismus): Bekannt für traumhafte, unlogische Kompositionen mit Träumen, Visionen, Rauschzuständen. Stil Mitte des 20. Jahrhunderts.
Traditional Drawing and Painting (Traditionelles Zeichnen und Malen)
- Japanese Ink (Japanische Tusche): Minimalistische, fließende Tuschpinselführung.
- Watercolor Sketch (Aquarell-Skizze): Transparente, zarte Aquarellstudie.
- Pastel Drawing (Pastell-Zeichnung): Weiche, kreideartige Farben auf Papier.
- Oil Painting (Ölmalerei): Reichhaltige, strukturierte Gemälde mit Pigmenten auf Ölbasis.
Modern and Experimental Representations (Moderne und Experimentelle Darstellungen)
- Hyperrealistic (Hyperrealistisch): Über die Realität hinausgehende idealisierte hochauflösende Darstellung eines tatsächlich existierenden Objekts.
- Fantasy (Fantasie): Fantasiewelten, Kreaturen und magische Elemente.
- Surreal (Surreal): Traumhaft, mit unerwarteten Kombinationen von Objekten und deren Verzerrungen.
- Contemporary (Zeitgenössisch): Reflektiert aktuelle Zeiten und deren Themen
- Daguerreotype Daguerreotypie: (1830) Frühes fotografisches Verfahren mit einem ausgeprägten Vintage-Look.
- Abstract (Abstrakt): Einfache Formen, Farben und Kompositionen. Objekte auf deren Grundelemente reduziert
  Pixel Art (Pixel Kunst): Pop-Art, mit grellen sich wiederholenden Mustern mit erkennbaren Bildpunkten im Stil von Andy Warhol
- Anime Art (Japanische Animation): Farbenfrohe japanische Darstellung in Animationsfilmen.
- Manga Art (Japanische Comic): Schwarz-Weiße japanische Darstellung in Comics
- Typography Style (Druckkunst): Gut lesbare, optisch ansprechende Darstellung von Schriften und Layouts, soll das Erfassen der Bedeutung erleichtern.
- Graffiti Art (Ästhetische Schreibkunst): Es steht die Darstellung der Schrift im Vordergrund und nicht die Bedeutung oder der Inhalt
- Dripping Painting (Tropfende Malerei): Abstrakte Kunst mit scheinbar noch flüssiger oder tropfender Farbe.

Digital Illustration (Computerbasierte Darstellungen)
- Infographic (Informationsbezogene Darstellung): Klare, sachliche, informative Visualisierungen für Daten und Konzepte
- 2D Illustration (Zwei-Dimensionale Darstellung): Darstellung in der Ebene
- 3D Illustration (Drei-Dimensionale Darstellung): Räumliche Darstellung
- Isometric Drawing (Grund-, Auf- und Kreuzriss): Geometrisch exakte 3D-Darstellung

Photography (Fotografie)
- Cinematic Scene (Filmische Szenerie): Erzeugt eine filmähnliche Qualität, oft mit dramatischer Beleuchtung.
- Portrait (Porträtfotografie): Konzentriert sich auf das Einfangen des Wesens einer Person.
- Documentary (Dokumentarfotografie): Nimmt Ereignisse, Menschen und Orte aus dem wirklichen Leben auf.
- Street Photography (Straßenfotografie): Unverfälschte Aufnahmen des täglichen Lebens in städtischen Umgebungen.
- Landscape (Landschaften): Zeigt natürliche Landschaften und Umgebungen.
- Architectural Photography (Architekturfotografie): Gebäude und städtische Umgebung stehen im Fokus. Spiel mit Licht, Linien, Formen und Himmel
- Fashion (Mode): Hebt Kleidung, Accessoires und Stil hervor.
- Glamour (Glamouröse Fotografie): Betont Eleganz und Verführung.
- Double Exposure (Doppelbelichtungen): Übereinanderliegende Bilder für einen surrealen Effekt oder zur gleichzeitigen Darstellung zeitlich gestaffelter Vorgänge
- Long Exposure (Langzeitbelichtung): Bedeutet, dass ein Bild über mehrere Sekunden hinweg belichtet wird. Erzeugt Bewegungsunschärfe, Lichtspuren und weich fließendes Wasser
- Vintage (Nostalgisch): Greifen den Look vergangener Zeiten auf, verblasste Farben in sepia Tönen mit körniger Textur
- Polaroid Art: (Sofortbild): Ahmt das Aussehen von Polaroid-Sofortbildern nach.

Genre (Klassifikation mit Bezug zum Handlungsaufbau):
- Film Noir (Düsterer Look): Düstere, geheimnisvolle Szenerie, oft mit Verbrechensthematik.
- Horror (Horror): Angst und Entsetzen auslösend
- Western (Western): Ein edler, wohlgesonnener Held stemmt sich gegen eine Überzahl an Bösen in der Landschaft des amerikanischen Westen.
- Fantasy (Fantasy): Magische und übersinnliche Schauplätze.
- Romantic (Romanitk): Zelebriert Liebe und Gefühle.
- Drama (Drama): : Intense and emotional narratives.
- Animation (Animation): Bewegung entsteht durch eine Abfolge von Zeichentrick- oder Computerbildern, oder durch Stop-Motion-Animationen
- Science-Fiction (Science-Fiction): Wissenschaftsnahe spekulative Auseinandersetzung mit möglichen Zukunftsszenarien.
- Thriller (Thriller): Spannend und fesselnd mit Elementen die die Betrachter erschrecken.
- Mystery (Mystery): Fesselnde Rätsel und Geheimnisse, oft mit offenem Ende
- Documentary (Dokumentarisch): Ereignisse und Geschichten aus dem wirklichen Leben.
- Historical (Historisch): Schilderung vergangener Epochen und Ereignisse und deren Bezug zur Gegenwart

Camera Equipment (Kameragehäuse)
- Hasselblad X2D: Modefotografie mit 100 MP Sensor für höchste Bildqualität bei starken Vergrößerungen
- Phase One XF: Fotoapparat für Landschaftsfotografie, bei der man Details heraus-vergrößern kann
- Canon EOS R3: Reportage und Sport wo nicht viel Zeit zum Scharfstellen ist
- DJI Phantom 4: Luftaufnahmen und zur Verfolgung bewegter Objekte
- Nikonos V: Unterwasseraufnahmen und an regengepeitschten oder klimatisch extremen Orten, mit Wechselobjektiven
- GoPro Hero: Selfie-Action-Aufnahmen und Abenteuersport
- Polaroid 635 Supercolor: Sofortbildkamera für nostalgischen Look

Photo-Lenses (Objektive)
- 360-Degree-View Lens (Rundum-Objektiv): Erzeugt kugelförmig verzerrte Bilder mit einem Sichtwinkel im Bereich zwischen 180° und 360°
- Macro Lens (Makro-Objektiv): Eignet sich für extreme Nahaufnahmen im Maßstab jenseits von 1:1
- Fisheye Lens (Fischaugen-Objektiv): Starke tonnenförmige Verzerrung von Linien die nicht durch die Bildmitte laufen. Surreal anmutende Ansichten auch für Bildwinkel jenseits von 130°.
- Wide-Angle Lens (Weitwinkel-Objektiv): Weites Sichtfeld für Landschafts- und Architekturfotos. Rechte Winkel werden als rechte Winkel abgebildet. Große Tiefenschäfte und stellt Objekte im Vordergrund überproportional Groß dar.
- f=50mm (Normalobjektiv): Entspricht am ehesten dem menschlichen Sehen.
- f=85mm Lens (Portrait-Objektiv): Minimale Verzeichnung, natürlich wirkende Gesichtszüge, klare Trennung von Motiv und Bildhintergrund mit unverwechselbarem Bokeh
- Telephoto Lens (Teleobjektiv): Vergrößert weit entfernte Motive und komprimiert die Perspektive. Speziell Wildtier und Sportfotografie

Photography Films (Filme aus der Zeit der Analogfotografie)
- Kodachrome 64: Diafilm mit satten und leuchtenden Farben mit ausgezeichneter Archivierungsstabilität. Entwicklung mit K-14 Prozess.
- Kodak Ektachrome: Tageslicht-Diafilm mit feiner Körnung, satten Farben und exzellenten Hauttönen. Entwicklung mit E-6-Prozess.
- Kodak Portra: Farbnegativfilm mit spektakulären Hauttönen für Portrait und Modeaufnahmen
- Kodak Gold: Farbnegativfilm für Privatanwender, der für seine warmen Farbtöne, den guten Belichtungsspielraum und den günstigen Preis bekannt war.
- Ilford HP5 Plus 400: Hochgeschwindigkeits-Schwarzweißfilm mit feinem Korn und hervorragender Schärfe
- Kodak Tri-X: klassischer Schwarzweißfilm mit einem düsteren Charakter, vielseitigem Kontrast
- Technicolor: Farbfilmverfahren, der 1930er und 1940er Jahre und für seine lebendige und stilisierte Farbpalette in klassischen Hollywoodfilmen bekannt.
- Polaroid SX-70: Produzierte farbige Sofortbilder mit Polaroid-Film, der sich durch sein einzigartiges quadratisches Format und seine weiche, verträumte Ästhetik auszeichnete.
- Kodak Aerochrome: Infrarotfilm, der surreale Landschaften mit leuchtenden Rot- und Rosatönen einfängt und häufig für künstlerische und experimentelle Fotografie verwendet wurde.

Camera Sensor (Kamera-Sensoren)
- APSC Sensor (APSC Sensor) Hat gegenüber einem Vollformat-Sensor einen Cropfaktor von 1,6, um welchen sich die Brennweite des Objektivs scheinbar in Richtung Telewirkung verlängert. Preiswerter, da weniger Sensorfläche
- Full-Frame Sensor (Vollformat-Sensor): Sensorfläche wie Kleinbildfilm mit 36 x 24 mm.
- Aspect Ratio (Seitenverhältnis): Monitore weisen ein Seitenverhältnis von 16:9 oder 4:3 auf.
- Pixel Count (Pixelzahl): SD, Full-HD, 4k, 6k, 8k definiert Anzahl der Pixel je Zeile, Anzahl der Pixel in der Höhe errechnet sich aus dem Seitenverhältnis.

Shutter-Speed (Belichtungszeit)
- Fast Shutter Speed (kurze Belichtungszeit): <1/500 sec; Ideal für Action Fotografie, friert den Moment ein
- Moderate Shutter Speed (mittlere Belichtungszeit): 1/100 sec: Ideal für Alltagsszenen, friert Bewegungen ein
- Slow Shutter Speed (lange Belichtungszeit): > 1/10 sec: Hervorragend geeignet, um ein Gefühl der Bewegung zu erzeugen, wie bei Bildern mit fließendem Wasser oder Lichtspuren.

Aperture (Blende)
- Wide Aperture (Große Blendenöffnung): Niedrige Blendenzahl, etwa f/1,4 erzeugt eine geringe Schärfentiefe und lässt den Hintergrund verschwimmen (ideal für Porträts).:
- Narrow Aperture (Kleine Blendenöffnung): Hohe Blendenzahl, etwa f/16 erhöht die Schärfentiefe, sodass ein größerer Teil des Motivs im Fokus bleibt (Landschaftsfotografie).

ISO value (Lichtempfindlichkeit):
- ISO 25: Am besten geeignet für helles Sonnenlicht, mit hervorragender Schärfe und Detailgenauigkeit.
- ISO 100: Ideal für Aufnahmen bei ausreichend Tageslicht.
- ISO 400: Kompromiss bei Belichtungszeit und Rauschen, nützlich in der Dämmerung
- ISO 6400: Ermöglicht kurze Belichtungszeiten in der Dunkelheit für Fotos ohne Stativ, erkauft wird das aber mit sichtbarem Bildrauschen.

Lighting conditions (Lichtsituationen):
- Natural Daylight (Natürliches Tageslicht): Licht kommt von der Sonne
- Sunny (Sonnig): Helles Sonnenlicht bei klarem Himmel.
- Overcast (Bewölkt): Diffuses Licht aufgrund von Bewölkung
- Rainy (Regnerisch): Durch Regen gedämpftes Licht
- Foggy (Neblig): Geringe Fernsicht zufolge von Nebel
- Snowing (Schneefall): Schnee- und Eiskristalle machen das Licht diffus
- Sunlight (Sonnenlicht): grelles weißliches Licht von der Sonne
- Moonlight (Mondlicht): weiches, silbriges Licht vom Mond
- Firelight (Feuerlicht): Rötlich, warmes Licht durch ein Feuer
- Candlelight (Kerzenlicht): Gemütliches, flackerndes Licht von Kerzen
- Neon Light (Neonlicht): Grünliches Licht von Neonleuchten
- Low Light (Schwaches Licht): Gedämpftes Licht
- Low Key / High Key Lighting (Low / High Key Aufnahme): Dramatisch dunkle oder überstrahlend helle Lichtsituation
- Spot Lighting (Spot Beleuchtung: Auf einen bestimmten Bereich fokussierte Beleuchtung
- Softbox Lighting (Softbox Beleuchtung): Weiches, warmes, gleichmäßig flächiges Licht
- Light Through a Window (Lichteinfall durchs Fenster): Natürliches Licht, das durch Fenster einfällt.

Colors (Farben):
- Colorized (Koloriert): Hinzufügen von Farbe zu einem Schwarz-Weiß- oder Graustufenbild.
- Vivid (Lebendige Farben): Intensiv helle und gesättigte Farben.
- Bright / Dark Colors (Helle / Dunkle Farben): Helle Farben sind leuchtend und hell, während dunkle Farben tief und gedämpft sind.
- Black and White (Schwarz-Weiß): Eine Graustufendarstellung ohne Farbe.
- Warm / Cold Colors (Warme / Kalte Farben): Warme Farben (Rot, Orange, Gelb) vermitteln Wärme, während kalte Farben (Blau, Grün, Lila) kühler wirken.
- Monochromatic (Einfärbig): Farbschema mit Variationen eines einzigen Farbtons.
- Polychromatic (Vielfärbig): Enthält mehrere unterschiedliche Farben.
- Faded Colors (Verblasste Farben): Gedämpfte oder verwaschene Farbtöne.
- Colorful (bunt): Reich an verschiedenen leuchtenden Farben.
- Inverted Colors (Invertierte Farben): Umkehrung der Farbwerte (z. B. weiß wird schwarz, blau wird gelb).
- Rainbow Colors (Farben des Regenbogens): Spektrum der Farben eines Regenbogens.
- Desaturated Colors (Ungesättigte Farben): Reduzierte Farbintensität.
- Tan (Bräune): Hellbrauner Farbton
- Aqua (Wasserfarben): Blau-grüner Farbton
- Azure (Azurblau): Hellblauer Farbton

Lighting conditions depending on the time of day (Tageszeitabhängige Lichtsituationen):
- Night (Nacht): Dunkle Zeit, wenn die Sonne unter dem Horizont steht
- Sunrise (Sonnenaufgang): Der Moment, in dem die Sonne am Morgen zum ersten Mal über dem Horizont erscheint.
- Morning (Morgen): Nach dem Sonnenaufgang, durch zunehmendes Licht gekennzeichnet
- Golden Hour (Goldene Stunde): Magische Zeit kurz nach Sonnenaufgang oder kurz vor Sonnenuntergang, wenn das Licht warm und weich ist.
- Blue Hour (Blaue Stunde): Kurze Zeit vor Sonnenaufgang oder nach Sonnenuntergang, wenn der Himmel einen schönen blauen Farbton annimmt.
- Sunset (Sonnenuntergang): Der Moment, in dem die Sonne am Abend hinter dem Horizont verschwindet.
- Twilight (Dämmerung): Übergangsphase zwischen Tag und Nacht, die vor dem Sonnenaufgang und nach dem Sonnenuntergang stattfindet.

Image Section (Bildausschnitt):
- Extreme Wide Shot (Weitwinkel): Ein weit gefasster Bildausschnitt eignet sich für Landschaften oder Architekturaufnahmen, bei denen das Hauptmotiv in einem großen Kontext gezeigt wird.
- Establishing Shot (Totale): Eine totale Aufnahme zeigt das eigentliche Motiv und dessen Umgebung.
- Full Shot (Halbtotale): Bei einer halbtotalen Aufnahme wird das Motiv in einem mittleren Ausschnitt gezeigt. Es wird ein Teil der Umgebung sichtbar, aber der Blick wird auf das Motiv gelenkt.
- American Cut (Amerikanische Einstellung): Bildausschnitt, wie er in Western für Cowboys beim Duell üblich ist. Die Person ist vom Kopf bis einschließlich der Oberschenkel sichtbar. Beliebt für Personenfotos auf Instagram.
- Medium Cut (Halbnah): Eine halbnahe Aufnahme zeigt das Motiv von etwa der Taille oder dem Hüftbereich aufwärts, es werden aber immer noch Teile der Umgebung sichtbar. Sie entspricht der Wahrnehmung eines einem gegenüber stehenden Gesprächspartners. Diese Einstellung ist auf Sozial-Media sehr beliebt. Der "Influencer" ist halbnah zu sehen, der einzigartige, beeindruckende, fotogene "Instagrammable Place" ist im Hintergrund erkennbar.
- Sholder Close Up (Nahaufname): Die Naheinstellung zeigt das Motiv in einem sehr engen Bildausschnitt. Menschen werden vom Kopf bis unterhalb der Brust dargestellt, so als würden sie von einem Bildhauer als Büste modelliert werden.
- Close Up (Großaufnahme): Eine Person ist vom Kopf bis zu den Schultern sichtbar, bzw. werden nur einzelne Körperteile, wie etwa die Hände sichtbar. Großaufnahmen eignen sich natürlich auch sehr gut für Gegenstände.
- Extreme Close Up (Detailaufnahme): Ein Detailausschnitt zeigt einen sehr engen Blick auf ein bestimmtes Detail oder einen kleinen Teil des Motivs, etwa die Armbanduhr eines Darstellers oder ein kleines Motiv auf einer bemalten Blumenvase.
- Italian Shot (Italienische Einstellung): Eine aus dem Film "Spiel mir das Lied vom Tod" bekannte Detailaufnahme, bei der ausschließlich die Augenpartie der Darsteller zu sehen ist. Die englische Bezeichnung lautet "Italian Shot".
- Bird’s View Shot (Vogelperspektive). Zeigt die Szene von oben, wie von einem fliegenden Vogel aus gesehen.
- Low Angle Shot (Niedriger Aufnahmewinkel): Sicht von unten nach oben, vermittelt das Gefühl von Macht und Dominanz.

Moods (Stimmungen):
- Dark (Dunkel): Erweckt ein Gefühl von Geheimnis und Schatten.
- Bright (Hell): Strahlt Licht und Klarheit aus.
- Vibrant (Lebhaft): Strotzt vor intensiven Farben und Energie.
- Mystical (Mystisch): Rätselhaft, mit einem Touch vom Jenseits
- Romantic (Romantisch): Voller Emotionen, oft verbunden mit Liebe und Sehnsucht.
- Minimalistic (Minimalistisch): Auf die wesentlichen Elemente reduziert.
- Futuristic (Futuristisch): Zukunftsorientiert, mit einem Sinn für Innovation und Technologie.
- Meditative (Meditativ): Ruhig, beschaulich und besinnlich
- Seaside Ambient (Meeresambiente): Wellengeräuschen und salzige Luft.
- Underwater (Unterwasser): Unter Wasser, mit fließenden Bewegungen und gefiltertem Licht.
- Extraterrestrial (Außerirdisch): Fremd, jenseits unserer irdischen Welt.:
- Space (Kosmisch): Symbolisiert die unermesslichen kosmischen Weiten, übersät mit Sternen, Planeten und Galaxien.
- Desert (Wüstenhaft): Karge Landschaft mit Sand, Felsen und extremen Temperaturen.
- Forest (Wald): Ein üppiger, grüner Lebensraum, in dem es von Bäumen, wilden Tieren und Ruhe nur so wimmelt.

Surface characteristics and Reflections (Oberflächeneigenschaften und Spiegelungen)
- Glossy, Shiny, Glare (Glänzend): Glatt und spiegelnd, mit hohem Glanz.
- Matte (Matt): Nicht reflektierend, mit einer stumpfen Oberfläche.
- Shimmering (Schimmernd): Funkelnd, wie Sonnenlicht auf Wasser.
- Reflective (Reflektierend): In der Lage, Licht oder Bilder zurückzustrahlen.
- Mirrored (Spieglend): Exakt reflektierend wie ein Spiegel.
- Satin (Satin): Weich und glänzend, mit einem subtilen Schimmer.
- Transparent (Transparent): Lässt das Licht klar und ohne Verzerrung hindurch.
- Translucent (Streuend): Lässt Licht durch, aber macht es streuend und diffus.
- Opaque (Undurchsichtig): Das Licht wird vollständig blockiert, so dass darunter liegende Objekte nicht sichtbar sind.
- Polarized (Polarisierend): Filtert Lichtwellen, um Blendung zu reduzieren und die Klarheit zu verbessern. Z.B.: weiße Wolken auf strahlend blauem Himmel
- Luminescent (Lumineszierend): Emittiert selbstständig Licht, wie bei Materialien, die im Dunkeln leuchten.

Emotions (Emotionen):
- Fear (Angst): Eine Reaktion auf eine wahrgenommene Gefahr oder Bedrohung.
- Joy (Freude): Ein intensives Gefühl von Glück.
- Love (Liebe): Tiefe Zuneigung und Fürsorge für jemanden oder etwas.
- Hope (Hoffnung): Optimistische Erwartung eines positiven Ergebnisses.
- Anger (Wut): Starke Verärgerung oder Frustration.
- Sadness (Traurigkeit): Gefühl der Trauer oder des Kummers.
- Disgust (Abscheu): Abneigung gegen etwas Unangenehmes.
- Excitement (Aufregung): Vorfreude oder Begeisterung.
- Gratitude (Dankbarkeit): Aberkennung fremder Leistungen und deren Wertschätzung
- Guilt (Schuldgefühl): Emotionaler Kummer aufgrund von Fehlverhalten oder Bedauern.
- Envy (Neid): erlangen nach dem, was andere haben.
- Anticipation (Vorwegnahme): Gedankliche Erwartungshaltung, Vorgriff auf ein zukünftiges Ereignis

Archetypes (Urbilder):
- Hero (Held): Mutige Figur, die sich Herausforderungen stellt und über Widrigkeiten triumphiert.
- Superstar (Superstar): Eine ikonische und gefeierte Person
- Princess (Prinzessin): Eine königliche und anmutige Figur, oft mit Märchen in Verbindung gebracht
- Rebel (Rebell): Ein Nonkonformist, der Autoritäten oder gesellschaftliche Normen herausfordert.
- Detective (Detektiv): Eifriger Ermittler, der Rätsel löst und die Wahrheit herausfindet.
- Explorer (Entdecker): Neugieriger Abenteurer, der nach neuen Horizonten und Entdeckungen sucht.
- Lover (LiebhaberIn): Eine leidenschaftliche und romantische Seele, die in Herzensangelegenheiten verwickelt ist.
- Outlaw (Gesetzloser): Ein Abtrünniger, der außerhalb des Gesetzes oder der gesellschaftlichen Konventionen agiert.
- Magician (Magier): Eine mystische und rätselhafte Figur mit übernatürlichen Fähigkeiten.
- Everyman (Jedermann): Eine gewöhnliche Person, die die allgemeine menschliche Erfahrung repräsentiert.

Age group (Altersgruppe):
- Baby (Baby): Säuglinge.
- Infant (Kleinkind) Sehr junge Kinder
- Child (Kind): Eine junge Person vor Erreichen der Pubertät.
- Teenager (Teenager): Eine Person zwischen Kindheit und Erwachsensein, typischerweise im Alter von 13 bis 19 Jahren.
- Adolsescent (Heranwachsender): Eine Person, die sich im Übergangsstadium zwischen Kindheit und Erwachsensein befindet.
- Girl (Mädchen): Ein weibliches Kind oder eine junge Frau.
- Miss (Fräulein): Eine unverheiratete Frau
- Woman (Frau): Erwachsene weibliche Person
- Lady (Frau): Höfliche Anrede für eine elegante und beeindruckende Frau
- Boy (Junge): Ein männliches Kind oder ein junger Mann.
- Man (Mann): Erwachsene männliche Person
- Grandma (Großmutter): Eine liebevolle und erfahrene Großmutter.
- Grandpa (Großvater): Ein weiser und fürsorglicher Großvater.
- Senior (Senior) : Eine ältere Person, die oft mit dem Rentenalter in Verbindung gebracht wird.
- Elder Person (Ältere Person): Ein respektvoller Begriff für eine ältere Person, der ihre Weisheit und Erfahrung hervorhebt.

Atributes of human body (Eigenschaften des menschlichen Körpers):
- Striking Eyes (Auffällige Augen): Augen, die aufgrund ihrer Intensität oder ihrer einzigartigen Merkmale die Aufmerksamkeit auf sich ziehen.
- Silky Hair (Seidiges Haar): Glattes und glänzendes Haar mit einer weichen Textur.
- Well-Styled Hair (Gut gestyltes Haar): Sorgfältig gepflegtes und arrangiertes Haar für ein gepflegtes Aussehen.
- Elegant Posture (Elegante Körperhaltung): Anmutige und ausgeglichene Körperhaltung.
- Natural Beauty (Natürliche Schönheit): Unverfälschte, echte Attraktivität.
- Inner Glow (Inneres Strahlen): Eine strahlende Qualität, die von innen kommt und Positivität und Selbstvertrauen widerspiegelt.
- Hourglass-Shaped Body (Sanduhrförmiger Körper): Eine weibliche Figur mit ausgeprägten Proportionen, die eine schmale Taille hervorheben.
- Athletic Physique (Athletischer Körperbau): Ein fitter und durchtrainierter Körper, der durch körperliche Aktivität entsteht.
- Charming Smile (Charmantes Lächeln): Ein warmes und fesselndes Lächeln, das das Gesicht erhellt.
- Strong Jawline (Kräftige Kieferpartie): Gut ausgeprägte Konturen entlang des Kiefers, die oft mit Selbstvertrauen verbunden sind.

Characteristics of clothing (Merkmale der Kleidung):
- Stylish (Stilvoll): Ein modisches und gut abgestimmtes Erscheinungsbild.
- Elegant (Elegant): Anmutig, raffiniert und anspruchsvoll.
- Trendy (Trendig): Im Einklang mit den aktuellen Modetrends.
- Versatile (Vielseitig): Anpassungsfähig und für verschiedene Anlässe geeignet.
- Bohemian (Unkonventionell): Ungezwungen, freudig und unkonventionell. Inspiriert aus den 1960 Jahren.
- Flattering (Schmeichelhaft): Verstärkt das Erscheinungsbild und ergänzt die Gesichtszüge.
- Tailored (Maßgeschneidert): Individuell an den Körper angepasst und sorgfältig gefertigt.
- Transparent (Transparent): Durchscheinende Kleidung
- Cut out (Löchrig): Kleidung in der sich absichtlich Löcher befinden

Famous Role Model (Berühmte Vorbilder):

Hier beginnt es rechtlich bedenklich zu werden, denn wenn die KI die nachfolgenden Personen und deren charakterisitische Eigenheiten tatsächlich kennt, um sie nachmachen zu können, stellt sich schnell die Frage, ob dieses Wissen aus urheberrechtlich unbedenklichen Quellen stammt und ob die Resultate rechtssicher verwendet werden dürfen.

- Painter (Maler): abhängig von persönlichen Vorlieben
- Graphic Designer (Grafiker): abhängig von persönlichen Vorlieben
- Photographer (Fotograf): abhängig von persönlichen Vorlieben
- Director (Regisseure): abhängig von persönlichen Vorlieben
- Set Designer (Bühnenbildausstatter): abhängig von persönlichen Vorlieben
- Film star (Filmstar): abhängig von persönlichen Vorlieben
- Superheroes (Superhelden): abhängig von persönlichen Vorlieben
- Cartoon Character (Zeichentrickfigur): abhängig von persönlichen Vorlieben

Test auf Praxistauglichkeit: Tech-Demo vom 28.03.2024

Erzeuge ein Foto wie folgt:

A 22-year-old mathematics student with long blonde hair, cut-out jeans, and a white T-shirt, elegantly posed, fights a math monster in the lecture hall with a ruler in hand. The monster is made up of mathematical terms and formulas. It takes the form of a dragon and attacks the student with its fiery eyes, bared teeth, and clawed claws. The mood is threatening and chaotic, but the student is determined to win the battle. Hyper-realistic cinematic 4k scenery, daylight, vibrant colors, medium shot, wide-angle shot.

Hier das Resultat von Copilot unterstütze von DALL·E

Hier das Resultat von Midjourney v 6.0:

Illustration generiert durch KI Midjourney

Hier das Resultat von Adobe Firefly

Retousche analoger Fotos

Photoshoppen

Instagrammable

generative Bildgeneratoren

Text zu Bild

Diffusion als Form des maschninellen Lernens

DAE - Denoising AutoEncoder

Variational AutoEncoder

Midjourney imagine Befehl

Midjourney describe Befehl

CLIP Contrastive Language-Image Pre-Training

Einbettungsraum

Kontrastive Verlustfunktion

Prompt Engineering