Mittwoch, 28. Mai 2025

Wie funktionieren ChatGPT und andere Large Language Models?

Auch wenn die LLMs selbst für ihre Entwickler eine Black Box sind, kann es hilfreich sein, wenn man wenigstens eine Grobvorstellung von dem hat, was darin ist. In ChatGPT und den anderen LLM (Large Language Models)?

Dankenswerterweise hat Herr Rau eine ausführliche Erklärung verfasst. Er erklärt es Schritt für Schritt. Dann folgen mehr oder minder genaue (und mehr oder minder verständliche) Einzelerläuterungen

Ich beginne mit Herrn Raus Zusammenfassung:

  1. Ein LLM wird mit dem Äquivalent von 100 Millionen Büchern an Text trainiert. Das Training geschieht erst automatisch, dann durch menschliches Feedback.
  2. Ein LLM besteht aus 120 Decoder-Schichten.
  3. Am Anfang wird ein Eingangstext in Token zerlegt, und zwar maximal 8.000 bis 128.000 Token.
  4. Jedes Token wird in einen 10.000-dimensionalen Raum eingebettet, erhält also ein Embedding bestehend aus 10.000 Zahlen. [zu Herrn Raus Erklärung von Embedding]
  5. In jeder Decoder-Schicht wird jeder Eingangsvektor in beliebiger Reihenfolge verarbeitet.
  6. Bei der Verarbeitung werden die 7.999 Nachbartoken ebenfalls berücksichtigt. Wie sehr und wie, das entscheiden der Q- und der V-Vektor des aktuellen Tokens und die 7.999 K-Vektoren der Nachbartoken zusammen. Die werden anhand trainierter Tabellen ausgerechnet. Das ist das eigentliche Kern der Sache.
  7. Bei dieser Verarbeitung steht ein Neuronales Netz an letzter Stelle.
  8. Nach der Verarbeitung entsteht wieder für jedes der 8.000 Token ein neuer Vektor der gleichen Größe.
  9. Die Schritte 5 bis 8 wiederholen sich je Decoder-Schicht.
  10. Das letzte Embedding des letzten Token wird in ein Neuronales Netz eingegeben, das 100.000 Ausgangsneuronen hat: für jedes Token im Wortschatz eines. Deren Werte heißen Logits.
  11. Die Logits werden mit Softmax (normalisierte Exponentialfunktion) normalisiert, so dass man 100.000 Werte zwischen 0 und 1 hat, die für jedes Token im Wortschatz eine Wahrscheinlichkeit angeben.
  12. Ein Algorithmus wählt aus diesen Werten ein Token aus, das das nächste generierte Token bildet.
  13. Der Prozess beginnt von vorn.

Die Zahlen sind gerundet und geschätzt und gehen je nach Modell auch mal um den Faktoren zehn oder mehr nach unten, sind aktuell aber an der Obergrenze.

Jetzt zu den Einzelerläuterungen:

LLM Grundlagen, Teil 1: Über N-Gramme

Ein Computerprogramm hat eine Textmenge zur Verfügung und sucht die jeweils wahrscheinlichsten Textverknüpfungen heraus: mit 1, 2, 3 und n-Wörtern. (N-Gramme)

Hier erklärt Herr Rau.

Statt Wörtern verwenden die Large Language Models Tokens, das sind charakteristische Schriftbestandteile (meist Silben in Verbindung mit Zeichen davor oder danach), die mehr Informationen enthalten als Buchstaben, aber nicht so zahlreich sind wie Wörter.

Herr Rau erklärt genauer.

Diesmal folgt der vollständige Text von Herrn Rau:

Keine Kommentare:

Kommentar veröffentlichen