In Fällen, wo für einen Telefonanschluss Vertragsdaten für zwei Personen hinterlegt sind, verweigert die Telekom diesen Personen die Auskunft, welche Vertragsdaten bei ihr hinterlegt sind, sondern verschickt E-Mails, die nahezu perfekt an Phishingmails angepasst sind, in denen sie die Kunde auffordern, ihr die bei ihr hinterlegten Vertragsdaten zuzuschicken.
Da ich das nicht wusste, habe ich aufwändig versucht, Aufklärung darüber zu erhalten. Da die Angestellte der Telekom (oder eine Callcenters) so höflich war, mich nicht zu unterbrechen, verstand ich erst nach einem sehr ausführlichen Telefongespräch, weshalb mir die Telekom die Auskunft verweigerte. Sie versprach mir, eine neue Mail zu schicken, aufgrund derer ich der Telekom die Auskunft über die bei ihr hinterlegten Vertragsdaten per Post zuschicken könne. (Dass diese Daten der Telekom natürlich bekannt sind, spricht selbstverständlich nicht gegen diesen bürokratischen Prozess - sieh die oben verlinkte Auskunft der KI Gemini.)
Die mir versprochene Mail ist bei mir nicht eingetroffen, aber auch nicht in meinem Spamordner zu finden. Sobald ich weitere Auskünfte über den Vorgang geben kann, werde ich sie hier veröffentlichen.
In der Zwischenzeit hier eine Auskunft, die ich in meinem Spam-Ordner gefunden habe über eine Mail, die mir, da verdächtig nicht zugeschickt werden könne. Verantwortlich für die Mail:
Karlsruhe Branch Brauerstr. 48, 76135 Karlsruhe, Germany Management Board: Alexander Charles, Dr. Michael Hagenau, Thomas Ludwig, Dr. Verena Patzelt Registered office: Montabaur; registered at the Local Court of Montabaur (HRB 7666) VAT ID: DE243413002
Ich bin sicher, dass dies Firma vielen Lesern ihres Spamfiles bekannt ist und ich insofern nichst Neues ausplaudere.
https://www.zeit.de/2026/13/ki-training-google-urheberrecht-journalismus-prozess...] Der Deutsche Journalistenverband sagt, das Verfahren sei "von herausragender Bedeutung für den Schutz des Journalismus in Europa", weil es letztlich darüber entscheidet, ob man mit Texten künftig noch Geld verdienen kann. Nicht nur mit Journalismus, auch mit Gedichten, Romanen, Liedtexten.
Für die Techindustrie steht auf dem Spiel, ob es Dienste wie ChatGPT, Claude oder Gemini so überhaupt geben darf. Oder ob Konzerne wie Google in Europa gezwungen werden können, Entschädigungen an Urheber zu zahlen – oder ihre Modelle nur noch mit lizenziertem Material zu trainieren, was sie wohl dümmer werden ließe und sehr viel teurer.
Der Streit, an dem das nun entschieden werden soll, begann im Oktober 2023. Damals reichte die Like Company bei einem ungarischen Gericht Klage ein. Die Firma betreibt sechs Nachrichtenportale. Google, so der Vorwurf, nutze deren Texte zum Training seiner KI Gemini, die damals noch Bard hieß. Und jetzt gebe Gemini Antworten, die diesen Artikeln ähnelten. Die ungarischen Richter sollten klären, ob Google sich damit strafbar macht. Was keine leichte Aufgabe ist, denn die meisten Gesetze, auf deren Grundlage sich urteilen ließe, sind älter als die Technologie, um die es jetzt geht. Man kann in solchen Fällen den EuGH um Hilfe bitten. Er entscheidet dann, wie das Recht auszulegen ist.
Ist das KI-Training illegal?
Im vergangenen Mai schickte die ungarische Justiz also eine Zusammenfassung der Argumente beider Parteien nach Luxemburg, dazu Fragen wie: Ist die Antwort eines Chatbots, in der Texte anderer vorkommen, eine unerlaubte Wiedergabe? Sind schon die Datensätze, mit denen Konzerne wie Google ihre KI trainieren, eine illegale Kopie?
Es geht in Luxemburg jetzt nicht mehr nur um die Like Company oder um Google. Das Gericht soll an diesem Beispiel eine grundsätzliche Entscheidung treffen. Sie wird dann den Ausgang vieler anderer Prozesse in Europa beeinflussen, die gerade zu diesen Fragen laufen. [...]
Wenn eine KI mit einem Text trainiert wird, unterteilen Firmen diesen Text in Token, also Wörter oder Wortfetzen. Das Modell merkt sich dann, in welchem Kontext sie auftauchen. Stellt man dem Chatbot später eine Frage, berechnet er, welche Wörter, statistisch gesehen, aufeinander folgen müssten.
Google behauptet, Gemini speichere keine Texte, nur diese mathematischen Formeln. Man müsse sich die Trainingsdaten vorstellen wie ein Puzzle, das in Tausende Teile zerfällt – und dann in allen möglichen Varianten neu zusammengesetzt wird. Es gibt jedoch Zweifel, ob diese Erzählung stimmt.
Im Januar veröffentlichten Forscher der Universitäten Stanford und Yale eine Studie, laut der fast alle Chatbots bekannte Bücher teilweise wörtlich wiedergeben, zum Beispiel Harry Potter und der Stein der Weisen. Die Gema zeigte im Verfahren gegen OpenAI, dass ChatGPT, wenn man die KI nach Songs von Reinhard Mey und Herbert Grönemeyer fragt, erstaunlich textsicher ist.
Die Modelle erinnern sich an die Trainingsdaten, auch wenn sie das vielleicht nicht sollen. [...]
Budapest, zwei Wochen vor der Anhörung beim EuGH. Ein halbes Jahr hat es gedauert, bis der Anwalt der Like Company einem Gespräch zugestimmt hat. Zunächst war er aus "prozesstaktischen Gründen" dafür nicht zu haben, nun hat sich die Taktik offenbar geändert.
Die Kanzlei liegt in einem Hinterhof in der Nähe der Donau, einen Empfang gibt es nicht. Gyula Rátz, ein schmächtiger, schüchterner Mann, holt einen am Eingang ab. Wirklich bekannt war er als Anwalt für Urheberrecht in Ungarn bisher nicht.
Kein Schadensersatz gefordert
Dafür klingt er ziemlich entschlossen: "Google und alle anderen Technologieunternehmen sollten sich nicht darauf verlassen können, Inhalte anderer kostenlos zu nutzen." Und: "Sie müssen um Erlaubnis bitten und dafür bezahlen."
Gut, aber warum dann ausgerechnet dieses Verfahren? Warum ein Text über Delfine? Die vielen Ungereimtheiten in der Vorlage?
Der Delfin-Text sei nur ein Beispiel von vielen gewesen, um das Problem zu illustrieren, sagt Rátz. Jetzt, da das Verfahren öffentlich geworden sei, machten sich natürlich viele darüber lustig. Dabei wolle er ja gar nicht über einzelne Artikel streiten, sondern die grundsätzlichen Rechtsfragen klären.
Auch für die Fragen an den EuGH, die nun für so viel Verwirrung sorgen, hat Rátz eine Erklärung: Google habe diese Fragen maßgeblich formuliert.
Ach so?
Das ungarische Gericht habe beide Parteien gebeten, Entwürfe für das Dokument einzureichen, erklärt Rátz. Das habe er auch getan, aber am Ende hätten sich Googles Anwälte noch mit einigen Änderungen durchgesetzt. Der Konzern widerspricht der Darstellung nicht. Rátz scheint sich bewusst zu sein, dass die Fragen jetzt eine gewisse Schlagseite haben, Google die Klage, wie sie jetzt dargestellt wird, leicht angreifen kann. Besonders wütend darüber wirkt er allerdings nicht. Das Wichtigste sei doch, dass jetzt endlich entschieden werden könne.
Bleibt die Frage, wie die Like Company das Ganze überhaupt finanziert. Rátz hat einen sehr reichen Gegner, aber er fordert von ihm kein Geld. Keinen Schadensersatz für seinen Mandanten, dessen Firma das Geld sicher gut gebrauchen könnte, keine Übernahme der Prozesskosten. Auch Google soll keine Ansprüche angemeldet haben. Wieso nicht?
Urheberrechtsklagen einzuleiten, sei ziemlich günstig, sagt Rátz, mit Geldforderungen hätte man Google nur Angriffsfläche gegeben und das Verfahren verzögert. Schadensersatz wolle die Like Company später geltend machen. Zur Höhe seines Honorars möchte er sich nicht äußern.
Zwei verlorene Klagen gegen Google
Hinweise liefert jedoch ein Schreiben, mit dem sich Rátz in der Vergangenheit an ungarische Medienunternehmen gewandt hat und das der ZEIT vorliegt. Kaltakquise, wenn man so will.
Damals ging es nicht um Chatbots, sondern um Googles Suchmaschine. Seit 2021 gibt es ein neues Gesetz in der EU: Der Konzern muss nun Geld an Verlage bezahlen, wenn er eine längere Vorschau ihrer Artikel anzeigt. Viele Medienhäuser schlossen sich daraufhin zusammen, um eine Beteiligung an Googles Umsätzen zu erstreiten. Andere sind eigene Lizenzdeals mit dem Konzern eingegangen.
Rátz bot ungarischen Medienunternehmen in dem Schreiben seine Dienste an, er machte Druck. Wer zu spät rechtliche Schritte einleite, erhalte "möglicherweise einen deutlich geringeren Betrag, da die von Google gezahlte Summe auf zu viele Veröffentlichungen aufgeteilt wird". Und er bot einen Deal an: Anwaltskosten würden nur fällig, falls er auch gewinnt. In Deutschland wäre das verboten.
Zwei Klagen hat Rátz nach Informationen der ZEIT daraufhin gegen Google geführt. Beide für kaum bekannte Internetplattformen, beide vor demselben ungarischen Gericht, beide hat er verloren. Google berufe sich in Verhandlungen mit deutschen Verlagen nun auf diese Urteile, sagen Vertreter der Medienunternehmen genervt.
Rátz reagiert unwirsch, als man ihn auf die Klagen anspricht. Aber er räumt ein: Er habe die Like Company kontaktiert, nicht andersherum.
Ist er einfach naiv, ein bisschen übermütig? Ein Geschäftsmann, der in der unsicheren Rechtslage eine Chance wittert? Oder steckt doch mehr dahinter?
Absprachen mit Google bestreitet Rátz vehement. "Wir sind aktiv geworden, weil wir überzeugt sind, dass das Recht auf unserer Seite ist." Er sei zuversichtlich, dass die Antworten des EuGH vielen Unternehmen zugutekommen werden.
Google will sich zu diesen Fragen nicht äußern. Der Konzern teilt nur mit, er lege das Recht so aus, dass man KI mit öffentlichen Informationen trainieren dürfe. Alles andere würde der Wettbewerbsfähigkeit Europas schaden. Das Urteil des Europäischen Gerichtshofs wird für Ende des Jahres erwartet." (ZEIT 23.3.26)
Bekanntlich können Menschen auch ihr eigenes Lebenswerk nicht übersehen. Und die KI kann uns nur das liefern, wonach wir fragen. Verstehen kann sie ohnehin nicht.
Das sind natürlich Binsenwahrheiten. Aber einem ganzen Leben in einer Autobiographie Sinn zu geben, erfordert Arbeit, die nicht unbedingt nötig ist, sofern man im Alltag genügend anderes Sinnvolle tun kann.
Zugegeben: Auch Goethe hat (z.B.) mit Dichtung und Wahrheit seinem Leben einen Sinn gegeben, aber er hat auch Faust II geschrieben und so vielen Interpreten und Biographen Stoff geliefert getreu dem Satz "Wenn die Könige bauen, haben die Kärrner zu tun.“ aus den Xenien. Schiller hatte keinen Eckermann und weniger Kärrner-Interpreten.
Das heißt nicht, dass ich für deine Verstehenshilfen nicht dankbar wäre. Ich behaupte nur, dass die KI das nicht besser kann als wir.
Da die KI nicht selber sehen kann, arbeiten im Globalen Süden viele (mag sein, dass eine KI das beziffern kann) in Akkordarbeit, die mit Cent-Bruchteilen entlohnt wird, daran, Gegenstände und Vorgänge in Videos zu benennen. Das ermöglicht, dass sie so programmiert werden kann, dass sie in Alltagssituationen sinnvoll reagieren kann. Auch das ist inzwischen eine Binsenwahrheit, die aber Schüler auch erst einmal aufnehmen müssen, um die menschliche Arbeit, die hinter KI-Leistungen steht, würdigen zu können.
(angeboten von apanat in einem Kommentar zu jeanpol)
Dazu die KI gemini:
Damit eine KI – etwa in einem autonomen Auto oder einem Roboter – Videobilder zur Selbststeuerung nutzen kann, muss sie den zweidimensionalen Pixelstrom in ein dreidimensionales Verständnis der Welt übersetzen. Dieser Prozess wird oft als Computer Vision bezeichnet.
Hier sind die entscheidenden Schritte, wie aus bunten Punkten auf einem Sensor eine Handlungsanweisung wird:
1. Objekterkennung und Klassifizierung
Zuerst muss die KI wissen, was sie sieht. Ein neuronales Netz analysiert jedes Einzelbild (Frame) des Videos.
Bounding Boxes: Die KI zieht Rahmen um erkannte Objekte (z. B. „Fußgänger“, „Stoppschild“, „Baustelle“).
Semantische Segmentierung: Hier geht die KI tiefer und ordnet jedem einzelnen Pixel eine Kategorie zu. So weiß sie genau, wo der „Asphalt“ aufhört und der „Bürgersteig“ beginnt.
2. Tiefenschätzung und 3D-Rekonstruktion
Ein Videobild ist flach, aber Steuerung findet im Raum statt. Die KI muss Distanzen berechnen:
Stereo-Vision: Wenn zwei Kameras vorhanden sind, nutzt die KI die Disparität (den leichten Versatz), ähnlich wie das menschliche Auge.
Structure from Motion (SfM): Bei nur einer Kamera nutzt die KI die Eigenbewegung. Da sich nähere Objekte im Video schneller bewegen als ferne, kann sie eine Tiefenkarte berechnen.
Monokulare Tiefenschätzung: Moderne KIs „raten“ die Tiefe basierend auf Erfahrungswerten (z. B. „Ein Auto dieser Größe muss etwa 20 Meter weit weg sein“).
3. Optischer Fluss (Bewegungsanalyse)
Für die Selbststeuerung ist nicht nur wichtig, wo etwas ist, sondern wohin es sich bewegt.
Die KI vergleicht aufeinanderfolgende Bilder, um den optischen Fluss zu berechnen. Dadurch erkennt sie:
Vektoren: In welche Richtung und mit welcher Geschwindigkeit bewegen sich andere Verkehrsteilnehmer?
Time-to-Collision: Wie lange dauert es bei aktueller Geschwindigkeit, bis ein Objekt berührt wird?
4. Sensor-Fusion und Lokalisierung (SLAM)
Das Videobild allein reicht oft nicht aus. Die KI kombiniert die visuellen Daten mit anderen Quellen:
SLAM (Simultaneous Localization and Mapping): Die KI erstellt gleichzeitig eine Karte der Umgebung und verortet sich selbst darin.
Abgleich mit Sensoren: Die visuellen Daten werden mit Radar- oder LiDAR-Daten (Lichtimpulsen) abgeglichen, um Fehler der Kamera (z. B. Blendung durch Sonne) auszugleichen.
5. Die Logikschicht (Pfadplanung)
Am Ende steht die Entscheidung. Die interpretierten Daten fließen in ein Modell, das Wahrscheinlichkeiten berechnet:
„Das Objekt ist ein Kind am Straßenrand. Die Bewegungsvektoren zeigen Richtung Fahrbahn. Wahrscheinlichkeit für Betreten der Fahrbahn: 40 %. Aktion: Geschwindigkeit reduzieren.“
Tucholsky hat es behauptet. Angesichts der Fake News und er KI, die sie mit als Trainingsmaterial verwendet, wird es problematisch:
Die Angst vor Satire ist gestiegen, seit KI alles registriert. Mittelfristig wird die Wikipedia gegen KI-Unsinn nicht ankommen.
Vorläufig scheint auch mir eine Löschung sinnwidrig. Aber wer weiß, wie es weitergeht. Schon jetzt dürften mehr Schülertexte von KIs stammen als von Menschen.
Wie man da Abhilfe schafft, "ist des Schweißes der Edlen wert". Ich bin nicht edel und überlasse diese Arbeit den Spezialisten.
Der Zürchersee
Schön ist, Mutter Natur, deiner Erfindung Pracht
Auf die Fluren verstreut, schöner ein froh Gesicht,
Das den großen Gedanken
Deiner Schöpfung noch einmal denkt.
Von des schimmernden Sees Traubengestaden her,
Oder, flohest du schon wieder zum Himmel auf,
Komm in rötendem Strahle
Auf dem Flügel der Abendluft,
Komm, und lehre mein Lied jugendlich heiter sein,
Süße Freude, wie du! gleich dem beseelteren
Schnellen Jauchzen des Jünglings,
Sanft, der fühlenden Fanny gleich.
Schon lag hinter uns weit Uto, an dessen Fuß
Zürch in ruhigem Tal freie Bewohner nährt;
Schon war manches Gebirge
Voll von Reben vorbeigeflohn.
Jetzt entwölkte sich fern silberner Alpen Höh,
Und der Jünglinge Herz schlug schon empfindender,
Schon verriet es beredter
Sich der schönen Begleiterin.
"Hallers Doris", die sang, selber des Liedes wert,
Hirzels Daphne, den Kleist innig wie Gleimen liebt;
Und wir Jünglinge sangen
Und empfanden wie Hagedorn.
Jetzo nahm uns die Au in die beschattenden
Kühlen Arme des Walds, welcher die Insel krönt;
Da, da kamest du, Freude!
Volles Maßes auf uns herab!
Göttin Freude, du selbst! dich, wir empfanden dich!
Ja, du warest es selbst, Schwester der Menschlichkeit,
Deiner Unschuld Gespielin,
Die sich über uns ganz ergoß!
Süß ist, fröhlicher Lenz, deiner Begeistrung Hauch,
Wenn die Flur dich gebiert, wenn sich dein Odem sanft
In der Jünglinge Herzen,
Und die Herzen der Mädchen gießt.
Ach du machst das Gefühl siegend, es steigt durch dich
Jede blühende Brust schöner, und bebender,
Lauter redet der Liebe
Nun entzauberter Mund durch dich!
Lieblich winket der Wein, wenn er Empfindungen,
Beßre sanftere Lust, wenn er Gedanken winkt,
Im sokratischen Becher
Von der tauenden Ros′ umkränzt;
Wenn er dringt bis ins Herz, und zu Entschließungen,
Die der Säufer verkennt, jeden Gedanken weckt,
Wenn er lehret verachten,
Was nicht würdig des Weisen ist.
Reizvoll klinget des Ruhms lockender Silberton
In das schlagende Herz, und die Unsterblichkeit
Ist ein großer Gedanke,
Ist des Schweißes der Edlen wert!
Durch der Lieder Gewalt, bei der Urenkelin
Sohn und Tochter noch sein; mit der Entzückung Ton
Oft beim Namen genennet,
Oft gerufen vom Grabe her,
Dann ihr sanfteres Herz bilden, und; Liebe, dich,
Fromme Tugend, dich auch gießen ins sanfte Herz,
Ist, beim Himmel! nicht wenig!
Ist des Schweißes der Edlen wert!
Aber süßer ist noch, schöner und reizender,
In dem Arme des Freunds wissen ein Freund zu sein!
So das Leben genießen,
Nicht unwürdig der Ewigkeit!
Treuer Zärtlichkeit voll, in den Umschattungen,
In den Lüften des Walds, und mit gesenktem Blick
Auf die silberne Welle,
Tat ich schweigend den frommen Wunsch:
Wäret ihr auch bei uns, die ihr mich ferne liebt,
In des Vaterlands Schoß einsam von mir verstreut,
Die in seligen Stunden
Meine suchende Seele fand;
O so bauten wir hier Hütten der Freundschaft uns!
Ewig wohnten wir hier, ewig! Der Schattenwald
Wandelt, uns sich in Tempe,
Jenes Tal in Elysium!
Friedrich Gottlieb Klopstock (* 1724-07-02, † 1803-03-14)
Frage: "Die Arbeit mit KI kann uns mehr Freiräume bieten, das ist theoretisch möglich. Genauso, wie es theoretisch möglich war, dass die Einführung der E-Mail uns im Vergleich zum Fax oder dem Brief mehr Freiräume bietet. Wenn wir nur so wenig E-Mails schreiben würden, wie wir früher Briefe geschrieben hätten. Leider ist die Geschichte etwas anders ausgegangen. Jetzt mehren sich tatsächlich doch die Signale, dass KI weniger Freiräume für Reflektionen bietet. Wer mit Texten arbeitet, erlebt zum Beispiel, dass die Kollegen sehr unsaubere KI-Texte schicken. Diese Texte müssen dann mit viel Aufwand korrigiert werden. D.h.: der eine macht es sich leicht, der andere muss es ausbaden."
Was sagt eine KI dazu?
Antwort: Das ist eine sehr treffende Beobachtung und ein wichtiger Punkt, der oft in der Euphorie um neue Technologien übersehen wird. Ihre Analogie zur E-Mail ist ausgezeichnet.
Zusammenfassend: Das Paradox des "gewonnenen" Freiraums
Theoretisches Potenzial: KI könnte Routineaufgaben automatisieren und uns Zeit für komplexere, kreative, strategische oder reflektive Arbeit verschaffen.
Praktische Realität (das "E-Mail-Dilemma"):
Senkung der Einstiegshürde: Technologien, die die Produktion erleichtern (wie E-Mail oder generative KI), führen oft zu einer exponentiellen Steigerung der Gesamtmenge des Outputs (Informationsflut).
Verschiebung des Aufwands: Anstatt das Gesamtvolumen der Arbeit zu reduzieren, wird die Arbeit verschoben – von der Produktion auf die Kuration, Korrektur und Verifizierung.
Der "Badewannen-Effekt": Wie Sie richtig beschreiben, macht es sich der Sender leicht (schnell einen unsauberen KI-Text generieren), und der Empfänger hat den Mehraufwand (Validierung, Korrektur, Säuberung).
Warum KI Reflexion erschweren kann:
Geringere Hemmschwelle: Wenn ein Text in Sekunden generiert werden kann, fehlt der nötige innere Stopp, um zu fragen: Ist das wirklich notwendig? Ist es die beste Formulierung? Habe ich alle Fakten geprüft? (Die Reflexion wird ausgelagert oder ganz übersprungen.)
Die Illusion der Fertigstellung: Ein generierter Text sieht "fertig" aus und gibt das Gefühl, eine Aufgabe erledigt zu haben, auch wenn er qualitativ mangelhaft ist.
Qualität der Reflexion: Gute Reflexion erfordert Ruhe und Fokus. Wenn der Arbeitstag gefüllt ist mit dem Korrigieren und Bereinigen von "Müll" (egal ob E-Mail-Müll oder KI-Text-Müll), fehlt genau dieser Raum für die eigene tiefe, ungestörte Auseinandersetzung mit dem Thema.
Ihre Erfahrung zeigt: Technologie allein schafft keinen Freiraum; es ist der bewusste Umgang mit der Technologie, der Freiraum schafft. Organisationen und Teams müssen klare Qualitätsstandards und Nutzungsregeln für KI-generierte Inhalte definieren, um diesen negativen Effekt abzuwenden.
Fontanefan dazu: Ich habe den Text für meine Frage aus Zitaten aus dem folgenden Artikel zusammengestellt: "Im Arbeitsalltag sind oft Verdummungspraktiken am Werk", einem Interview von Steffen Hermann mit Hans Rusinek in der FR vom 27.10.25, Seite 2. Das kann ich nämlich bisher nicht verlinken.[Hier ein Artikel von Steffen Hermann zur KI, der sich schon verlinken lässt: Künstliche Intelligenz ist die Dampfmaschine für Büroarbeit, FR 28.8.25]
So versuche ich, die Gedanken von Rusinek etwas zu ergänzen und gleichzeitig vorzuführen, wie ich mir die Arbeit eigener Reflexion durch Abgabe an die KI erspart habe. Ich selbst kann Rusinek nämlich in diesem Punkt nur zustimmen. Die Arbeit, das auszuformulieren, habe ich der KI überlassen.
Andererseits kann KI auch kreative Arbeit anstoßen und erleichtern. Das zeigt Jean-Pol Martin gegenwärtig mit einer Reihe von Artikeln in seinem Blog auf.
Cyber-Grooming: "Mit dem Begriff Cyber-Grooming [...] wird die gezielte Manipulation Minderjähriger sowie junger Volljähriger über das Instrument Internet bezeichnet. Das Ziel ist, das Opfer in eine Falle zu locken, um Straftaten wie sexuell motivierte Übergriffe bis hin zur Vergewaltigung zu begehen. Die Kontaktaufnahme erfolgt mit dem konkreten Ziel, sexuellen Missbrauch oft über viele Jahre hinweg online oder offline bei realen Treffen anzubahnen. Dies geschieht per Chat, Fotos, Videos, Sexting, Erpressung z. B. mit Hilfe pornografischer Videoaufnahmen. Der Begriff wird auch für sexuelle Belästigung im Internet verwendet."
Die Zahl der Fälle ist schon2019 im Vergleich zum Vorjahr um fast 34 Prozent gestiegen. Doch die Zahl der gemeldeten Fälle ist gering. Wenn man Umfragen bei Schülern glauben darf, sind 44% von ihnen schon "mindestens einmal von einem Täter angesprochen" worden.
Wofür man KI längst dringlich braucht, ist Gewaltprävention im Internet: „Wenn wir Prävention und die Strafverfolgung im Netz ernst nehmen, wie wir es in der realen Welt tun, kritisiert Rüdiger, müssten wir sicherlich 20-25 % des Personals der Sicherheitsbehörden für digitale Themen einsetzen. “ Das dürfte in Deutschland kaum realistisch sein. Rüdiger sieht in künstliche Intelligenz deshalb nicht nur einen Treiber für Kriminalität – sondern möglicherweise auch „die letzte Chance der Sicherheitsbehörden, das digitale Gewaltmonopol auch im Netz ernsthaft durchzusetzen“. („Per Internet-Chat in den Tod getrieben“ Frankfurter Rundschau 17.7.25)
Auch wenn die LLMs selbst für ihre
Entwickler eine Black Box sind, kann es hilfreich sein, wenn man
wenigstens eine Grobvorstellung von dem hat, was darin ist. In ChatGPT und den anderen LLM (Large Language Models)?
Dankenswerterweise hat Herr Rau eine ausführliche Erklärung verfasst. Er erklärt es Schritt für Schritt. Dann folgen mehr oder minder genaue (und mehr oder minder verständliche) Einzelerläuterungen
Ein LLM wird mit dem Äquivalent von 100 Millionen Büchern an Text trainiert. Das Training geschieht erst automatisch, dann durch menschliches Feedback.
In jeder Decoder-Schicht wird jeder Eingangsvektor in beliebiger Reihenfolge verarbeitet.
Bei der Verarbeitung werden die 7.999 Nachbartoken ebenfalls berücksichtigt. Wie sehr und wie, das entscheiden der Q- und der V-Vektor des aktuellen Tokens und die 7.999 K-Vektoren der Nachbartoken zusammen. Die werden anhand trainierter Tabellen ausgerechnet. Das ist das eigentliche Kern der Sache.
Bei dieser Verarbeitung steht ein Neuronales Netz an letzter Stelle.
Nach der Verarbeitung entsteht wieder für jedes der 8.000 Token ein neuer Vektor der gleichen Größe.
Die Schritte 5 bis 8 wiederholen sich je Decoder-Schicht.
Das letzte Embedding des letzten Token wird in ein Neuronales Netz eingegeben, das 100.000 Ausgangsneuronen hat: für jedes Token im Wortschatz eines. Deren Werte heißen Logits.
Die Logits werden mit Softmax (normalisierte Exponentialfunktion) normalisiert, so dass man 100.000 Werte zwischen 0 und 1 hat, die für jedes Token im Wortschatz eine Wahrscheinlichkeit angeben.
Ein Algorithmus wählt aus diesen Werten ein Token aus, das das nächste generierte Token bildet.
Der Prozess beginnt von vorn.
Die Zahlen sind gerundet und geschätzt und gehen je nach Modell auch mal um den Faktoren zehn oder mehr nach unten, sind aktuell aber an der Obergrenze.
Ein Computerprogramm hat eine Textmenge zur Verfügung und sucht die jeweils wahrscheinlichsten Textverknüpfungen heraus: mit 1, 2, 3 und n-Wörtern. (N-Gramme)
Statt Wörtern verwenden die Large Language Models Tokens, das sind charakteristische Schriftbestandteile (meist Silben in Verbindung mit Zeichen davor oder danach), die mehr Informationen enthalten als Buchstaben, aber nicht so zahlreich sind wie Wörter.
Fortsetzung von hier. Ein leichteres Kapitel als das vorherige, in dem dennoch neue Wörter eingeführt werden, mit deren Hilfe sich der Autor vor den richtig schwierigen Sachen durch geschickte Gaukelei zu drücken versucht. Die schwärzeste aller Boxen bleibt ungeöffnet. Dafür wird es das nächste Mal dann sehr technisch.
Wir wissen aus den letzten Teilen, was N-Gramme und Token sind, wir wissen, was ein Embedding ist. Was Neuronale Netze sind, wissen wir wohl auch; die stecken nämlich überall in den LLM drin. Jetzt nähern wir uns den fieseren Sachen.
1. Allgemeines Vorgehen beim Erzeugen eines LLM
Die allgemeinen Schritte beim Erzeugen eines LLM sind folgende:
Daten sammeln und aufbereiten.
LLM-Architektur anlegen: Wie sieht das überhaupt aus - Eingangsschicht, Ausgangschicht, Encoder-Decoder-Transformer?
LLM trainieren, in mehreren Phasen:7
Mit großer Datenmenge Voraussagen üben. Dann ist schon mal ein basales LLM da.
LLM wird erzogen: Finetuning, Reinforcement Learning with Human Feedback.
Chatbot wird für Kunden angepasst
Chatbot nutzt externe Anwendungen, schlägt also intern und unbemerkt bei Wolfram Alpha nach.
Wenn ein LLM gelernt hat, in gegebenen Texten das jeweils nächste, oder auch ein in der Mitte fehlendes, Token vorherzusagen, dann kann man es auch dazu benutzen, neue Texte zu erzeugen. Dann wird das ein Chatbot.
Der interessante Schritt für mich ist 2, auf dem das Training 3.1 aufsetzt. Das geschieht relativ automatisiert. Der Schritt 3.2 ist schon auch wichtig, damit man mit dem Bot überhaupt so interagieren kann, wie man es gewohnt ist. Dieser Schritt arbeitet mit kleineren Datenmengen, aber mit viel menschlicher Interaktion. Das sind die vielen vielen unterbezahlten Arbeiter und Arbeiterinnen in Entwickungsländern, die das LLM erst zu dem machen, was wir kennen: Die Antworten des LLM werden durch Menschen bewertet, worauf sich das System nach und nach an die Bewertung anpasst, wie das Neuronale Netze nun einmal tun.
Schritt 1 ist gesellschaftlich wichtig: Wo kommen diese Daten, zum Beispiel Texte, aber auch Bilder, her? Man nimmt alle Texte der Welt als Input, derer man habhaft werden kann. In allen Sprachen, die man so findet. Mit Tippfehler oder ohne. Privat oder professionell, Programmcode oder Gedicht. Pornografisch oder nicht, gestohlen oder nicht. Instagramdirektnachricht oder Office365-Dokument. Hochgeladene Texte bei Chatbots. Alles, was irgendwie erreichbar ist. Am beste frische Daten, was die Leute auf Instagram oder Facebook oder sonst überall halt so schreiben. GPT4 soll auf einer Datenbasis von 13.000.000.000.000 Token trainiert worden sein, das sind etwa 100 Millionen Bücher voll.
2. Kontext
Kontext, das ist das Drumherum. Im Studium wurde gelegentlich, so glaube ich mich zu erinnern zwischen Kotext und Kontext unterschieden: Kotext, dass sind die Wörter drumherum; zum Kontext gehört die Redesituation und der Ort der Kommunikation und vieles mehr. Der Kontext, um den es in unserem Zusammenhang geht, sind aber immer nur die Wörter.
(Exkurs: "Glaube ich mich zu erinnern" - das feine Büchlein Lost World aus dem Jahr 2005 - Blogeintrag - sammelt Dinge, die uns verloren gegangen sind. Dazu gehört auch diese "glaube ich"-Floskel, die man 2005 ja einfach im Web durch eine Recherche überprüfen konnte. Möglicherweise kommt das wieder, weil man ja nichts mehr findet. Sicherheitshalber habe ich natürlich trotzdem geschaut, ob mich meine Erinnerung da nicht trügt.)
Bei LLMs ist der Kontext der vorangegangene Text, der bei der Erzeugung des nächsten Textteils mit berücksichtigt wird. Je nach System kann der Kontext zum Beispiel 30.000 Token lang sein. Das heißt, dass auf Grundlage der vorhergehenden 30.000 Token entschieden wird, welches Token als Nächstes drankommt. Länger zurück reicht das Gedächtnis der Maschine erst einmal nicht. Deshalb kann man sich sehr lange mit einem LLM-Chatbot unterhalten, bevor er den Anfang des Gesprächs vergisst. Und bei manchen Modellen ist der Kontext auch noch größer.
30.000, das ist aber schon recht viel. Das einfache GPT-4 hat einen Kontext der Länge 8.192, für mehr Geld kriegt man Zugang zu einem GPT-4 mit 32.768 Token Kontext. In den folgenden Grafiken gehe ich immer von einem Kontext der Länge 8.000 aus, weil das übersichtlicher.
Ich habe allerdings nicht wirklich versucht, ein Gespräch über so viele Token zu führen und danach nach meiner ersten Frage zu fragen, um zu schauen, ob die noch im Kontext ist oder nicht. Könnte man ja mal probieren.
3. Chunks und RAG
Weil 8.000 Token leichter verarbeitbar sind als längere Texte, werden eben jene längere Texte gerne in Chunks zerlegt. Das spielt zum Beispiel eine Rolle, wenn man ein LLM als Datenbasis benutzt.
Ein Szenario dazu sieht so aus: Ich lade bei GPT4All oder auch in ByLKI alle Deutsch-Kontaktbriefe der letzten 20 Jahre hoch, oder alle kultusministeriellen Schreiben. Diese Sammlung wünsche ich mir dann als Grundlage für Antworten auf meine Fragen, als Wissensdatenbank sozusagen, das Schlagwort dazu heißt Retrieval-Augmented Generation (RAG).
Die allgemeine Sprachfähigkeit, wenn man so weit gehen möchte, liegt im vortrainierten LLM, die konkreten Inhalte können aus den dem LLM bisher unbekannten Dokumenten der Wissensbasis kommen. (Wobei ich davon ausgehe, dass alle erreichbaren Kontaktbriefe und KMS ohnehin in den großen Modellen verwurstet sind, insofern sie ja online zugänglich waren.)
So konnen auf Grundlage einer allgemeinen Quasi-Sprachfähigkeit Fragen zu einer Bestimmten Textgrundlage beantwortet werden. Dazu werden die Texte, die ja vielleicht länger als der Kontext des LLM sind, in Chunks umgewandelt, die Chunks in Embeddings. Eine Frage an die Datenbank wird ebenfalls embedded und mit den embedded chunks verglichen; der Chunk, dessen semantischer Vektor dem Fragenvektor am nächsten kommt, wird als Kontext zusammen mit der ursprünglichen Frage an das eigentliche LLM weitergeleitet.
4. Alles bis auf das Wichtigste
4.1 Black Box 1
Es geht ein Chunk Text hinein in das System. Der besteht aus: dem Prompt, den vorangegangenen Prompts, versteckten Trainingsanweisungen, eventuell Material, das sich das LLM aus externen Quellen geholt hat, sowie der angefangenen Teilantwort darauf. Und es kommt 1 Token heraus, nämlich das nächste. Beim Training geht es darum, dieses nächste vorherzusagen, beim Generieren darum, eines zu produzieren. Wenn das Training erfolgreich war, ist die menschliche Nutzerin mit dem generierten Ergebnis zufrieden.
Nach diesem einen generierten Token wird eben dieses Token zum Eingangstext hinzugefügt, und der ganze Durchgang beginnt mit diesem erweiterten Input noch einmal von vorne. Danach wird das zweite generierte Token an den bereits erweiterten Input angefügt und bildet zusammen mit diesem den Input für den nächsten Zyklus, und das immer so weiter, bis ein Ende-Signal kommt oder eine maximale Tokenzahl erreicht ist.
Dieses wiederholte Wort-für-Wort erzeugen ist in den nächsten Grafiken nicht mehr dargestellt.
4.2 Black Box 2
Der Eingangstext wird est einmal in Token aufgeteilt. Siehe Blogeintrag.
Natürlich geht das Auswählen des nächsten Tokens nicht durch Nachschlagen der Wahrscheinlichkeiten von Bi-, Tri-, 4-, 5- und 40.000-Grammen in einer Tabelle. Es muss also anders gehen, nämlich mit einer Architektur aus Neuronalen Netzen. Die haben einer Nachschlagetabelle gegenüber den großen Vorteil, dass sie darauf trainiert werden können, Ähnlichkeiten zu erkennen, und damit eine größere Menge von Eingabedaten sinnvoll verwerten können. Details stecken in der inneren Black Box.
Der Input für die Black Box in der Mitte sind die 8.000 Token des Kontexts, also 8.000 Token in einer bestimmten Reihenfolge. Der Output ist eine Wahrscheinlichkeitsverteilung über alle Elemente des Wortschatzes des Modells. Das wahrscheinlichste Token wird jeweils als nächstes gewählt, abhängig von der Temperatur. Im Bild ist ein Token-Vokabular der Größe 100.000 angedeutet, andere Modelle haben vielleicht nur ein Vokabular der Größe 30.000.
4.3 Black Box 3
Die Eingangstoken erhalten ein berechnetes Embedding. Die Embeddings sind während des Trainings entstanden, auf eine Art, die prinzipiell vergleichbar ist mit der Art, wie sie im letzten Blogeintrag beschrieben ist. (Beim Training entsteht eine Matrix von Embeddings. Das Token wird in einen One-Hot-Vektor umgeformt, also mit lauter Nullen und einer einzigen 1 an der Stelle mit der Vektor-ID; dieser Vektor wird mit der Matrix multipliziert, das Ergebnis ist der Embedding-Vektor für dieses Token.)
4.4 Black Box 4
Frühere Modelle arbeiteten den Input sequentiell ab, also erst das erste Token des Kontexts, dann das zweite Token des Kontexts, und so weiter. Dann weiß das System ja automatisch, ob es gerade am ersten oder zweiten oder wievielten Token es arbeitet. Transformer-Verfahren bearbeiten alle Token des Kontexts unabhängig voneinander, also potentiell gleichzeitig, demnach parallel. Das ist gut, weil sich das Rechnen auf mehrere Computer verteilen lässt. Damit weiß das System aber erst einmal nicht, an welcher Position im Kontext sich das Token befindet. (Mehr dazu nächstes Mal.) Die Position ist allerdings semantisch wichtig, allein schon, weil in vielen Sprachen die Position von Subjekt und Objekt relativ fix ist und ein Wort am Anfang des Satzes etwas anderes bedeuten kann als am Ende: man bites dog. Deshalb wird das bisherige Embedding noch durch einen gelernten Positionsvektor modifiziert; dieser wird je nach System entweder addiert oder konkateniert, also hinten angehängt.
Der Positionsvektor kann absolut sein, also für das erste Element des Kontexts einen fixen Vektor, für das zweite einen fixen Vektor, für das dritte ebenso, und so weiter. -Dann geht es um die Position in der Sequenz. Oder er kann relativ sein, dann hängt der Wert ab vom Abstand zum aktuell untersuchten Token (aber jeweils mit einem festen Wert, also wenn das Training beendet ist, versteht sich).
Hier ein Diagramm, wie das Sprachmodell BERT (2018) vorgeht. Der Input besteht aus dem Text "alice follows the white rabbit follow the white rabbit neo" und SEPARATOR-Token dazwischen. Jedes Token erhält ein gelerntes Embedding, dazu ein (absolutes) Positionsembedding, und zusammengehörende Elemente in einem Segment erhalten ebenfalls ein Embedding, das das markiert.
Das Ziel ist, möglichst viel relevante Information in das Embedding zu packen, so dass die nachfolgenden Schichten damit arbeiten können. Andererseits: je ausführlicher das Embedding, desto mehr Rechenaufwand bei der Verarbeitung.
Tja: Jetzt sind wir an dem Punkt angelangt, an dem es schwierig wird. Wenn die Eingangsvektoren für die neue innere Black Box 10.000 Zahlen lang sind, und der Kontext nur 8.000 Token lang ist, dann besteht der Input für diese Black Box aus 80.000.000 Zahlenwerten, nur damit am Ende ein einziger Wert, die ID des nächsten Tokens herauskommt. Dazu brauchen wir Begriffe wie: Transformer, Encoder, Decoder, Attention. Puh.
Das war es dann aber auch weitgehend. Das Geheimnis der LLM ist tatsächlich, wie überzeugend es anhand des Trainings einen Kontext von 8.000 oder 40.000 Token benutzen kann, um das nächste Token vorherzusagen.
LLM Grundlagen, Teil 5: Die vorletzte Black Box – TransformerFortsetzung von hier. Es wird noch technischer als beim vorletzten Mal, ich bitte um Entschuldigung und Verständnis.
Das ist nun einmal die Ebene, die mich interessiert, nämlich die, auf der ich wenigstens einen Eindruck davon bekomme, was wirklich und nicht nur metaphorisch geschieht beim Auswerten eines Inputs und Erzeugen eines Texts. Respekt, wer das hier zu lesen versucht. Ich wiederhole mich mehrfach, finde das aber okay, das hilft mir zumindest beim Verstehen.
1. Überblick
1.1 Der Ausgangspunkt
Und zwar sind wir bei diesem Diagramm stehen geblieben:
Erweiterte Kontext-Vektoren gehen in die innere Black Box hinein (hier 8.000, weil der Beispielkontext so lang ist), eine Wahrscheinlichkeitsverteilung über die (im Beispiel) 100.000 Token des Wortschatzes kommt heraus. Je nach System kann der Kontext auch schon 30.000 Token oder mehr lang sein, oder der Wortschatz nur halb so groß. Es müssen natürlich nicht 8.000 Vektoren sein, der Kontext muss ja nicht voll ausgeschöpft werden.
1.2 Was metaphorisch geschieht
Jedes Token ist ja durch, in unseren Beispiel: 10.000 Zahlenwerte embedded. Diese Zahlenwerte werden in mehreren Durchgängen modifiziert, bis am Ende die 10.000 Werte des letzten Tokens darüber entscheiden, welches Token als nächstes generiert wird.
Nehmen wir als Input: „The dogs bark loudly.“ (Es gibt technische Gründe für die Unnatürlichkeit des Beispielsatzes.) Der Input sind ja eigentlich nicht diese Token, es geht hier nie um Token, sondern immer nur um deren Embedding, aber der Einfachkeit halber spreche ich hier ein Weilchen einfach von Token.
In jedem Durchgang wird jedes Input-Token mit allen anderen Input-Token verglichen. Nehmen wir zum Beispiel das Token „bark“, das hier also mit „The“, „dogs“, „loudly“ und „.“ verglichen wird. Das Token „bark“ sucht dabei besonders nach Token, die das Merkmal „Nomen im Plural“ und „ist ein Lebewesen“ tragen, oder auch „es geht um Bäume“, weil das ja auch „Baumrinde“ bedeuten kann. Das ist wie bei diesem Kartenspiel, wo man die anderen fragt: „Hast du eine Herz Sieben?“
Beim „.“ wird das „bark“ nicht fündig, bei „The“ nur ein wenig, aber als es zu „dogs“ kommt, schreit das sofort „biete Substantiv im Plural!“ und „biete Tier!“ Das ist das Zeichen für „bark“, dem Token „dogs“ besonders viel Aufmerksamkeit zu widmen.
Wenn für jedes Token ein Aufmerksamkeitswert ermittelt ist, geht es ans Modifizieren: das Token „dogs“ darf dann bestimmte Werte auf das Embedding von „bark“ übertragen, etwa Werte für „bin dein Subjekt“ und „es geht um Hunde“ und „du bist ein Verb und nicht etwa ein Substantiv“.
Beim nächsten Durchgang wird wieder jedes Input-Token modifiziert. Diesmal sucht „bark“ nicht mehr nach Bäumen. Ganz am Ende steckt dann im Embedding des letzten Tokens „.“ die Information „gerade eben haben Hunde laut gebellt“, und auf Basis dieses Embeddings wird dann das nächste Token vorausgesagt, möglicherweise: „They“.
1.3 Alberner Exkurs
Und tatsächlich: Wenn ich den Prompt „Continue the sequence ‚The dogs bark loudly.‘ with one token.“ eingebe, gibt mir der Chatbot „They“ aus.
> Continue the sequence "The dogs bark loudly." with one token. They
> Continue the sequence "The dogs bark loudly. They" with one token. are
> Continue the sequence "The dogs bark loudly. They are" with one token. running
> Continue the sequence "The dogs bark loudly. They are running" with one token. in
> Continue the sequence "The dogs bark loudly. They are running in" with one token. the
> Continue the sequence "The dogs bark loudly. They are running in the" with one token. yard.
Na gut, am Ende waren das zwei Token, und auch „running“ sind vermutlich zwei.
> Continue the sequence "The dogs bark loudly. They are running in the" with one token. Turn the temperature up really high. dust.
Interesting…
> Continue the sequence "The dogs bark loudly. They are running in the" with one token. Turn the temperature up as high as possible. void.
Das könnte ein reizvolles Spiel werden. Aber das bildet natürlich nicht wirklich innere Vorgänge ab, weil der Prompt ja nicht wirklich nur aus diesen Token besteht.
1.4 Das Geheimnis Enthüllt
Ab jetzt nicht mehr metaphorisch.
In der Black Box ist eine Reihe von Decodern. Decoder gehören zum Transformer-Modell, das die Entwicklung ab 2017 revolutionierte, auch wenn die Idee an sich älter ist. Zuvor arbeitete man mit einem anderen System (RNN), das aber Nachteile hatte, die mit etwas, das sich Attention nannte, halbwegs ausgeglichen werden konnten. Dann stellte sich heraus, dass man ohne RNN und nur mit Attention auch auskommt, und die moderne Transformer-Struktur entstand, auf der nicht alle, aber doch die bekannten modernen LLM basieren.
Ein Transformer besteht eigentlich aus mehreren Encoder-Schichten gefolgt von mehreren Decoder-Schichten. Für das Generieren von Text, anders als bei der maschinellen Übersetzung, verzichten die meisten Systeme, wie zum Beispiel GPT, auf die Encoder-Schichten, deshalb beschränke ich mich im weiteren Verlauf – von einem als solchen Exkurs abgesehen – auf Decoder.
Neu am Transformer-Modell ist, dass diese 8000 Eingangsvektoren aus dem Bild oben nicht wie den Modellen zuvor sequentiell, also nacheinander, abgearbeitet werden müssen, sondern parallel verarbeitet werden können. Das ist praktisch fürs Rechnen mit mehreren Computern.
Alle 8.000 Vektoren werden also verarbeitet und dabei modifiziert; die Berechnungen dazu laufen im Prinzip unabhängig voneinander. Aber jede Modifizierung eines einzelnen Vektors ist abhängig von den jeweils anderen 7.999 Vektoren des Kontexts.
Jeder einzelne der 8.000 Vektoren wird also nach diesem Prinzip durch einen Decoder modifiziert, bis bis man am Ende wieder 8.000, jetzt: neue, Vektoren hat, weiterhin für jedes Token einen. Deren ursprüngliches Embedding ist jetzt aber durch den Kontext angereichert. Mit diesen angereicherten Vektoren wird dann weiter gearbeitet.
Und zwar gehen sie in einen weiteren Decoder. Und noch einen. Und noch einen. Insgesamt 8 oder 96 oder 120, je nach System.
Ich habe versucht, das im Bild zu zeigen:
Die 8.000 Vektoren bilden zusammen den Input in einen Decoder.
Im Decoder werden die 8.000 Vektoren abgearbeitet.
Jeder Vektor wird verändert, und zwar beeinflusst durch die anderen 7.999 Vektoren.
Am Ende des Durchgangs hat man wieder 8.000 Vektoren.
Und diese gehen dann in den nächsten – nicht noch einmal denselben! – Decoder
Die Größe der Vektoren ist dabei beim Eingang in den und Ausgang aus dem Decoder immer gleich.
Auf Grundlage des Embedding-Vektors des letzten Tokens wird dann eine Wahrscheinlichkeitsberechnung über dem Wortschatz erstellt.
Es folgt ein Exkurs zu Transformern, blau markiert im Blog den kann man gerne überspringen und bei Punkt 3 weiter machen.
2. Exkurs: Transformer
2.1 Der volle Transformer
Die folgende Grafik zeigt die ursprüngliche, inzwischen noch etwas verbesserte, vollständige Transformer-Architektur:
Man sieht: Links unten geht eine Sequenz hinein, die wird in Embeddings umgewandelt, dazu kommt Positions-Embedding; dann beginnt die Black Box, und rechts oben kommen Vorhersagen heraus.
Die Grafik zeigt die prinzipiellen Elemente oder Schichten; neu sind die eingekastelten Blöcke in der Mitte, unsere bisherige Black Box:
Tokenizer-Schicht (zum Beispiel byte pair encoding, siehe Blogeintrag)
Embedding-Schicht (Tabelle + Position, siehe Blogeintrag und Blogeintrag)
Transformer-Schichten, bestehend aus mehreren Encoder-, gefolgt von mehreren Decoder-Schichten. LLMs bestehen oft nur aus Decoder-Schichten, Encoder braucht man vor allem für andere Aufgaben. Dazu später mehr.
Un-embedding-Schicht (die Wahrscheinlichkeitsverteilung, ganz am Ende)
Der linke gelb eingerahmte Block, das ist ein Encoder. Der rechte eingerahmte Block, das ist ein Decoder. Üblicherweise sind bei Transformern mehrere Encoder hintereinander geschaltet, und danach mehrere Decoder. Es kann zum Beispiel 6 oder 12 oder 24 Encoder-Schichten (Layer) geben, gefolgt von 6 oder 12 oder noch viel mehr Decoder-Schichten, größenordnungsmäßig. Manche Modelle benutzen die volle Encoder-Decoder-Struktur, andere sind encoder-only oder decoder-only.
Die Encoding-Schichten übersetzen zum Beispiel einen englischen Eingangstext in viele Zahlenwerte, also eine interne und abstrakte Repräsentation des Eingangstexts. Die Decoding-Schichten übersetzen Zahlenwerte dan zum Beispiel in Deutsch oder Französisch. Das ist eine Art, wie maschinelle Übersetzung funktioniert. Aber dieses Transformer-Prinzip funktioniert nicht nur mit Text als Input, sondern auch mit Pixeln oder Audiomaterial.
2.2 Blick hinein: Encoder und Decoder hintereinander
Das Bild zeigt vereinfachte Transformer-Einheiten. Vereinfacht, weil im Gegensatz zum Bild oben die Normalisierungs-Zwischenschritte fehlen, deren Position für die Effizienz wichtig ist und die sich im Vergleich zu dem ursprünglichen Modell verändert hat.
In der linken Hälfte der Grafik sieht man einen Überblick:
Es gibt erstens beispielhaft 6 Encoder-Schichten. Die erste Schicht arbeitet mit den oben erwähnten Eingangs-Vektoren und gibt das Ergebnis, modifizierte Vektoren, an die nächste Encoding-Schicht weiter, und die macht das ebenso. Am Ende der Encoding-Schicht steht eine interne Repräsentation des Eingabetexts in Form vieler Zahlenwerte, sozusagen die Bedeutung des Inputs.
Es gibt zweitens beispielhaft 6 Decoder-Schichten. Jede Schicht erhält als Input a) das feststehende Ergebnis der Encoding-Schicht, und b) das Ergebnis der vorhergehenden Decoding-Schicht. (Bis auf die erste Decoder-Einheit, die ja noch keinen Vorgänger hat. Wir reden nicht darüber, okay?)
In der rechten Hälfte der Grafik sieht man Details:
Eine Encoder-Schicht. Die nimmt 1 Input entgegen und besteht aus 2 Elementen oder Teilschichten, der blauen und der gelben Box. Es gibt 1 Output.
Eine Decoder-Schicht. Die nimmt 2 Inputs entgegen und besteht aus 3 Elementen oder Teilschichten, den roten, blauen und gelben Boxen. Es gibt 1 Output.
Die gelben Schichten, das sind jeweils Neuronale Netze, ganz so, wie man sie in der Schule kennenlernt.
2.3 Blick hinein: Eine Encoder- und eine Decoder-Schicht
Das nächste Bild zeigt das auf die einfachen Teilschichten reduzierte Modell: Eine Encoder-Schicht, eine Decoder-Schicht. Sequenzierung und Embedding und Un-Embedding sind weggelassen. Die Encoding-Schicht hat als Eingang den vollständigen vektorisierten Eingangstext; die zwei Eingänge der Decoding-Schicht erhalten a) das Ergebnis der Encoding-Schicht und b) das Ergebnis der vorhergenden, hier nicht gezeigten, Decoding-Schicht.
Was ein Encoder macht und was ein Decoder macht, das wissen wir immer noch nicht, das müssen wir auch noch nicht wissen; ich nähere mich langsam.
2.4 Modelle nur mit Encoder- oder Decoder-Schichten
Es gibt manche Modelle, die bestehen praktisch nur aus Encoder-Schichten. BERT ist so eine Familie von Sprachmodellen, die nur aus Encodern besteht. In den Encoder-Schichten wird der Input, also zum Beispiel Text, in noch mehr Zahlenwerte als bisher encodiert, die immer mehr relevante Information enthalten. Das Encoding ist vor allem wichtig, lese ich, wenn mit den Zahlenwerten unmittelbar gearbeitet wird, bei Klassifizierungsaufgaben etwa, oder sentiment analysis. Aber dafür kann man BERT nicht prompten; BERT ist nicht zur Texterzeugung da. Google nutzt oder nutzte ab 2019 BERT, um Suchanfragen auszuwerten.
Die Aufgabe der Decoder-Schichten ist es, aus Zahlenwerten einen Output zu erzeugen. Einen neuen Text etwa, also eine Fortführung des bisherigen Textes oder eine Übersetzung in eine andere Sprache.
GPT besteht nur aus Decoder-Schichten, die auf den Eingangsvektoren arbeiten. Der Grund, heißt es, dass das weniger Aufwand ist. Für kleinere Modelle ist eine Encoder-Decoder-Struktur besser, für richtig große zwar auch, aber der Abstand wird ausgeglichen durch den enormen Zuwachs an Leistungsfähigkeit insgesamt ab einer gewissen Größe. (Mehr dazu.) Der Bezeichner „Decoder-only“ ist insofern irreführend, als der Input natürlich schon encodiert ist und immer weiter encodiert wird, aber halt innerhalb der Decoding-Module.
3. Die Decoder-only-Schichten des LLM
Das nächste Bild zeigt eine Decoder-only-Architektur, wie sie bei LLMs wie GPT eingesetzt wird. Der Vorgang beginnt unten mit dem Input, unseren 8.000 Token Kontext, die im roten Kästchen ihr Anfangsembeddings erhalten und die danach mit Positionsembedding ergänzt werden.
Dieser Haufen von 8.000 Vektoren ist der Input für den Decoder-Block, das ist der große graue Kasten, der am Ende auch wieder einen Haufen von 8.000 modifizierten Vektoren an nächsten grauen Decoder-Block weitergibt. Der Fachausdruck für Haufen ist Matrix.
Diese modifizierten Vektoren heißen auch „hidden states“, falls einem der Begriff mal begegnet; das sind sozusagen die ganzen Zwischenergebnisse, die auf dem Weg zum Endergebnis anfallen, und mit denen die Decoder arbeiten. Ihre Größe, also die Anzahl an Zahlen im modifizierten Embedding, ist je nach LLM unterschiedlich, aber in der Regel immer konstant; die Vektoren werden also immer wieder modifiziert, haben aber stets die gleiche Größe von, sagen wir, 10.000 Zahlenwerten.
Für die Größenordnung: GPT4 (decoder-only) soll insgesamt solche 120 Decoder-Schichten haben. Je Schicht werden 8.000 Vektoren nach und nach verarbeitet, jeder Vektor besteht aus 10.000 Zahlen. Wer mehr bezahlt, kriegt auch Modelle mit mehr Kontext und anderen Werten.
Am Ende wird das Embedding nur des letzten Tokens als Input für ein letztes Neuronales Netz herangezogen (das ist der grüne Linear-Block oben). Dieses Netz erzeugt daraus einen neuen Vektor, der so groß ist wie der Wortschatz des LLM und für alle möglichen Token im Wortschatz Rohwerte angibt („Logits“), die proportional zur Wahrscheinlichkeit für dieses Token sind. Der Softmax-Block am Ende, der eigentlich ganz einfach ist, normalisiert diese Logits auf Größen zwischen 0 und 1 und heißt auch „normalisierte Exponentialfunktion“ und ist für das Prinzip nicht so wichtig. Dann schaut man im einfachsten Fall nach, welches Token der Position des höchsten Wertes im Ergebnisvektor entspricht, und das ist dann das nächste Token. (Tatsächlich könnte der Algorithmus noch etwas komplizierter sein, und auch die Temperatur spielt hier eine Rolle.) Ich habe versucht, diese letzten Schritte hier zu illustrieren:
Aber vielleicht ist es noch einfacher, den gesamten Vorgang noch einmal im Diagramm zu betrachten. Im nächsten Bild wird (1) der Kontext „The dogs bark loudly.“ (2) in Token zerlegt, (3) deren ID ermittelt, (4) deren Anfangs-Embedding nachgeschlagen, (5) die Position ergänzt, und das ganze dann (6.1 bis 6.3) in 3 Decoder geschoben und am Ende (7 – 9) ausgewertet: (10) Das nächste Token ist „They“ und die Runde kann jetzt mit „The dogs bark loudly. They“ wieder von vorne beginnen.
Wichtig: Der blaue Pfeil verfolgt die Berechnung des dritten Tokens. Genau das gleiche geschieht auf dieser Schicht aber auch parallel mit den anderen Token, man müsste also noch auf jeder Schicht vier weitere bunte Pfeile und 16 gestrichelte Pfeile ergänzen, aber dann wird es unübersichtlich.
Jetzt bleibt nur noch zu klären, wie so ein Decoder funktioniert.
4. Überblick: Die Decoder-Schicht
Ein Decoder-Modul besteht – siehe das Diagramm oben – aus zwei Untermodulen: a) Masked Multi-Head (Self-, nicht Cross-) Attention gefolgt von b) einem Neuronalen Netz (das ist das Feed Forward). „Norm“ steht für Normalisierung und interessiert uns jetzt nicht.
4.1 Das Untermodul Attention
Attention, Aufmerksamkeit, heißt: Manche Elemente des Inputs sind wichtiger als andere, und zwar um eine bestimmte Größe. Diese zwei Aspekte verfeinern den Input also und betonen die relevanten Aspekte darin. Das ist das Interessanteste und Neue und wird weiter unten und im nächsten Eintrag ausführlicher erklärt. Attention bestimmt, welche Elemente im Kontext wichtig sind, und verändert Vektoren in Abhängigkeit davon.
4.2 Das Untermodul Feed Forward
Das Neuronale Netz (das ist mit Feed Forward gemeint) verarbeitet dann diese Information, entscheidet sozusagen, was damit gemacht wird. Diese Entscheidungen sind, wie es bei Neuronalen Netzen allgemein der Fall ist, nicht mehr nachvollziehbar. Es geschieht etwas mit dem Eingangsvektor. Mehr weiß ich im Moment nicht.
Das Neuronale Netz hat in der verdeckten Schicht größenordnungsmäßig viermal so viele Knoten wie jeweils beim Input und Output. Input und Output, das ist die aktuelle Embedding-Größe d_model, der hidden states size, in unserem Beispiel 10.000. Bei dieser Embedding-Größe hat das Neuronale Netz dieser Decoding-Schicht demnach 40.000 Knoten in der verdeckten Schicht. Diese Zahl ist es, wenn man von „intermediate size“ oder „filter size“ oder „feedforward size“ spricht.
5. Überblick: Das Aufmerksamkeits-Untermodul
Das Prinzip hier heißt Masked Multi-Head (Self-) Attention. Diese Begriffe verwirren erst einmal, deshalb erkläre ich sie etwas ausführlicher; sie sind dann gar nicht so schwer zu verstehen, bis auf den ersten.
„Attention“
Bestimmte Elemente des Eingangs werden stärker gewichtet als andere. Welche? Und wie stark? Das sind genau die Fragen, die in diesem Untermodul geklärt werden. Self-Attention heißt dabei, dass nur der eigene Input ausgewertet wird. (Beim Standard-Transformer-Modell mit Encodern gibt es im Decoder nämlich außerdem ein zusätzliches Untermodul Cross-Attention, was heißt, dass der eigene Input und der Encoder-Input ausgewertet werden. Aber separate Encoder-Module gibt es bei uns ja keine, weil wir uns nur Texterzeugung und nicht Übersetzung anschauen.)
„Masked“
Beim Training heißt das, dass das LLM nicht schummelt, sondern nur alle Token vom Anfang des Inputs bis zur vorherzusagenden Lücke auswertet und nicht etwas die darauf folgenden Token. Es geht zum Beispiel darum, die Lücke in „Der Einbrecher öffnete den ______________ schnell, weil er die Kombination wusste“ zu schließen, ohne das hilfreiche „Kombination“ zu verwenden, sondern nur die vier Wörter vor der Lücke. (Tatsächlich wird der Input länger sein und es nicht nur um diesen einen Satz gehen.) Technisch geschieht das, indem der Aufmerksamkeitswert für nachfolgende Token auf 0 oder etwas entsprechendes gesetzt wird.
Beim Erzeugen von Text mit dem fertig trainierten Modell heißt das mit dem „masked“ nicht viel.
„Multi-head“
Die für die Attention zuständigen Elemente heißen Head, also Lesekopf. Ein Head durchsucht den Input nach Auffälligkeiten und gewichtet sie und gibt die Ergebnisse weiter an das nächste Submodul, das Neuronale Netz. Multi-Head heißt, dass mehrere Heads parallel und unabhängig voneinander arbeiten und deren Ergebnisse dann kombiniert werden. Mir reicht es aber völlig, wenn wir verstehen, wie ein einzelner Head funktioniert, und selbst das erst im nächsten Blogeintrag dazu. Wie viele Heads gibt es pro Schicht? Bei kleinen Modellen vielleicht 8, bei großen 100 oder mehr.
6. Ausblick
Ein letztes Mal: Es gehen 8000 Vektoren in das Aufmerksamkeitsmodul hinein. Die werden in beliebiger Reihenfolge einzeln verarbeit, was gut für Parallelisierung ist, also das Verteilen der Arbeit auf mehrere Rechner. Die Reihenfolge kann deshalb beliebig sein, weil die Information darüber, ob das Token, dessen Vektor gerade bearbeitet wird, vorne oder hinten im Kontext steht, ja durch das Positionsembedding irgendwie verwertbar gemacht wird. Bei jeder Verarbeitung eines Vektors spielen die anderen 7.999 Vektoren eine Rolle, und zwar eine unterschiedlich große – je nachdem, wie viel Aufmerksamkeit sie erhalten.
Wir wissen also: Ein Lesekopf verarbeitet einen Inputvektor unter Berücksichtigung der anderen Vektoren im Kontext; genau genommen nicht nur einer, sondern mehrere Leseköpfe; und das Ergebnis geht an ein Neuronales Netz, das Dinge damit macht.