Warum KI gute Fortsetzungen findet, aber häufig halluziniert

30. Apr.

Sprachmodelle wirken oft erstaunlich intelligent. Sie beantworten Fragen, schreiben Texte, erklären Konzepte, übersetzen, formulieren E-Mails und können sogar komplexe Argumentationen scheinbar nachvollziehen. Der Eindruck entsteht schnell, dass ein solches Modell „weiß“, worüber es spricht. Genau hier beginnt aber das Missverständnis. Ein Sprachmodell ist nicht in erster Linie darauf trainiert, Wahrheit zu überprüfen. Es ist darauf trainiert, auf Basis eines gegebenen Kontextes eine möglichst passende Fortsetzung zu erzeugen.

Dieses Prinzip klingt zunächst schlicht: Ein Modell sieht eine Folge von Wörtern oder Wortteilen und berechnet, was als Nächstes wahrscheinlich kommen sollte. Doch aus dieser einfachen Trainingsaufgabe entsteht ein erstaunlich großer Teil der Fähigkeiten, die wir heute bei großen Sprachmodellen beobachten. Sprache ist nicht zufällig. Sie enthält Muster, Wiederholungen, Strukturen, Fachbegriffe, Argumentationsformen, typische Erklärweisen und statistische Zusammenhänge. Wer sehr gut darin wird, diese Muster vorherzusagen, lernt indirekt auch viel über Grammatik, Stil, Faktenzusammenhänge und Denkstrukturen, die in Texten vorkommen.

Ein hilfreicher Zugang zu diesem Gedanken ist Shannons Entropie. In der Informationstheorie beschreibt Entropie, wie groß die Unsicherheit über eine Nachricht ist. Wenn völlig unklar ist, welches Zeichen, Wort oder Ereignis als Nächstes kommt, ist die Unsicherheit hoch. Wenn der Kontext die möglichen Fortsetzungen stark einschränkt, sinkt die Unsicherheit. Ein einfacher Satz zeigt das bereits: „Der Himmel ist heute blau und die Sonne …“ Viele Menschen würden als Fortsetzung wahrscheinlich „scheint“ erwarten. Der Kontext macht bestimmte Wörter wahrscheinlicher und andere sehr unwahrscheinlich. Genau diese Verringerung von Unsicherheit ist zentral für Vorhersage.

Daraus ergibt sich der bekannte Satz: „Prediction is compression.“ Wer gut vorhersagen kann, braucht weniger Information, um eine Nachricht zu beschreiben. Wenn ein System bereits weiß, welche Fortsetzung wahrscheinlich ist, muss es weniger zusätzliche Bits verwenden, um diese Fortsetzung zu codieren. Schlechte Vorhersage kostet mehr Bits, weil mehr Überraschung erklärt werden muss. Gute Vorhersage bedeutet, dass ein System Muster erkannt und verdichtet hat. In diesem Sinne ist Vorhersage eng mit Kompression verbunden: Ein Modell komprimiert nicht einfach einzelne Texte, sondern verdichtet statistische Regelmäßigkeiten aus riesigen Textmengen.

Bei Sprachmodellen führt diese Verdichtung zu sprachlicher Plausibilität. Das Modell hat gelernt, welche Begriffe oft zusammen auftreten, wie Erklärungen aufgebaut sind, welche Aussagen in bestimmten Kontexten naheliegen und welche Formulierungen zu einer Frage passen. Deshalb kann ein Modell flüssige Antworten erzeugen, auch wenn die Anfrage neu ist. Es setzt nicht einfach gespeicherte Sätze zusammen, sondern nutzt gelernte Muster, um eine Fortsetzung zu konstruieren, die im gegebenen Kontext wahrscheinlich und kohärent wirkt.

Das erklärt, warum Next-Token-Prediction deutlich leistungsfähiger ist, als sie auf den ersten Blick klingt. Wer immer nur das nächste Token vorhersagt, muss dafür oft ein tieferes Verständnis der vorherigen Tokens entwickeln. Um einen juristischen Text fortzusetzen, muss das Modell typische juristische Formulierungen und Begriffsbeziehungen erkennen. Um Code zu schreiben, muss es Syntax, Funktionsnamen, Fehlerquellen und typische Programmiermuster berücksichtigen. Um eine medizinische Erklärung zu geben, muss es die sprachlichen Muster medizinischer Texte nachbilden. Das Trainingsziel ist klein formuliert, aber die dafür benötigten internen Strukturen können sehr komplex werden.

Trotzdem bleibt ein entscheidender Unterschied bestehen: Plausibilität ist keine Verifikation. Ein Satz kann perfekt in einen Kontext passen und trotzdem falsch sein. Ein Modell kann eine Antwort erzeugen, die stilistisch überzeugend wirkt, logisch aufgebaut ist und Fachbegriffe korrekt verwendet, obwohl einzelne Fakten nicht stimmen. Genau darin liegt das Problem der Halluzinationen. Sie entstehen nicht nur, weil ein Modell „Fehler macht“, sondern weil das Ziel der Modellierung nicht Wahrheit, sondern wahrscheinliche Fortsetzung ist.

Wenn ein Modell eine Lücke füllen soll, sucht es nicht automatisch nach einer überprüften Tatsache. Es erzeugt eine Antwort, die zu den gelernten Mustern und zum aktuellen Kontext passt. In vielen Fällen reicht das aus, weil häufige Muster auch mit tatsächlichen Zusammenhängen übereinstimmen. In anderen Fällen führt es aber in die Irre. Besonders riskant wird es bei seltenen Fakten, aktuellen Informationen, Quellenangaben, Zahlen, Namen, Studien oder sehr spezifischen Behauptungen. Dort kann eine plausible Fortsetzung entstehen, obwohl keine belastbare Grundlage vorhanden ist.

Ein Beispiel ist eine erfundene Quellenangabe. Wenn ein Modell nach einer wissenschaftlichen Studie gefragt wird, kennt es die typische Form solcher Angaben: Autorennamen, Jahreszahl, Titel, Fachzeitschrift, DOI. Aus diesen Mustern kann es eine Angabe erzeugen, die wie eine echte Quelle aussieht. Für das Sprachmodell ist diese Form plausibel. Für den Nutzer kann sie täuschend echt wirken. Aber die formale Plausibilität sagt noch nichts darüber aus, ob die Quelle tatsächlich existiert. Genau hier zeigt sich der Unterschied zwischen sprachlicher Kohärenz und faktischer Zuverlässigkeit.

Auch ein konsistentes Weltbild schützt nicht automatisch vor Fehlern. Ein Modell kann innerhalb einer Antwort schlüssig argumentieren und trotzdem auf einer falschen Annahme aufbauen. Sobald die erste falsche Information gesetzt ist, kann der restliche Text diese Information kohärent weiterführen. Das Ergebnis wirkt dann nicht zufällig oder chaotisch, sondern gerade deshalb überzeugend, weil es sprachlich gut organisiert ist. Halluzinationen sind deshalb oft schwer zu erkennen: Sie klingen nicht wie Unsinn, sondern wie eine gute Antwort.

Der Satz „Intelligence is compression“ greift deshalb zu kurz. Kompression ist ein mächtiges Prinzip, weil sie Muster sichtbar macht und Generalisierung ermöglicht. Ohne Verdichtung wäre es kaum erklärbar, warum Sprachmodelle mit neuen Aufgaben umgehen können, die nicht exakt im Training vorkamen. Aber Kompression belohnt nicht automatisch Wahrheit. Sie belohnt Regelmäßigkeit. Und Texte enthalten nicht nur Wissen, sondern auch Irrtümer, Vereinfachungen, Meinungen, Spekulationen, veraltete Informationen und widersprüchliche Darstellungen.

Für die praktische Nutzung von KI bedeutet das: Sprachmodelle sind sehr stark, wenn es um Formulierung, Strukturierung, Zusammenfassung, Ideenentwicklung und Musterübertragung geht. Sie sind weniger zuverlässig, wenn eine Antwort überprüfbare Genauigkeit benötigt und keine zusätzliche Kontrolle eingebaut ist. Wer ein Modell als Schreibpartner nutzt, profitiert stark von seiner Fähigkeit zur plausiblen Fortsetzung. Wer es als Faktenquelle nutzt, muss prüfen, ob diese Plausibilität auch durch externe Evidenz gedeckt ist.

Deshalb sind Werkzeuge wie Quellenprüfung, Retrieval-Augmented Generation, Datenbankanbindung, klare Systemgrenzen und menschliche Kontrolle so wichtig. Sie verändern das Grundproblem nicht vollständig, aber sie ergänzen das Sprachmodell um Mechanismen, die über reine Fortsetzung hinausgehen. Ein Modell kann dann nicht nur eine wahrscheinliche Antwort erzeugen, sondern relevante Informationen aus einer verlässlichen Quelle einbeziehen. Trotzdem bleibt auch hier Verantwortung notwendig: Die Quelle muss passen, der Kontext muss richtig interpretiert werden und die Antwort darf nicht nur gut klingen.

Halluzinationen sind also kein nebensächlicher Schönheitsfehler. Sie liegen nah am Kern dessen, was Sprachmodelle tun. Ein Modell, das darauf optimiert ist, plausible Fortsetzungen zu erzeugen, wird in unklaren Situationen nicht automatisch schweigen. Es wird oft versuchen, die Lücke sprachlich sinnvoll zu schließen. Genau diese Fähigkeit macht es nützlich, aber auch riskant. Die gleiche Mechanik, die gute Erklärungen ermöglicht, kann überzeugende Falschinformationen erzeugen.

Ein nüchterner Blick auf Sprachmodelle hilft daher mehr als übertriebene Erwartungen. Next-Token-Prediction ist kein banales Nachplappern, sondern ein starkes Lernsignal, aus dem beeindruckende Fähigkeiten entstehen können. Gleichzeitig ist sie kein Wahrheitsmechanismus. Wer diesen Unterschied versteht, nutzt KI besser: nicht als unfehlbare Autorität, sondern als System, das Muster hervorragend verdichtet, Sprache überzeugend fortsetzt und dennoch auf Prüfung angewiesen bleibt.

Die wichtigste Erkenntnis lautet daher nicht, dass Sprachmodelle „dumm“ oder „intelligent“ sind. Entscheidend ist, welches Problem sie eigentlich lösen. Sie reduzieren Unsicherheit im nächsten Schritt der Sprache. Daraus entsteht ein großer Teil ihrer Stärke. Aber Wahrheit ist mehr als geringe Unsicherheit in einem Textverlauf. Wahrheit verlangt Abgleich mit der Welt, mit Daten, mit Quellen und mit überprüfbaren Kriterien. Solange diese Ebenen getrennt bleiben, werden Sprachmodelle gute Fortsetzungen finden und trotzdem manchmal halluzinieren.

Dirk Weiss

Warum KI gute Fortsetzungen findet, aber häufig halluziniert

Agent Workflows: Zwischen Produktivitätsversprechen und operativer Reife

KI verseucht sich selbst: Warum Datenqualität über die Zukunft von KI entscheidet