KI verseucht sich selbst: Warum Datenqualität über die Zukunft von KI entscheidet

15. Apr.

Künstliche Intelligenz wird oft über Modelle, Parameter, Rechenleistung und neue Funktionen diskutiert. Dabei gerät ein weniger sichtbarer, aber entscheidender Punkt schnell in den Hintergrund: die Qualität der Daten, auf denen diese Systeme trainiert werden. Ein KI-Modell lernt nicht aus einer neutralen Wahrheit, sondern aus vorhandenen Texten, Bildern, Labels, Tabellen, Entscheidungen und Mustern. Wenn diese Grundlage fehlerhaft, veraltet oder bereits durch KI-generierte Inhalte verzerrt ist, wird das Problem nicht kleiner. Es wird strukturierter, schneller abrufbar und in vielen Fällen überzeugender formuliert.

Genau darin liegt die eigentliche Brisanz. Fehlerhafte Daten sind bei KI nicht einfach nur „schlechte Eingaben“. Sie wirken wie eingebauter Kontext. Ein Modell übernimmt nicht nur einzelne Fehler, sondern lernt Beziehungen, Gewichtungen und Wahrscheinlichkeiten aus ihnen. Wenn beispielsweise historische Entscheidungen bestimmte Gruppen systematisch benachteiligt haben, kann ein Modell diese Muster weiterführen, ohne dass es selbst eine bewusste Entscheidung trifft. Wenn Labels ungenau sind, können auch eigentlich leistungsfähige Modelle in eine falsche Richtung optimiert werden. Und wenn strukturierte Daten alt, unvollständig oder aus dem falschen Kontext stammen, sehen sie zwar sauber aus, sind aber trotzdem keine verlässliche Grundlage.

Besonders problematisch wird es, wenn KI-Systeme zunehmend mit Inhalten trainiert werden, die selbst von KI erzeugt wurden. Studien zum sogenannten „Model Collapse“ zeigen, dass Modelle an Qualität verlieren können, wenn sie rekursiv auf generierten Daten trainiert werden. In der Nature-Studie von Shumailov et al. wurde beschrieben, dass bei unkritischer Nutzung modellgenerierter Trainingsdaten Teile der ursprünglichen Datenverteilung verloren gehen können. Anders gesagt: Seltene, ungewöhnliche oder besonders nuancierte Informationen verschwinden schrittweise aus dem gelernten Muster. Das Modell wird glatter, aber nicht unbedingt besser.

Das bedeutet nicht, dass synthetische Daten grundsätzlich wertlos oder gefährlich sind. Es gibt sinnvolle Einsatzbereiche, etwa wenn Daten gezielt ergänzt, anonymisiert oder für bestimmte Testszenarien erzeugt werden. Der Unterschied liegt in der Kontrolle. Synthetische Daten, die bewusst erstellt, geprüft und klar gekennzeichnet werden, sind etwas anderes als ungefilterte KI-Texte aus dem offenen Internet, die später wieder als Trainingsmaterial verwendet werden. Forschung zur statistischen Analyse von Model Collapse weist ebenfalls darauf hin, dass reine synthetische Trainingsschleifen problematisch sind, während gemischte Datensätze mit echten und synthetischen Daten unter bestimmten Bedingungen stabiler sein können.

Die Gefahr liegt deshalb weniger in einem einzelnen fehlerhaften Output, sondern in der Wiederholung. Automatisierung macht Ungenauigkeit skalierbar. Ein falsch klassifizierter Datensatz, ein unsauberes Label oder eine plausible, aber falsche KI-Antwort kann in automatisierten Prozessen immer wieder verwendet werden. Aus einem einzelnen Fehler wird dann eine regelhafte Verzerrung. Besonders kritisch ist das in Bereichen, in denen KI nicht nur Texte formuliert, sondern Entscheidungen vorbereitet: Bewerbungen, Kreditprüfungen, medizinische Voranalysen, Risikobewertungen, Kundenservice, Compliance oder interne Wissenssysteme.

Hinzu kommt, dass generative KI Fehler häufig sehr glaubwürdig präsentiert. Eine falsche Antwort wirkt nicht automatisch falsch, wenn sie sprachlich sauber, souverän und logisch aufgebaut erscheint. Genau das unterscheidet KI-Fehler von vielen klassischen Datenfehlern. Eine kaputte Tabelle fällt manchmal auf. Ein offensichtlich leerer Wert kann geprüft werden. Eine elegant formulierte, aber unbelegte Behauptung dagegen kann schnell wie Wissen wirken. Dadurch verschiebt sich das Risiko von der reinen Datenverarbeitung hin zur Vertrauensbildung.

Die zentrale Frage lautet daher nicht nur: Wie gut ist das Modell? Sie lautet: Welche Quelle der Wahrheit automatisieren wir? Wenn ein Unternehmen alte Dokumente, uneinheitliche Datenbanken oder ungeprüfte Webinhalte als Grundlage nutzt, automatisiert es nicht Wissen, sondern den Zustand dieser Datenbasis. Wenn darin veraltete Annahmen, historische Verzerrungen oder KI-generierte Zusammenfassungen ohne Herkunftsnachweis stecken, werden genau diese Elemente Teil des Systems.

Datenqualität ist deshalb keine technische Nebensache. Sie ist eine organisatorische Verantwortung. Es braucht klare Herkunftsnachweise, aktuelle Datensätze, saubere Label-Prozesse, regelmäßige Prüfungen und eine bewusste Trennung zwischen menschlich erzeugten, kuratierten und synthetisch generierten Inhalten. Entscheidend ist auch, dass Daten nicht nur einmal vor dem Training bewertet werden. In vielen Anwendungen verändern sich Datenquellen laufend. Interne Wissensdatenbanken werden erweitert, Kundendaten aktualisiert, Dokumente automatisch zusammengefasst und neue Inhalte durch KI-Systeme erzeugt. Ohne Governance entsteht ein Kreislauf, in dem niemand mehr genau weiß, ob eine Information aus einer geprüften Quelle stammt oder bereits das Ergebnis früherer KI-Ausgaben ist.

Am Ende trifft der Satz „bad data in, scalable inaccuracy out“ den Kern sehr genau. Die bekanntere Variante „shit in, shit out“ ist zwar drastischer, aber im KI-Kontext fast noch zu harmlos. Denn KI gibt schlechte Daten nicht einfach nur zurück. Sie kann sie verallgemeinern, sprachlich veredeln und in operative Prozesse einbauen. Genau deshalb braucht es weniger blinden Modellglauben und mehr Aufmerksamkeit für die Grundlagen: Datenherkunft, Aktualität, Kontext, Labelqualität und menschliche Prüfung.

Vertrauen in KI entsteht langfristig nicht durch glatt formulierte Antworten. Es entsteht durch nachvollziehbare Grundlagen, überprüfbare Quellen und die Bereitschaft, Automatisierung dort zu begrenzen, wo die Datenbasis nicht belastbar genug ist. Die Zukunft von KI entscheidet sich deshalb nicht nur im Modelltraining, sondern schon viel früher: bei der Frage, welche Daten wir sammeln, welche wir ausschließen, welche wir prüfen und welche wir niemals ungefragt zur Quelle der Wahrheit machen sollten.

Dirk Weiss

KI verseucht sich selbst: Warum Datenqualität über die Zukunft von KI entscheidet

Physik statt Populismus