Autonome Agenten: Warum mehr Freiheit nicht automatisch bessere Systeme schafft

30. Juni

Der Anthropic-Beitrag „Building effective agents“ ist deshalb weiterhin relevant, weil er eine wohltuend nüchterne Frage stellt: Braucht eine Aufgabe wirklich einen autonomen Agenten oder reicht ein klar definierter Workflow? Der Text wurde am 19. Dezember 2024 veröffentlicht und gehört zu den Beiträgen, die die aktuelle Diskussion über Agenten stark geprägt haben. Interessant ist dabei weniger ein einzelnes technisches Muster, sondern die Grundhaltung: Agentische Systeme sollten nicht gebaut werden, weil Autonomie modern klingt, sondern weil die Aufgabe tatsächlich Flexibilität, Werkzeugnutzung und eigenständige Entscheidungen verlangt.

Workflows und Agenten: Eine notwendige Unterscheidung

Anthropic unterscheidet klar zwischen Workflows und Agenten. Workflows sind Systeme, in denen LLMs und Tools über vorher festgelegte Codepfade orchestriert werden. Agenten dagegen sind Systeme, bei denen das Modell dynamisch entscheidet, wie es vorgeht, welche Werkzeuge es nutzt und wie es auf Zwischenergebnisse reagiert. Diese Unterscheidung klingt zunächst einfach, ist in der Praxis aber entscheidend. Viele Systeme, die heute als „Agenten“ bezeichnet werden, sind bei genauer Betrachtung eher strukturierte Workflows mit LLM-Komponenten. Das ist nicht negativ. Im Gegenteil: Für viele Anwendungsfälle ist genau diese Begrenzung ein Vorteil, weil sie Vorhersagbarkeit, Testbarkeit und Kontrolle erhöht.

Gerade bei Aufgaben mit klaren Schritten ist ein Workflow oft die bessere Wahl. Wenn ein Text erst zusammengefasst, dann geprüft und anschließend in ein bestimmtes Format gebracht werden soll, braucht es nicht zwingend einen Agenten, der frei entscheiden kann, was als Nächstes passiert. Ein Prompt-Chaining-Ansatz oder ein Routing-Workflow kann ausreichen. Entscheidend ist nicht, ob das System möglichst autonom wirkt, sondern ob die Architektur zur Aufgabe passt. Autonomie ist kein Qualitätsmerkmal an sich. Sie ist ein Mittel, das nur dann sinnvoll ist, wenn starre Abläufe nicht mehr ausreichen.

Die Versuchung der Autonomie

Der Reiz autonomer Agenten liegt auf der Hand. Ein System, das selbst plant, Tools auswählt, Ergebnisse überprüft und bei Fehlern neue Wege sucht, wirkt leistungsfähiger als ein fest verdrahteter Ablauf. Doch genau hier beginnt die eigentliche Herausforderung. Mehr Freiheit bedeutet auch mehr Unsicherheit. Ein Agent kann bessere Entscheidungen treffen, wenn die Situation offen ist. Er kann aber auch unnötige Schritte ausführen, falsche Werkzeuge wählen, in Schleifen geraten oder aus einem kleinen Fehler eine größere Fehlkette machen.

Anthropic weist deshalb darauf hin, dass agentische Systeme häufig Latenz und Kosten gegen bessere Aufgabenleistung eintauschen. Komplexität sollte nur dann erhöht werden, wenn sie nachweislich bessere Ergebnisse bringt. Für viele Anwendungen kann bereits ein einzelner gut gestalteter LLM-Aufruf mit Retrieval, Beispielen und klarer Ausgabeformatierung genügen. Diese Aussage ist wichtig, weil sie dem Reflex widerspricht, jedes Problem sofort mit einem Agenten-Framework zu lösen.

In der Praxis ist genau diese Zurückhaltung oft der Unterschied zwischen einem stabilen System und einer beeindruckenden Demo. Eine Demo darf überraschen. Ein produktives System muss wiederholbar funktionieren. Es muss mit Grenzfällen umgehen, Berechtigungen einhalten, Kosten begrenzen, Fehler sichtbar machen und nachvollziehbare Ergebnisse liefern. Ein Agent, der einmal eine komplexe Aufgabe löst, beweist noch nicht, dass er zuverlässig im Betrieb eingesetzt werden kann.

Routing und Tool-Nutzung statt Framework-Gläubigkeit

Ein weiterer starker Punkt des Anthropic-Beitrags ist die Skepsis gegenüber unnötiger Abstraktion. Frameworks können beim Einstieg helfen, weil sie Standardaufgaben wie Tool-Definitionen, LLM-Aufrufe oder Verkettungen vereinfachen. Gleichzeitig können sie aber zusätzliche Schichten einziehen, die Prompts, Antworten und Zwischenentscheidungen verdecken. Das erschwert Debugging und kann dazu führen, dass Teams Komplexität hinzufügen, obwohl eine einfache Lösung ausreichen würde. Anthropic empfiehlt deshalb, zunächst möglichst direkt mit LLM-APIs und einfachen Bausteinen zu arbeiten und Frameworks nur dann einzusetzen, wenn man ihre inneren Abläufe versteht.

Besonders relevant ist dabei die Gestaltung der Tools. Ein Agent ist nur so gut wie die Schnittstellen, über die er handeln darf. Wenn Tool-Beschreibungen unklar sind, Parameter missverständlich benannt werden oder mehrere Werkzeuge ähnliche Aufgaben erfüllen, steigt die Fehlerwahrscheinlichkeit. Gute Agentenarchitektur besteht deshalb nicht nur aus guten Prompts. Sie besteht aus klaren Tool-Grenzen, verständlichen Eingaben, überprüfbaren Ausgaben und einer Umgebung, die Fehler möglichst früh sichtbar macht.

Routing ist in diesem Zusammenhang oft unterschätzt. Viele Aufgaben lassen sich verbessern, indem Eingaben zunächst sauber klassifiziert und dann an spezialisierte Teilprozesse weitergeleitet werden. Ein Support-System muss nicht jede Anfrage mit demselben Modell und demselben Prompt behandeln. Eine einfache Rückfrage, eine technische Fehlermeldung und ein kritischer Vertragsfall brauchen unterschiedliche Pfade. Solche Strukturen sind weniger spektakulär als ein autonomer Agent, aber im Betrieb oft robuster.

Warum Demo und Betrieb zwei verschiedene Welten sind

Der vielleicht wichtigste Gedanke liegt außerhalb der reinen Architekturdiagramme. Im Betrieb zählt nicht nur, was ein Agent theoretisch kann, sondern wie er sich unter realen Bedingungen verhält. Dazu gehören Monitoring, Retries, Memory, Übergaben an Menschen, Berechtigungsmodelle, Kostenkontrolle und klare Abbruchbedingungen. Anthropic beschreibt, dass Agenten während der Ausführung Rückmeldung aus ihrer Umgebung benötigen, etwa durch Tool-Ergebnisse oder Code-Ausführung, und dass Stoppbedingungen wie eine maximale Anzahl an Iterationen wichtig sein können, um Kontrolle zu behalten.

Genau hier entstehen die größten Unterschiede zwischen einem Prototyp und einem produktiven System. Ein Prototyp kann mit breiten Rechten arbeiten, wenige Testfälle abdecken und bei Fehlern manuell korrigiert werden. Ein produktives System braucht dagegen klare Verantwortlichkeiten. Wer darf was auslösen? Welche Aktionen benötigen Freigabe? Welche Daten darf der Agent sehen? Was passiert, wenn ein Tool nicht erreichbar ist? Wie wird verhindert, dass ein Agent denselben fehlgeschlagenen Schritt mehrfach wiederholt? Solche Fragen wirken weniger elegant als Architekturpatterns, entscheiden aber über die Alltagstauglichkeit.

Auch Memory ist ein gutes Beispiel. In Präsentationen klingt es oft attraktiv, wenn ein Agent sich frühere Interaktionen merkt. Im Betrieb stellt sich sofort die Frage, was genau gespeichert wird, wie lange es gespeichert wird, wer darauf zugreifen darf und wie falsche oder veraltete Erinnerungen korrigiert werden. Ohne solche Grenzen kann Memory schnell von einem Vorteil zu einer Fehlerquelle werden.

Autonomie braucht Grenzen

Der Begriff „autonomer Agent“ suggeriert leicht, dass möglichst wenig menschliche Kontrolle wünschenswert sei. Tatsächlich ist oft das Gegenteil der Fall. Gute Agentensysteme brauchen klare operative Grenzen. Sie müssen wissen, wann sie handeln dürfen, wann sie fragen müssen und wann sie abbrechen sollen. Diese Grenzen sind keine Einschränkung des Nutzens, sondern eine Voraussetzung dafür, dass der Nutzen dauerhaft entsteht.

Das gilt besonders bei Aufgaben mit finanziellen, rechtlichen oder organisatorischen Folgen. Ein Agent, der Informationen recherchiert oder Entwürfe vorbereitet, bewegt sich in einem anderen Risikobereich als ein Agent, der Verträge ändert, Zahlungen auslöst oder Kundendaten in operativen Systemen bearbeitet. Je stärker ein Agent reale Handlungen ausführen kann, desto wichtiger werden Berechtigungen, Audit-Logs und Freigabeschritte.

Aus technologischer Nachhaltigkeitsperspektive ist dieser Punkt zentral. Nachhaltige Systeme sind nicht diejenigen, die maximale Autonomie demonstrieren, sondern diejenigen, die über längere Zeit zuverlässig, nachvollziehbar und wartbar bleiben. Ein System, das in der Entwicklung beeindruckt, aber im Betrieb ständig überwacht, repariert oder eingeschränkt werden muss, erzeugt langfristig mehr Aufwand als Nutzen.

Fazit: Die bessere Frage ist nicht „Kann der Agent das?“

Die Agenten-Debatte wird oft von der Frage geprägt, was autonome Systeme inzwischen alles können. Der Anthropic-Beitrag verschiebt den Blick auf eine reifere Frage: Wie viel Autonomie braucht die konkrete Aufgabe tatsächlich? Diese Verschiebung ist wichtig, weil sie technische Begeisterung nicht ablehnt, aber in eine praktischere Richtung lenkt.

Agenten sind sinnvoll, wenn Aufgaben offen, dynamisch und schwer vorhersehbar sind. Sie können besonders dann hilfreich sein, wenn Tools genutzt, Zwischenergebnisse bewertet und unterschiedliche Lösungswege ausprobiert werden müssen. Für viele andere Aufgaben sind Workflows, Routing, Prompt Chaining oder einfache LLM-Aufrufe jedoch die bessere Architektur. Nicht, weil sie weniger modern sind, sondern weil sie besser kontrollierbar sind.

Der eigentliche Fortschritt liegt daher nicht darin, jedes System autonomer zu machen. Er liegt darin, Aufgaben sauber zu analysieren, Komplexität bewusst zu begrenzen und Autonomie nur dort einzusetzen, wo sie einen messbaren Mehrwert bringt. Gerade in produktiven Umgebungen ist das oft der vernünftigere Weg: nicht der Agent mit den meisten Freiheiten, sondern das System mit den klarsten Grenzen.

Stilgrundlage: Die Ausarbeitung orientiert sich am Aufbau und Ton der bereitgestellten Beispielbeiträge mit technischer Erklärung, praktischer Einordnung und kritischer Abwägung.

Dirk Weiss