Die Illusion des Multi-Agenten-Vorteils: Warum automatisch erzeugte Agenten-Schwärme teurer sind und schlechter abschneiden

13. Juni 2026. Ein Preprint von Forschenden aus Salesforce AI Research, der NTU Singapur, der University of British Columbia und der HKUST stellt die verbreitete Annahme infrage, dass mehr Agenten automatisch mehr Leistung bedeute. In einer systematischen Auswertung schneiden automatisch erzeugte Multi-Agenten-Systeme durchgängig schlechter ab als ein einzelner, gut geführter Agent — bei bis zu zehnfachen Kosten. Die Schwäche liegt nicht im Multi-Agenten-Prinzip selbst, sondern im automatischen Entwurf, der Komplexität ohne funktionalen Nutzen aufbaut.

Was ist passiert

Am 11. Juni ist auf arXiv das Preprint „The Illusion of Multi-Agent Advantage“ (2606.13003) erschienen, verfasst von einem Team aus Salesforce AI Research, der Nanyang Technological University, der University of British Columbia und der HKUST. Die Arbeit prüft die in der Branche verbreitete Annahme, Multi-Agenten-Systeme (MAS) seien Einzel-Agenten-Systemen grundsätzlich überlegen — üblich begründet mit Kontextschutz, Parallelverarbeitung und verteilter Entscheidungsfindung. Die Forschenden stellen automatisch erzeugte MAS (auf Generalisierbarkeit hin entworfen) systematisch einem einzelnen Agenten gegenüber, konkret der Chain-of-Thought-Methode mit Self-Consistency (CoT-SC) — also einem einzelnen Modell, das mehrere Lösungswege durchrechnet und den konsistentesten wählt. Über klassische Reasoning-Datensätze und interaktive mehrschrittige Workflows (z. B. BrowseComp-Plus) hinweg schneiden die automatisch erzeugten MAS durchgängig schlechter ab als CoT-SC — und sind dabei bis zu zehnmal teurer. Ein eigens entworfener Diagnose-Datensatz mit expliziter Aufgabenzerlegung, Kontexttrennung und Parallelisierungs-Potenzial zeigt zudem: expertengestaltete MAS schlagen die automatisch generierten in Leistung und Kosteneffizienz deutlich.

Einordnung

Der Kern ist nicht „Multi-Agent funktioniert nicht“ — sondern dass der derzeit vermarktete Weg dorthin nicht funktioniert. Die Studie trennt sauber zwischen dem Prinzip (mehrere spezialisierte Agenten, die zusammenarbeiten) und der Praxis automatischer Architektur-Generatoren, die aus einer Aufgabe selbsttätig einen Agenten-Schwarm bauen. Genau diese Generatoren erzeugen, was die Autoren „architectural bloat“ nennen: oberflächliche Komplexität, die den Rechenaufwand vervielfacht, ohne den Nutzen zu steigern. Brisant ist die methodische Beobachtung, dass gängige Benchmarks diesen Befund verdecken, weil sie isolierte Reasoning-Aufgaben bevorzugen und die Grenzkosten zusätzlicher Rechenleistung nicht mitbewerten. Wer Erfolgsquoten ohne Kosten misst, sieht den Schwarm gewinnen; wer Kosten je gelöster Aufgabe misst, sieht den einzelnen Agenten vorn. Das ist über die Tageslage hinaus relevant, weil „Agenten-Orchestrierung“ gerade das dominierende Verkaufsargument vieler Plattformen ist.

Bedeutung für den Mittelstand

Für mittelständische Häuser ist das eine teure Falle, die sich vermeiden lässt. Der Reflex, eine KI-Aufgabe gleich als Team aus „Planer-, Recherche-, Prüf- und Schreib-Agent“ aufzusetzen, klingt nach Sorgfalt, kostet aber laut dieser Auswertung bis zum Zehnfachen — bei schlechterem Ergebnis als ein einzelner, sauber instruierter Agent. Gerade bei knappen Budgets zählt die nüchterne Konsequenz: nicht jede Aufgabe braucht einen Schwarm, und dessen Mehrkosten sind laufend, nicht einmalig.

Der Befund hat eine Datenschutz-Dimension, die ich bewusst hier und nicht als Fußnote setze: Jeder zusätzliche Agent bedeutet zusätzliche Modell-Aufrufe, zusätzliche Tool-Aufrufe und damit zusätzliche Datenflüsse. Wo die Modelle bei US-Anbietern liegen, vervielfacht ein Agenten-Schwarm nicht nur die Inferenz-Rechnung, sondern auch die Drittland-Oberfläche und den Umfang der Auftragsverarbeitung nach Art. 28 DSGVO — mehr Stellen, an denen personenbezogene oder geschäftskritische Daten das Haus verlassen. Architektur-Bloat ist damit zugleich Compliance-Bloat. Bevor ein Multi-Agenten-Aufbau produktiv geht, gehört die Frage an Ihre oder Ihren Datenschutzbeauftragten, welche Agenten welche Daten an welchen Verarbeiter geben — und ob eine Datenschutz-Folgenabschätzung nötig ist. Ein einzelner, gut geführter Agent ist nicht nur billiger und oft besser, sondern auch die kleinere und leichter prüfbare Datenschnittstelle.

Bedeutung für die technische Entwicklung

Architektonisch zieht die Arbeit eine Linie zwischen Design-Disziplin und Komplexitäts-Reflex. Dass expertengestaltete MAS die automatisch generierten schlagen, heißt: Multi-Agent ist eine Architektur-Entscheidung, keine Default-Einstellung. Ein zusätzlicher Agent rechtfertigt sich nur durch einen messbaren, strukturellen Grund — echte Parallelität, harte Kontexttrennung, Isolation kritischer Schritte — nicht durch das Gefühl, dass „mehr Rollen“ gründlicher seien. CoT-SC mit einem einzigen Modell ist dabei eine überraschend starke Messlatte, die ein Mehr-Agenten-Aufbau erst einmal schlagen muss.

Für die Protokoll-Schicht ist das eine wichtige Relativierung. MCP und A2A machen es technisch billig, viele Agenten und Server miteinander zu verdrahten — und senken damit genau die Hürde, die den Bloat erzeugt. Interoperabilität ist ein Gewinn; sie ist aber kein Argument dafür, eine Aufgabe auf mehr Agenten zu verteilen, als sie strukturell verlangt. Die Konsequenz ist nüchtern: erst die Einzel-Agenten-Basislinie bauen und messen, dann Agenten nur dort ergänzen, wo Zerlegung, Kontexttrennung oder Parallelität nachweisbar tragen.

Konkrete Handlungsempfehlung

In dieser Reihenfolge. Erstens, bevor ein Multi-Agenten-Aufbau gebaut oder eingekauft wird, eine Einzel-Agenten-Basislinie etablieren — ein gut instruierter Agent, gerne mit Self-Consistency — und deren Leistung und Kosten je gelöster Aufgabe dokumentieren. Zweitens, einen zweiten Agenten nur dann hinzufügen, wenn es einen messbaren strukturellen Grund gibt (echte Parallelität, Kontexttrennung, Isolation), und den Zugewinn gegen die Basislinie belegen, nicht behaupten. Drittens, immer mit Kosten bewerten: Erfolgsquote ohne Kosten ist die Kennzahl, die den Schwarm fälschlich gewinnen lässt. Viertens, wenn Multi-Agent, dann expertengestaltet statt aus einem Generator — und jeden zusätzlichen Agenten derselben Datenfluss- und Governance-Prüfung unterwerfen wie den ersten. Dieser Beitrag spiegelt meine technische und strategische Einschätzung. Er ersetzt keine Rechtsberatung und keine Datenschutz-Folgenabschätzung.

Quellen

Jwalapuram et al.: „The Illusion of Multi-Agent Advantage“, arXiv:2606.13003 (Abstract) (11.06.2026, Primärquelle)
Volltext (PDF), arXiv:2606.13003 (11.06.2026)
DOI: 10.48550/arXiv.2606.13003 (abgerufen 13.06.2026)

Über den Autor

Kai Ole Hartwig

Freiberuflicher DevSecOps-Berater · OnlyOle Consulting

Programmiert seit 2002 – autodidaktisch gelernt, 2012 mit KO-Web selbständig gemacht. Über 100 Projekte, Fokus auf Security, Performance, Automatisierung und Qualität. Heute freiberuflich: DevSecOps-Beratung, Schulungen und Softwareentwicklung.

LinkedIn · GitHub · Blog · OnlyOle

Schulungen

KI-Werkzeuge im Team einführen?
Hands-on statt Hype.

Workshops am echten Stack deines Teams: wo Agenten wirklich tragen, wo sie teuer werden — und wie ihr sie sicher in den Entwicklungsalltag holt.

Schulungen ansehen