MagenticOne

Magentic-One von Microsoft – GUI-Automatisierung Ante Portas

Magentic-One von Microsoft ist ein quelloffenes Multi-Agenten-System, das komplexe Aufgaben mit Hilfe künstlicher Intelligenz lösen kann. Magentic-One nutzt ein Team spezialisierter Agenten, von denen jeder über Fähigkeiten wie Webbrowsing, Dateiverarbeitung und Codeausführung verfügt, die alle von einem Orchestrator-Agenten koordiniert werden. Dieser modulare Aufbau ermöglicht Flexibilität und Erweiterbarkeit, so dass das System an verschiedene Szenarien angepasst werden kann, indem Agenten je nach Bedarf hinzugefügt oder entfernt werden.

Fähigkeiten und Beiträge der Agenten von Magentic-One

Als Multi-Agenten-System, das für die autonome Erledigung komplexer Aufgaben konzipiert ist, besteht es aus mehreren Agenten die von einem zentralen Orchestrator koordiniert werden:

  • Orchestrator: Der Orchestrator ist das „Gehirn“ des Systems. Er nimmt die ursprüngliche Aufgabenanforderung entgegen und teilt sie strategisch in kleinere Teilaufgaben auf. Dieser Agent führt über die Aufgabe Buch: das Aufgabenbuch (task kedger), das den Plan, die Fakten und die Vermutungen enthält, und das Fortschrittsbuch (progress ledget), das die Ausführung des Plans verfolgt und Teilaufgaben an die entsprechenden Arbeitsagenten delegiert. Der Orchestrator überwacht den Fortschritt, erkennt unproduktive Schleifen und kann den Plan bei Bedarf dynamisch überarbeiten. Diese intelligente Planung, Delegation und Anpassung ist entscheidend für die effektive Bewältigung komplexer Aufgaben.
  • WebSurfer: Dieser Agent ist der Web-Experte des Teams. Er interagiert mit einem Chromium-basierten Webbrowser, empfängt Anweisungen vom Orchestrator und führt Aktionen wie das Navigieren zu URLs, Suchen, Scrollen, Anklicken von Links und Eingeben von Formularen aus. Der WebSurfer liefert auch Feedback an den Orchestrator, einschließlich Screenshots und Beschreibungen des Zustands der Webseite. Die Fähigkeit, Befehle in natürlicher Sprache zu interpretieren und einen Webbrowser zu bedienen, macht den WebSurfer unentbehrlich für Aufgaben wie Internetrecherche, Datenextraktion und die Interaktion mit Webanwendungen.
  • FileSurfer: Dieser Agent spiegelt die Funktionalität des WebSurfer wider, allerdings für das Dateisystem. Er interagiert mit einer benutzerdefinierten markdown-basierten Dateivorschau-Anwendung, die es ihm ermöglicht, in Verzeichnissen zu navigieren, verschiedene Dateitypen (PDFs, Office-Dokumente, Bilder usw.) zu öffnen und Informationen zu extrahieren. Diese Fähigkeit erweitert das Aufgabenspektrum von Magentic-One um Aufgaben wie Dokumentenanalyse, Datenverarbeitung und lokale Dateimanipulation.
  • Coder: Dieser Agent bringt Programmierkenntnisse in das Team ein. Er schreibt Python-Code auf der Grundlage von Anweisungen des Orchestrators und kann bestehenden Code durch die Erstellung überarbeiteter Versionen debuggen. Die Fähigkeit des Coders, Aufgabenanforderungen in funktionalen Code zu übersetzen, eröffnet eine große Bandbreite an Problemlösungsmöglichkeiten, insbesondere für Aufgaben, die Datenmanipulation, Automatisierung und Softwareentwicklung beinhalten.
  • ComputerTerminal: Dieser Agent dient als Code-Ausführungsumgebung für das Team. Er führt den vom Coder geschriebenen Python-Code aus und kann auch Shell-Befehle ausführen. Diese Fähigkeit ermöglicht es Magentic-One, den von ihm erzeugten Code auszuführen und zu testen, Ergebnisse zu erhalten und sogar neue Programmierbibliotheken zu installieren, um seine Codierungsfähigkeiten weiter auszubauen.

Magentic-One

Die Zusammenarbeit dieser Agenten, orchestriert durch die intelligente Entscheidungsfindung des Orchestrators, befähigt Magentic-One, komplexe Aufgaben zu lösen. Ablationsstudien mit dem GAIA-Benchmark zeigen die Bedeutung jedes einzelnen Agenten: Das Entfernen eines einzelnen Agenten führt zu einem erheblichen Leistungsabfall, was verdeutlicht, wie ihre speziellen Fähigkeiten synergetisch zum Erfolg des Systems beitragen.

Beschränkungen und künftige Richtungen für Magentic-One

Während Magentic-One als generalistisches Multi-Agenten-System eine starke Leistung zeigt, weisen die Forscher auf mehrere Einschränkungen und Bereiche für zukünftige Forschung und Entwicklung hin:

Bewertungsmetriken

Derzeitige Benchmarks konzentrieren sich in erster Linie auf die Genauigkeit des Endergebnisses und lassen entscheidende Aspekte wie Kosten, Latenzzeit, Benutzerpräferenz und Gesamtwert außer Acht. Ein umfassenderer Bewertungsrahmen sollte diese Faktoren einbeziehen und anerkennen, dass eine teilweise richtige, aber zeitnahe Lösung wertvoller sein kann als eine perfekt genaue, aber verzögerte oder teure Lösung. Darüber hinaus stützen sich die derzeitigen Bewertungen in hohem Maße auf Aufgaben mit eindeutigen richtigen Antworten. Die Einbeziehung subjektiver oder offener Aufgaben, bei denen die „Korrektheit“ weniger klar definiert ist, würde reale Szenarien besser widerspiegeln.

Effizienz und Kosten

Magentic-One stützt sich stark auf große Sprachmodelle (LLMs), die für ihre hohen Rechenkosten und Latenzzeiten bekannt sind. Für die Ausführung komplexer Aufgaben sind oft Dutzende von LLM-Aufrufen erforderlich, was das System teuer und zeitaufwändig macht. Künftige Forschungsarbeiten könnten die Verwendung kleinerer, spezialisierter Modelle für bestimmte Teilaufgaben untersuchen, um die Abhängigkeit von großen LLMs zu verringern und die Effizienz zu verbessern. Kleinere Modelle könnten beispielsweise die Verwendung von Werkzeugen in FileSurfer und WebSurfer handhaben oder das Set-of-Mark-Action-Grounding in WebSurfer durchführen. Darüber hinaus könnte die Einbeziehung menschlicher Aufsicht die Anzahl der Iterationen reduzieren, die erforderlich sind, wenn Agenten auf Schwierigkeiten stoßen, was zu einer weiteren Optimierung von Kosten und Zeit führt.

Multimodale Fähigkeiten

Das derzeitige Design von Magentic-One bietet keine umfassende Unterstützung für verschiedene Modalitäten, was seine Fähigkeit, bestimmte Aufgaben effektiv zu erledigen, einschränkt. So kann der WebSurfer beispielsweise keine Online-Videos verarbeiten (er ist stattdessen auf Transkripte oder Untertitel angewiesen), und der FileSurfer konvertiert alle Dokumente in Markdown, wodurch Informationen über visuelle Elemente wie Abbildungen und Layout verloren gehen. In ähnlicher Weise werden Audiodateien durch Sprachtranskription verarbeitet, was verhindert, dass die Agenten Musik oder nicht-sprachliche Inhalte verstehen. Die Erweiterung der multimodalen Fähigkeiten von Magentic-One ist von entscheidender Bedeutung für die Bewältigung eines breiteren Spektrums von Aufgaben in der realen Welt. Dies könnte die Verbesserung bestehender Agenten (WebSurfer und FileSurfer) oder die Einführung neuer spezialisierter Agenten (wie AudioSurfer und VideoSurfer) beinhalten.

Agent Action Space

Der Action Space der Agenten ist durch die derzeit verfügbaren Werkzeuge begrenzt. So kann der WebSurfer beispielsweise keine Aktionen wie das Bewegen des Mauszeigers über Elemente oder die Größenänderung durchführen, was seine Interaktion mit bestimmten Webanwendungen (z. B. Karten) einschränkt. In ähnlicher Weise sind die Unterstützung von FileSurfer für Dokumenttypen und der Zugriff von Coder und ComputerTerminal auf externe Ressourcen (APIs, Datenbanken) begrenzt. Die Erweiterung des Action Space durch die Entwicklung und Integration umfassenderer Werkzeuge ist für die Verbesserung der Flexibilität und Effektivität von Agenten in realen Umgebungen von entscheidender Bedeutung. Darüber hinaus könnte sich die Forschung darauf konzentrieren, Agenten in die Lage zu versetzen, bestehende, von Menschen entwickelte Betriebssysteme und Anwendungen zu nutzen, um so Zugang zu einer breiten Palette von Werkzeugen zu erhalten, die über die speziell für KI-Agenten entwickelten hinausgehen.

Programmierfähigkeiten

Die derzeitige Implementierung des Coder-Agenten ist relativ einfach. Er generiert eigenständige Python-Programme für jede Anfrage und erfordert die Ausgabe eines komplett neuen Code-Listings zur Fehlersuche. Dieser Ansatz ist ineffizient für den Umgang mit komplexen, mehrere Dateien umfassenden Codebasen oder Situationen, die eine iterative Entwicklung erfordern. Zukünftige Forschungen könnten alternative Designs erforschen, wie z. B. die Verwendung einer Jupyter-Notebook-ähnlichen Umgebung, in der Code inkrementell erstellt und modifiziert werden kann, was anspruchsvollere Programmieraufgaben erleichtert und besser mit realen Softwareentwicklungspraktiken übereinstimmt.

Anpassungsfähigkeit des Teams

Magentic-One arbeitet derzeit mit einem festen Team von fünf Agenten. Diese Struktur kann für bestimmte Aufgaben suboptimal sein: nicht benötigte Agenten können den Orchestrator ablenken, während wichtige Fachkenntnisse fehlen können. Das dynamische Hinzufügen oder Entfernen von Agenten auf der Grundlage der Aufgabenanforderungen könnte die Effizienz und Anpassungsfähigkeit des Systems verbessern.

Lernen und Gedächtnis

Magentic-One verfügt nicht über ein Langzeitgedächtnis, so dass Erkenntnisse, die während einer Aufgabe gewonnen wurden, beim Übergang zur nächsten Aufgabe verworfen werden. Dies führt zu einer wiederholten Wiederentdeckung von Lösungen für gemeinsame Teilaufgaben, was besonders bei Benchmarks wie WebArena auffällt. Die Einführung von Mechanismen für das Langzeitgedächtnis und den Wissenstransfer über Aufgaben hinweg ist ein Schlüsselbereich für die zukünftige Forschung, der es Agenten ermöglicht, aus vergangenen Erfahrungen zu lernen und im Laufe der Zeit effizienter und robuster zu werden.

Risikominimierung

Die Autoren betonen auch, wie wichtig es ist, sich mit potenziellen Risiken zu befassen, die mit Agenten verbunden sind, die in von Menschen gestalteten Umgebungen arbeiten. Zu den beobachteten Risiken gehören:

  • Sicherheitsschwachstellen: Agenten, die ohne menschliche Aufsicht Aktionen wie das Zurücksetzen von Passwörtern oder die Zustimmung zu Cookie-Richtlinien versuchen.
  • Anfälligkeit für Manipulation: Agenten können Opfer von Phishing-Angriffen werden oder durch bösartige Aufforderungen beeinflusst werden.
  • Unumkehrbare Handlungen: Agenten, die Aktionen mit dauerhaften Folgen (Löschen von Dateien, Versenden von E-Mails) ohne angemessene Überlegung durchführen.
  • Gesellschaftliche Auswirkungen: Bedenken hinsichtlich möglicher Arbeitsplatzverlagerungen und wirtschaftlicher Beeinträchtigungen durch die zunehmende Automatisierung.

Es werden mehrere Abhilfestrategien vorgeschlagen:

  • Principle of least priveledge: Begrenzung des Zugriffs und der Berechtigungen von Agenten, um den potenziellen Schaden zu minimieren.
  • Verstärkte menschliche Aufsicht: Einbeziehung von Menschen in kritische Entscheidungsprozesse, insbesondere bei risikoreichen Aktionen.
  • Verbesserte Sicherheitsmaßnahmen: Ausstattung der Agenten mit Tools zur Erkennung von Phishing-Versuchen, zur Überprüfung von Informationsquellen und zur sicheren Verwaltung von Anmeldedaten.
  • Förderung der Zusammenarbeit zwischen Mensch und Agent: Der Schwerpunkt liegt auf der Entwicklung von Systemen, die die menschlichen Fähigkeiten ergänzen, anstatt sie vollständig zu ersetzen.

Um das Potenzial von Multiagentensystemen wie Magentic-One voll ausschöpfen zu können, ist es entscheidend, diese Einschränkungen und Risiken durch kontinuierliche Forschung und Entwicklung zu beseitigen. Durch die Verbesserung der Effizienz, die Erweiterung der Fähigkeiten, die Erhöhung der Sicherheit und die Förderung einer verantwortungsvollen Nutzung können wir KI-Agenten schaffen, die wirklich nützlich und transformativ sind.

Foto Nico Herrmann

Gehen Sie mit KI in die Zukunft Ihres Unternehmens

Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.

Scroll to top