Claude Computer Use

Claude 3.5 Computer Use: Die KI, die Ihren Computer sieht und steuert

Stellen Sie sich eine künstliche Intelligenz vor, die Ihren Computer genauso bedienen kann wie Sie selbst und nur ihre „Augen“ benutzt, um den Bildschirm zu verstehen und mit ihm zu interagieren. Das ist genau das, was Claude 3.5 Computer Use erreichen will. Es kann verschiedene Aufgaben bewältigen, vom Surfen im Internet bis hin zur Bewältigung von Herausforderungen in Videospielen, ohne auf herkömmliche Methoden wie HTML-Parsing oder den Zugriff auf interne Software-APIs angewiesen zu sein. Forscher der National University of Singapore haben in einer Studie untersucht, wie gut Computer Use in verschiedenen Bereichen und mit unterschiedlicher Software funktioniert.

Wie Claude 3.5 Computer Use den Computer überwacht

Claude 3.5 Computer Use beobachtet seine Umgebung ausschließlich durch visuelle Informationen, die aus Echtzeit-Screenshots gewonnen werden, ohne sich auf Metadaten oder HTML-Informationen zu stützen. Dank dieses Ansatzes kann das Modell auch bei Closed-Source-Software, bei der der Zugang zu internen APIs oder zum Code eingeschränkt ist, effektiv funktionieren.

Diese Methode - auch bekannt als „vision-only approach“ - unterstreicht die Fähigkeit des Modells, menschliche Desktop-Interaktionen zu imitieren, indem es sich ausschließlich auf visuelle Eingaben stützt. Dies ist ein bedeutender Fortschritt in der GUI-Automatisierung, da es dem Modell ermöglicht, sich an die dynamische Natur von GUI-Umgebungen anzupassen, ohne die zugrunde liegende Struktur der Schnittstelle verstehen zu müssen.

Screenshot-Integration in Claude's Reasoning-Prozess

Claude 3.5 verwendet ein „reasoning-acting“-Paradigma, ähnlich dem traditionellen ReAct-Ansatz. Das bedeutet, dass das Modell zunächst die Umgebung beobachtet, bevor es sich für eine Aktion entscheidet, um sicherzustellen, dass seine Aktionen für den aktuellen Zustand der Benutzeroberfläche geeignet sind. Die Screenshots werden während der Ausführung der Aufgabe erfasst und wie folgt in den Schlussfolgerungsprozess des Modells integriert:

  1. Historischer Kontext: Claude 3.5 speichert eine Historie von Screenshots aus früheren Schritten und sammelt visuelle Informationen, während die Aufgabe fortschreitet.
  2. Aktionsgenerierung: Bei jedem Zeitschritt verwendet das Modell den aktuellen Screenshot in Kombination mit dem historischen Screenshot-Kontext, um die nächste Aktion zu bestimmen.

Dieser Ansatz ermöglicht es Claude 3.5, fundiertere Entscheidungen zu treffen, indem der gesamte visuelle Kontext der Aufgabe berücksichtigt wird, während sie sich entfaltet.

 

Selektive Beobachtungsstrategie

Wichtig ist, dass Claude 3.5 vom traditionellen ReAct-Paradigma abweicht, indem es eine **selektive Beobachtungsstrategie** anwendet. Das bedeutet, dass das Modell den Zustand der Benutzeroberfläche nicht kontinuierlich bei jedem Schritt beobachtet, sondern nur dann, wenn dies aufgrund seiner Überlegungen erforderlich ist. Diese selektive Beobachtung reduziert die Rechenkosten und beschleunigt den Gesamtprozess, da unnötige Screenshot-Aufnahmen und -Analysen vermieden werden.

Evaluierung der Performance von Claude 3.5 Computer Use

Die Studie hebt hervor, dass Claude 3.5 Computer Use eine starke Leistung bei der Automatisierung einer Vielzahl von Desktop-Aufgaben zeigt, aber auch Bereiche mit Verbesserungspotenzial aufzeigt. Diese Bewertung betrachtet die Planung, die Ausführung von Aktionen und das kritische Feedback als Schlüsselaspekte der Leistung.

Stärken

  • Websuche: Das Modell navigiert erfolgreich durch komplexe Websites wie Amazon und die offizielle Website von Apple, findet effizient Informationen, legt Artikel in den Warenkorb und kann sogar dynamische Elemente wie Pop-up-Fenster verarbeiten.
  • Automatisierung von Arbeitsabläufen: Claude 3.5 demonstriert die Fähigkeit, Aktionen über mehrere Anwendungen hinweg zu koordinieren. Es kann Daten zwischen Amazon und Excel übertragen, Online-Dokumente exportieren und lokal öffnen, Apps aus dem App Store installieren und sogar die Speichernutzung melden.
  • Office-Produktivität: Das Modell zeichnet sich durch die Automatisierung verschiedener Aufgaben in Microsoft Office-Anwendungen aus, darunter Word, PowerPoint und Excel. Es ändert erfolgreich Dokumentenlayouts, fügt Formeln ein, manipuliert Präsentationen und führt Such- und Ersetzungsvorgänge durch.
  • Videospiele: Claude 3.5 beweist seine Anpassungsfähigkeit an Spielumgebungen, interagiert mit Spieloberflächen und führt mehrstufige Aktionen in Spielen wie Hearthstone und Honkai: Star Rail aus. Er erstellt und benennt Decks um, setzt Heldenkräfte effektiv ein, automatisiert Warp-Sequenzen und erledigt tägliche Missionsaufgaben.

Limits

  • Planungsfehler: Das Modell interpretiert manchmal Benutzeranweisungen oder den aktuellen Zustand des Computers falsch, was zu einer falschen Aufgabenausführung führt. So navigierte es beispielsweise fälschlicherweise zur Registerkarte „Konto“, anstatt im Navigationsmenü von Fox Sports nach „Formel 1“ zu suchen.
  • Fehler bei Aktionen: Claude 3.5 kann mit der präzisen Steuerung innerhalb der GUI-Umgebung Probleme haben, was zu Ungenauigkeiten bei Aufgaben führt, die eine bestimmte Auswahl oder Interaktion erfordern. Dies zeigt sich bei der Aufgabe „Lebenslaufvorlage“, bei der das Modell den Namen und die Telefonnummer aufgrund einer ungenauen Textauswahl nur teilweise aktualisierte.
  • Kritische Irrtümer: Das Modell kann seine Aktionen oder den Zustand des Computers falsch einschätzen, indem es vorschnell den Abschluss einer Aufgabe meldet oder Fehler übersieht. So meldete es z. B. den erfolgreichen Abschluss der Aktualisierung der Lebenslaufvorlage, obwohl die Änderungen unvollständig waren, und wendete in PowerPoint fälschlicherweise Aufzählungszeichen anstelle von Nummern an.
  • Nicht menschenähnliche Interaktion: Die Abhängigkeit von „Bild hoch/runter“-Tastenkombinationen zum Blättern schränkt die Fähigkeit des Modells ein, Informationen umfassend zu durchsuchen und wahrzunehmen, was zu einer Diskrepanz zwischen seinem Interaktionsstil und dem menschlichen Nutzerverhalten führt.

Schlüsselergebnisse

  • Ausschließlich visueller Ansatz: Da sich Claude 3.5 bei der Umgebungsbeobachtung ausschließlich auf visuelle Informationen aus Screenshots stützt, kann es mit verschiedenen Anwendungen interagieren, sogar mit Closed-Source-Software, ohne dass Metadaten oder HTML-Parsing erforderlich sind.
  • Reasoning-Acting-Paradigma: Das Modell verwendet ein Reasoning-Acting-Paradigma, ähnlich wie ReAct, um sicherzustellen, dass seine Aktionen für den aktuellen GUI-Zustand angemessen sind. Es verwendet sowohl aktuelle als auch historische Screenshots, um Aktionen dynamisch zu generieren.
  • Selektive Beobachtungsstrategie: Claude 3.5 beobachtet den Zustand der grafischen Benutzeroberfläche selektiv und nur bei Bedarf, um die Rechenkosten zu senken und die Ausführung von Aufgaben zu beschleunigen.

Verbesserungspotenzial

  • Verbesserung des Kritiker-Moduls: Die Verbesserung der Selbstbeurteilungsfähigkeiten des Modells zur besseren Erkennung von Fehlern und zur genauen Bestimmung der Aufgabenerledigung ist entscheidend für die Erhöhung seiner Zuverlässigkeit.
  • Dynamisches Benchmarking: Die Bewertung von Claude 3.5 in dynamischeren und interaktiven Umgebungen, die die reale Nutzung von Anwendungen simulieren, würde eine umfassendere Bewertung seiner Leistung und Anpassungsfähigkeit ermöglichen.
  • Menschenähnliche Interaktion: Die Überbrückung der Kluft zwischen dem Interaktionsstil des Modells und dem des menschlichen Nutzers, insbesondere in Bereichen wie Scrollen und Browsen, würde seine Effektivität in realen Szenarien erhöhen.

Fazit

Claude 3.5 Computer Use zeigt ein erhebliches Potenzial für die Automatisierung der Benutzeroberfläche. Seine Leistung bei einer Vielzahl von Desktop-Aufgaben unterstreicht seine Stärken bei der Websuche, der Automatisierung von Arbeitsabläufen, der Produktivität im Büro und sogar bei Videospielen. Allerdings gibt es Einschränkungen bei der Planung, der Ausführung von Aktionen, dem kritischen Feedback und der Abhängigkeit von nicht menschenähnlichen Interaktionsmustern, die Bereiche für zukünftige Entwicklungen hervorheben. Die Behebung dieser Einschränkungen ist eine wesentliche Voraussetzung für die Entwicklung wirklich anspruchsvoller und zuverlässiger GUI-Automatisierungsmodelle, die die menschliche Computernutzung wirksam unterstützen und ergänzen können.

Foto Google DeepMind

Gehen Sie mit KI in die Zukunft Ihres Unternehmens

Mit unseren KI-Workshops rüsten Sie Ihr Team mit den Werkzeugen und dem Wissen aus, um bereit für das Zeitalter der KI zu sein.

Scroll to top