Startseite

ByteDance veröffentlicht mit UI-TARS 1.5 den aktuell fortschrittlichsten KI-Agenten für Computersteuerung

KI-Admin 3 Min. Lesezeit 3320. Juni 2025
ByteDance veröffentlicht mit UI-TARS 1.5 den aktuell fortschrittlichsten KI-Agenten für Computersteuerung
Revolution in der Mensch-Computer-Interaktion: Mit UI-TARS 1.5 bringt ByteDance einen Vision-Language-Agenten auf den Markt, der Desktop- und mobile Schnittstellen per natürlicher Sprache versteht und steuert – und damit GPT-4 sowie Claude übertrifft. Was ist UI-TARS 1.5? Der chinesische Tech-Riese...
Revolution in der Mensch-Computer-Interaktion: Mit UI-TARS 1.5 bringt ByteDance einen Vision-Language-Agenten auf den Markt, der Desktop- und mobile Schnittstellen per natürlicher Sprache versteht und steuert – und damit GPT-4 sowie Claude übertrifft.

Was ist UI-TARS 1.5?

Der chinesische Tech-Riese ByteDance hat am 11. Juni 2025 offiziell UI-TARS 1.5 vorgestellt – einen multimodalen KI-Agenten, der als Meilenstein in der KI-gesteuerten GUI-Automatisierung gilt. Das System basiert auf dem leistungsfähigen Modell Qwen-VL (Vision-Language) und wurde mit Milliarden von grafischen Benutzeroberflächen, Benutzeraktionen und Schritt-für-Schritt-Anleitungen trainiert.

Das Ziel: eine künstliche Intelligenz zu schaffen, die nicht nur versteht, was sie auf einem Bildschirm „sieht“, sondern auch eigenständig und effizient mit der Benutzeroberfläche interagieren kann – ganz so, wie es ein Mensch tun würde.

frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share" referrerpolicy="strict-origin-when-cross-origin" allowfullscreen>

Wie leistungsfähig ist der Agent?

In einer Reihe unabhängiger Benchmarks zeigt sich die Überlegenheit von UI-TARS 1.5 gegenüber westlichen Konkurrenzmodellen:

  • Im GUI-Test ScreenSpotPro erreichte der Agent eine Genauigkeit von 61,6 % – deutlich vor GPT-4 (41,2 %) und Claude 3.5 (27,7 %).
  • Auch in realitätsnahen Aufgaben wie OSWorld oder mobilen Bedienoberflächen punktete das Modell mit Erfolgsraten von bis zu 85 %.
  • In Minecraft-Simulationen reduzierte der Agent fehlerhafte Aktionen durch einen „Think-before-act“-Mechanismus um 38 %.

Diese Werte belegen nicht nur die technische Raffinesse des Systems, sondern auch seine hohe Alltagstauglichkeit für praktische Automatisierungsaufgaben.

Ein einheitlicher Aktionsraum – plattformübergreifend

Ein besonderes Highlight ist der sogenannte Unified Action Space, der es UI-TARS 1.5 ermöglicht, über Desktop, Browser und mobile Geräte hinweg zu agieren. Dabei unterstützt die KI alle gängigen Aktionen: Mausklicks, Tippen, Hotkeys, Drag & Drop, Scrollen und mehr. So entsteht ein KI-gesteuerter Universalagent, der in beliebigen grafischen Umgebungen funktioniert.

Hinzu kommt die Fähigkeit zur präzisen lokalen Navigation: Bei Screenshots mit einer Auflösung von 1120 × 1120 Pixeln liegt die Positionsabweichung bei Zielpunkten unter 5 Pixeln – ein für Mensch-Maschine-Interaktion erstaunlicher Wert.

Open-Source und Desktop-App verfügbar

Bemerkenswert: ByteDance hat das Modell UI-TARS-1.5-7B als Open-Source veröffentlicht – inklusive Code, Demos und Nutzungsanleitungen. Die entsprechenden Repositories sind auf GitHub und Hugging Face einsehbar. Für Windows- und macOS-Nutzer steht zudem die Anwendung UI-TARS Desktop zur Verfügung. Diese erlaubt es, den heimischen Rechner direkt per Spracheingabe zu bedienen.

Die aktuelle Version v0.2.0 wurde am 11. Juni 2025 publiziert und bringt neben einer stabileren Steuerung auch Remote-Browsing-Funktionen mit. Erste Nutzerberichte auf Reddit zeigen sich beeindruckt – auch wenn kleinere Probleme bei Klick-Koordinaten vereinzelt auftreten.

Ein Schritt in Richtung menschenähnlicher KI-Nutzung

Mit UI-TARS 1.5 stellt ByteDance die Weichen für eine neue Ära in der Mensch-Computer-Interaktion. Während sich bisherige KI-Agenten entweder auf Sprachmodelle oder reine Bildverarbeitung konzentrierten, kombiniert UI-TARS beides in einem handlungsfähigen System. Die Vision: Ein digitaler Assistent, der ohne Umwege versteht, sieht, denkt – und dann handelt.

Für Entwickler:innen, Automatisierungs-Enthusiasten und Unternehmen eröffnet sich damit ein völlig neuer Spielraum. Statt komplexer Makros oder fragiler Skripte genügt künftig ein einfacher Satz in natürlicher Sprache – und der Agent erledigt den Rest.

Fazit: Gamechanger für Automation und KI-Interaktion

Ob ByteDance damit „den gefährlichsten KI-Agenten“ erschaffen hat, wie manche Online-Kommentatoren formulieren, sei dahingestellt. Sicher ist: UI-TARS 1.5 ist ein technologischer Gamechanger, der nicht nur KI-Forschung, sondern auch praktische Anwendungen nachhaltig verändern dürfte. Vor allem der Open-Source-Ansatz macht den Fortschritt zugänglich – und stellt einen ambitionierten Vorstoß dar, westlichen Tech-Konzernen die Führung nicht kampflos zu überlassen.

Weitere Informationen und die Desktop-App finden sich auf dem offiziellen GitHub-Projekt: UI-TARS auf GitHub.

#KI-Agent#ByteDance#Qwen-VL#GUI-Automatisierung#UI-TARS 1.5

Teilen

Ad Space