NVIDIA DreamZero: Roboter lernen neue Jobs in nur 30 Minuten

Gerade als man dachte, die KI-Welt könnte nicht noch mehr „World Models“ vertragen, lässt NVIDIA eine Bombe platzen, die tatsächlich Auswirkungen auf die physische Welt hat. Vorhang auf für DreamZero: Ein Roboter-Basismodell mit stolzen 14 Milliarden Parametern, das einfache Textbefehle versteht und Aufgaben bewältigt, für die es nie explizit trainiert wurde. Als sogenanntes „World Action Model“ (WAM) besteht sein Kerntrick darin, die richtige Zukunft in Video-Pixeln zu „träumen“. Der Roboter antizipiert das visuelle Ergebnis und leitet daraus die notwendigen motorischen Befehle ab, um diese geträumte Zukunft Realität werden zu lassen.

Der eigentliche Clou ist jedoch die schwindelerregende Anpassungsfähigkeit. DreamZero kann sein Wissen auf einen völlig neuen, unbekannten Robotertyp übertragen – und das mit nur etwa 55 Demonstrations-Trajektorien. Das entspricht gerade mal 30 Minuten, in denen ein Mensch die Maschine fernsteuert. Im Vergleich zu den hunderten Stunden an Videomaterial, die bisherige Modelle verschlangen, ist das ein monumentaler Effizienzsprung. Laut der Forschungsarbeit von NVIDIA liefert DreamZero eine mehr als doppelt so hohe Performance wie bisherige State-of-the-Art Vision-Language-Action-Modelle (VLA), wenn es um die Generalisierung auf neue Aufgaben und Umgebungen geht. Auf der offiziellen Projekt-Website kann man den Roboter in Aktion erleben, wie er alles meistert – vom Lösen von Schnürsenkeln bis hin zum Händeschütteln.

Das Projekt liefert zwei zentrale Erkenntnisse, die das herkömmliche Verständnis von Robotertraining auf den Kopf stellen. Erstens: Bei WAMs ist Datenvielfalt weitaus wichtiger als die endlose Wiederholung derselben Aufgabe. Zweitens: Das uralte Problem des Wissenstransfers zwischen verschiedenen Roboterkörpern („Cross-Embodiment“) lässt sich am besten über Pixel lösen. Video ist, wie sich zeigt, der universelle Dolmetscher, der einen signifikanten Skill-Transfer von Roboter zu Roboter und sogar von Mensch zu Roboter ermöglicht. Um die gesamte Robotik-Community an diesem neuen Fundament teilhaben zu lassen, werden das Modell und die Gewichte zudem via GitHub als Open-Source veröffentlicht.

Warum ist das so wichtig?

DreamZero markiert einen fundamentalen Wendepunkt in der Art und Weise, wie Roboter lernen. Anstatt eine Maschine mühsam für jede erdenkliche Aufgabe zu programmieren – eine Strategie, die ebenso unflexibel wie zum Scheitern verurteilt ist –, bewegt sich die Branche hin zu Generalisten-Modellen, die on-the-fly lernen und adaptieren. Indem sie die Physik der Welt durch Videos verstehen, können WAMs Verhaltensweisen für Aufgaben generieren, die sie noch nie zuvor gesehen haben – wie das Öffnen eines Knotens –, selbst wenn diese spezifische Fertigkeit gar nicht Teil der Trainingsdaten war.

Die Forscher selbst vergleichen diesen Durchbruch bescheiden mit der „GPT-2-Ära“ der Robotik. Es ist noch nicht perfekt und erreicht noch nicht die Zuverlässigkeit eines „GPT-3“, aber es ist ein gewaltiger erster Schritt. Indem NVIDIA Roboter baut, die aus verschiedensten Datenquellen lernen – inklusive Videos von Menschen – und sich innerhalb von Minuten auf neue Hardware einstellen, sinkt die Hürde für den Einsatz von Robotern in komplexen, realen Szenarien drastisch. Es geht weniger darum, einem Roboter einen spezifischen Job beizubringen, sondern ihm die Fähigkeit zu verleihen, jeden Job zu erlernen.