Forscher der HKUST, von IDEA Research und dem Shanghai AI Laboratory haben mit HumanX ein neues Full-Stack-Framework präsentiert, das humanoiden Robotern komplexe Alltags-Skills beibringt – und zwar allein durch das Beobachten von menschlichen Videos. Das System versetzt Roboter in die Lage, Fußball zu dribbeln, zu boxen oder Fracht zu bewegen, ohne dass dafür die mühsame, aufgabenspezische Belohnungsprogrammierung (Reward Programming) nötig wäre, die die Roboterentwicklung bisher so oft ausgebremst hat.
Das „Geheimrezept“ hinter HumanX ist ein zweistufiger Prozess, der menschliche Bewegungsabläufe hocheffizient in robotisches Know-how übersetzt. Zunächst analysiert eine Data-Generation-Pipeline namens XGen monokulare Videos von echten Menschen. Sie wandelt diese in physikalisch plausible Interaktionsdaten um und reichert sie für mehr Varianz künstlich an. Danach nutzt das Unified Imitation-Learning Framework XMimic diese Daten, um die Steuerung (Policy) des Roboters zu trainieren. Das Ergebnis? Ein System, das Gelerntes nicht nur stur kopiert, sondern auf neue Situationen übertragen kann. In Tests gelang der „Zero-Shot-Transfer“ auf einen physischen Unitree G1 Humanoiden – ein beeindruckender Erfolg für den Sprung von der Simulation in die Realität (Sim-to-Real).
Dem begleitenden Forschungspapier zufolge erreicht diese Methode eine achtmal höhere Erfolgsquote bei der Generalisierung als bisherige Ansätze. Die demonstrierten Fähigkeiten sind bemerkenswert dynamisch: von Wurfantäuschen beim Basketball bis hin zu flüssigen Pass-Sequenzen zwischen Mensch und Roboter.
Warum ist das so wichtig?
Dies ist ein entscheidender Schritt auf dem Weg zu echten Allround-Robotern. Der größte Flaschenhals in der Robotik war lange Zeit die Software-Seite – genauer gesagt der Prozess, jede einzelne Fähigkeit mühsam von Hand zu programmieren. Frameworks wie HumanX schlagen hier eine radikale Abkürzung vor: Sie nutzen den größten und vielfältigsten Datensatz für physische Aufgaben, den unser Planet zu bieten hat – YouTube, TikTok und jede andere Videoplattform da draußen.
Indem die Notwendigkeit für komplexes „Reward Engineering“ entfällt, sinkt die Einstiegshürde für die Entwicklung neuer Roboter-Skills massiv. Statt eines ganzen Ingenieursteams, das Wochen damit verbringt, eine „Kiste aufheben“-Funktion zu coden, könnten Entwickler ihrem Roboter in Zukunft einfach ein Video eines Lagerarbeiters zeigen. Es ist ein Paradigmenwechsel, der dafür sorgen könnte, dass humanoide Hardware endlich den Science-Fiction-Hype einlöst, den sie seit Jahren verspricht.













