RoboClaws „Undo“-Button beschleunigt Robotertraining um 8x

Das Training von Robotern ist bisher eine Sisyphusarbeit, ein zermürbender Marathon aus manuellen Resets und permanenter Überwachung. Für jeden erfolgreichen Handgriff, den eine Maschine lernt, musste wahrscheinlich ein Mensch danebenstehen und die Szenerie nach jedem Fehlversuch dutzende Male mühsam wieder herrichten. Ein neues Framework namens RoboClaw schickt sich nun an, diesen Albtraum zu beenden – indem es Robotern die eine Fähigkeit beibringt, die ihnen bisher völlig abging: hinter sich selbst aufzuräumen.

Entwickelt von Forschern von AgiBot, der National University of Singapore und der Shanghai Jiao Tong University, führt RoboClaw ein so simples wie geniales Konzept ein: Entangled Action Pairs (EAP). Die Kernidee dahinter: Für jede „Vorwärts“-Fähigkeit, die ein Roboter lernt – etwa einen Lippenstift in eine Halterung zu stecken –, lernt er simultan die inverse „Undo“-Aktion – also den Lippenstift wieder herauszunehmen. Diese beiden Verhaltensweisen bilden einen geschlossenen Kreislauf. Der Roboter kann eine Aufgabe üben, die Umgebung selbstständig zurücksetzen und den Vorgang wiederholen, während er völlig autonom Daten sammelt. Ein menschlicher Babysitter? Überflüssig.

Die Ergebnisse sind, gelinde gesagt, beeindruckend. Die Forscher berichten von einer 8-fachen Reduktion menschlicher Interventionen während des Trainings. Die benötigte Zeit pro Datensatz sank um den Faktor 2,16, während die Erfolgsquote bei komplexen, mehrstufigen Aufgaben im Vergleich zu herkömmlichen Modellen um 25 % stieg. Getestet wurde das System an einem anspruchsvollen Szenario: der Organisation eines Schminktisches. Hier lernte der Roboter autonom, verschiedene Gegenstände zu handhaben und zu platzieren, wobei er sich von eigenen Fehlern im laufenden Betrieb selbstständig erholte.

Warum ist das ein Gamechanger?

Der eigentliche Durchbruch ist nicht nur die Selbst-Reset-Schleife an sich. Es ist die Tatsache, dass derselbe „Agent“, der den Roboter trainiert, ihn auch im Einsatz steuert. Die meisten Robotik-Systeme nutzen heute noch getrennte, isolierte Pipelines für die Datenerfassung, das Modelltraining und die reale Ausführung. RoboClaw vereint all diese Schritte unter einem einzigen, von einem Vision-Language-Model (VLM) gesteuerten Controller.

Das bedeutet: Wenn der Roboter im realen Einsatz an einer Aufgabe scheitert, ist dieser Fehlschlag kein bloßer Fehler, den ein Mensch korrigieren muss. Er ist stattdessen ein neuer Datenpunkt, der direkt zurück in das System fließt. Der Roboter lernt quasi „on the fly“ aus seinen eigenen Patzern im Feld. Damit bewegt sich die Robotik weg von starrer, vorprogrammierter Automatisierung hin zu echten agentischen Systemen, die in einer unvorhersehbaren Welt kontinuierlich dazulernen und adaptieren können.

Hyperlink: Den vollständigen Forschungsbericht auf arXiv lesen