Forscher der Carnegie Mellon University und NVIDIA scheinen beschlossen zu haben, dass Roboter, ähnlich wie Praktikanten, am besten aus ihren eigenen Patzern lernen. Sie haben ein neues Framework namens PLD (Probe, Learn, Distill) vorgestellt, das Vision-Language-Action (VLA)-Modellen ermöglicht, sich bei hochpräzisen Aufgaben autonom zu verbessern. Dies verabschiedet sich von der traditionellen, mühsamen Methode, Robotern durch Nachahmung menschlicher Demonstrationen etwas beizubringen – eine Strategie, die ungefähr so skalierbar ist wie das manuelle Schnitzen von Mikrochips.
Die PLD-Methode ist ein dreistufiger Prozess, der entwickelt wurde, um Scheitern in eine Tugend zu verwandeln. Zuerst erforscht der Roboter seine eigenen Grenzen, indem er eine Aufgabe mit seinem vorhandenen Wissen versucht. Wenn er unweigerlich patzt – sagen wir, er verschüttet ein Getränk, das er servieren sollte – greift eine leichtgewichtige „Rettungsstrategie“, die mittels Residual Reinforcement Learning trainiert wurde, ein, um die Aktion zu korrigieren. Schließlich destilliert das System diese erfolgreiche Korrektur und verfeinert das Hauptmodell mit den neuen Daten. Im Wesentlichen wird der Roboter jedes Mal ein bisschen schlauer, wenn er scheitert – ganz ohne Händchenhalten. Das System hat bereits eine Erfolgsquote von 99 % beim LIBERO-Benchmark und 100 % bei bestimmten realen Manipulationsaufgaben gezeigt.
Warum ist das wichtig?
Dies ist ein bedeutender Schritt zur Schaffung wirklich anpassungsfähiger Roboter. Anstatt mit einer Bibliothek perfekter Bewegungen für jede erdenkliche Situation programmiert zu werden, kann ein mit PLD ausgestatteter Roboter seine eigenen Trainingsdaten aus neuen, unvollkommenen Erfahrungen generieren. Dieser Selbstverbesserungs-Loop könnte die Entwicklungszeit und -kosten drastisch senken und Roboter für komplexe, unstrukturierte Umgebungen wie Ihre katastrophal unordentliche Küche praktikabler machen. Es ist eine Verschiebung von „Lernen durch Zuschauen“ zu „Lernen durch Tun“ und, noch wichtiger, zu „Lernen durch beinahe-Versemmeln“.






