Das US-amerikanische National Institute of Standards and Technology (NIST) hat genug von geschönten Marketing-Clips. Die Behörde ist der Meinung, dass es an der Zeit ist, herauszufinden, ob die aktuelle Generation humanoider Roboter tatsächlich zupacken kann oder nur für die Kamera posiert. Mit dem Entwurf für einen neuen „Baseline Performance Benchmark“ – einem standardisierten Hindernisparcours für Roboter – kehrt NIST fast ein Jahrzehnt nach der legendären DARPA Robotics Challenge (DRC) zurück auf die Bildfläche, um den Maschinen wieder einmal auf den Zahn zu fühlen.
Wir erinnern uns: 2013-2014 lieferte uns die DRC eine wahre Goldgrube an Roboter-Fails und führte uns schmerzhaft vor Augen, dass selbst triviale Aufgaben wie das Öffnen einer Tür für eine KI-gesteuerte Blechkiste eine Herkulesaufgabe sein können. NIST, die schon damals die Testumgebungen entwarfen, schlägt nun ein modernes Äquivalent vor. Das Ziel ist ein verbindlicher Katalog an messbaren Aufgaben, die jeder kommerzielle Humanoide, der etwas auf sich hält, beherrschen muss. Die vorgeschlagenen Tests decken vier Kernbereiche ab: Mobilität (Treppen, Rampen), Manipulation (Knöpfe drehen, Werkzeuge benutzen), Loko-Manipulation (beispielsweise eine Kiste durch eine Tür tragen) und Kognition (die Planung mehrstufiger Abläufe).

NIST entwickelt die Testapparaturen in enger Abstimmung mit der Industrie und plant sogar, eine begrenzte Anzahl dieser physischen Teststände kostenlos an teilnehmende US-Roboterhersteller zu verteilen. Die Behörde bittet die Robotik-Community explizit um Feedback zum Design der Tests. Im Grunde bittet man Unternehmen wie Boston Dynamics, Figure AI und Tesla also darum, das Lineal selbst mitzuschnitzen, an dem sie später gemessen werden.
Warum das ein Gamechanger ist
Jahrelang wurde die Wahrnehmung der Robotik-Branche von perfekt inszenierten Demo-Videos dominiert, die makellose Leistungen unter kontrollierten Bedingungen zeigten. Bisher gab es keine standardisierte Methode, um die Fähigkeiten der verschiedenen Hersteller objektiv miteinander zu vergleichen. Kunden und Investoren waren darauf angewiesen, zu raten, wer echte Substanz liefert und wer einfach nur einen verdammt guten Video-Editor beschäftigt. Der NIST-Benchmark könnte diesen Hype-Nebel endlich lichten.
Durch die Schaffung reproduzierbarer, messbarer Aufgaben sorgt NIST für ein „Level Playing Field“. Es ermöglicht einen direkten Äpfel-mit-Äpfeln-Vergleich und trennt die Spreu vom Weizen – die echten Arbeitstiere von den Laborköniginnen. Für eine Industrie, die kurz vor dem kommerziellen Rollout steht, ist diese Form der objektiven Validierung nicht nur ein nettes Extra, sondern essenziell, um Vertrauen aufzubauen und echten technologischen Fortschritt zu erzwingen. Wer tiefer in die Materie eintauchen will, findet alle Details im offiziellen Vorschlag.

