Können Roboter endlich Aufgaben erledigen? BEHAVIOR Challenge sagt: 'Halt mein Bier'

Jahrzehntelang war das Versprechen eines Haushaltsroboters genau das – ein Versprechen. Wir hätten längst Rosie, den Roboter, haben sollen, doch stattdessen haben wir scheibenförmige Staubsauger, die auf Badematten stranden. Die Kluft zwischen Science-Fiction und unserer häuslichen Realität ist gewaltig, übersät mit den Leichen gescheiterter Start-ups und überhypter Demos. Aber ein neuer Wettbewerb, die BEHAVIOR Challenge, die auf der NeurIPS 2025 ihr Debüt feiern wird, ist bereit, das Feld mit Ach und Krach in die reale Welt zu zerren. Oder zumindest in eine sehr, sehr überzeugende Simulation davon.

Das Ziel der Herausforderung ist einfach, ihre Ausführung jedoch brutal: ein Roboter soll tatsächliche Hausarbeiten erledigen. Nicht nur einen Block aufheben, sondern komplexe, mehrstufige Aktivitäten abschließen, die Menschen als banal empfinden. BEHAVIOR, was für “Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments” steht, ist nicht nur ein weiterer Robotik-Benchmark; es ist ein ausgewachsener häuslicher Spießrutenlauf, der darauf ausgelegt ist, die fortschrittlichste KI von heute an ihre Grenzen zu bringen. Und ehrlich gesagt, es wurde auch höchste Zeit.

Willkommen im Uncanny-Valley-Haushalt

Im Zentrum der BEHAVIOR Challenge steht eine zutiefst ausgeklügelte Simulationsumgebung, die die meisten Robotik-Sandkästen wie einen Kinderspielplatz aussehen lässt. Das ist kein steriles Labor; es ist eine hochpräzise, physikbasierte Welt, in der es auch mal chaotisch zugeht. Der Benchmark ruht auf drei Säulen:

  • 1.000 Alltagsaufgaben: Vergessen Sie das Stapeln von Würfeln. Wir reden hier von Aufgaben wie „Geschenkkörbe zusammenstellen“, „Teller und Essen aufräumen“ und dem existentiell furchteinflößenden „Halloween-Dekorationen wegräumen“. Jede Aufgabe ist formal in der BEHAVIOR Domain Definition Language (BDDL) definiert, die den Anfangszustand und die genauen Erfolgsbedingungen festlegt.
  • 50 interaktive Umgebungen: Dies sind keine statischen Räume, sondern vollständig interaktive, hausgroße Layouts, die mit rund 10.000 manipulierbaren Objekten bevölkert sind. Ein Kühlschrank kann geöffnet, eine Tomate geschnitten und ein Tuch, nun ja, verformt werden.
  • Der OmniGibson Simulator: Basierend auf der NVIDIA Omniverse-Plattform, ist dies der Ort, wo die Magie (und Physik) geschieht. OmniGibson unterstützt nicht nur Starrkörperphysik, sondern auch fortschrittliche Phänomene wie verformbare Objekte, Flüssigkeitsinteraktionen und komplexe Zustandsänderungen wie Erhitzen, Abkühlen und Schneiden. Dies unterscheidet ihn von seinen Vorgängern und ermöglicht ein Maß an Realismus, das für das Training von Robotern entscheidend ist, die eines Tages einer echten Küche begegnen könnten.

Dies ist nicht nur ein isolierter Test von Manipulation oder Navigation. BEHAVIOR ist der erste Benchmark seiner Art, der von einem Roboter verlangt, dass er gleichzeitig hochrangiges Denken, weitreichende Navigation und geschickte beidhändige Manipulation ausführt. Um erfolgreich zu sein, darf eine KI nicht nur in einer Sache gut sein; sie muss gut darin sein, wie ein (sehr geduldiger) Mensch zu denken.

Der NeurIPS 2025 Spießrutenlauf

Für den erstmaligen Durchlauf auf der NeurIPS 2025 werden 50 dieser umfassenden Aufgaben auf die globale Forschungsgemeinschaft losgelassen. Die Teilnehmer müssen einen virtuellen Roboter so programmieren, dass er Szenarien bewältigt, deren Abschluss mehrere Minuten dauern kann, die sich über mehrere Räume erstrecken und Dutzende von Unterzielen umfassen. Denken Sie an „Pizza backen“ oder „Hundespielzeug waschen“ – Aufgaben, die Planung, Gedächtnis und eine ganze Menge digitaler Muskelkraft erfordern.

Der Standardroboter für diesen Testlauf in der Simulation ist Galaxea’s R1 Pro, ein humanoider Roboter auf Rädern mit zwei 7-DOF-Armen, einem 4-DOF-Torso und einer Reihe von Sensoren. Das ist keine tollpatschige Blechdose; sein Design ist explizit für die Art von Reichweite, Stabilität und beidhändiger Koordination gewählt, die für Haushaltsaktivitäten unerlässlich ist.

Damit die Teilnehmer ihre KI nicht aus einem Zustand urzeitlicher Unwissenheit hochfahren müssen, stellen die Organisatoren einen riesigen Datensatz zur Verfügung: 10.000 Expertendemonstrationen, die insgesamt über 1.200 Stunden akribisch aufgezeichneter Daten umfassen. Das ist kein wackeliges Amateurmaterial. Es sind saubere, nahezu optimale Daten, die vom Anbieter Simovation mithilfe des JoyLo-Teleoperationssystems gesammelt wurden. JoyLo, ein cleveres Setup mit Handheld-Controllern an kinematisch-identischen Armen, ermöglicht es menschlichen Bedienern, den Roboter reibungslos durch Aufgaben zu führen, was eine perfekte Vorlage für Imitationslernen bietet.

Warum das so verdammt schwierig ist

Der Begriff „Long-Horizon“ wird in der KI oft verwendet, aber BEHAVIOR verleiht dem Ganzen Biss. Eine Aufgabe wie „Bücher zum Einlagern in Kartons packen“ könnte vom Roboter verlangen, ins Wohnzimmer zu navigieren, die richtigen Bücher zu identifizieren, einen Karton in der Garage zu finden, ihn zurückzubringen und dann nacheinander jedes Buch hineinzulegen. Dies testet Planung und Gedächtnis über längere Zeiträume hinweg auf eine Weise, wie es nur wenige Benchmarks je getan haben.

Darüber hinaus ist die schiere Vielfalt der Objektinteraktionen atemberaubend. Roboter müssen Fähigkeiten weit über das Greifen hinaus verstehen und ausführen. Sie müssen Flüssigkeiten eingießen, Oberflächen abwischen, Gemüse schneiden und Schalter betätigen. Objekte können geöffnet, geschlossen, erhitzt, gefroren, gereinigt oder sogar in Brand gesetzt werden. Dieser reichhaltige Satz erforderlicher Fähigkeiten – mindestens 30 verschiedene Primitive – zwingt Forscher dazu, über Einzelaufgabenmodelle hinauszugehen und sich einer verallgemeinerten, anpassungsfähigeren Intelligenz zuzuwenden.

Um die Herausforderung zugänglich zu machen, stellen die Organisatoren mehrere Basismodelle zur Verfügung, darunter Standards wie ACT und Diffusion Policy, sowie vortrainierte Modelle wie OpenVLA. Das gesamte Framework ist Open-Source, komplett mit Starter-Kits und Tutorials, um die Einstiegshürde zu senken.

Wie beurteilt man einen Roboter-Butler?

Der Erfolg in der BEHAVIOR Challenge wird hauptsächlich an der Aufgaben-Erfolgsrate gemessen. Das System verwendet die BDDL-Definitionen, um zu überprüfen, ob der Roboter alle Zielbedingungen erfüllt hat. Teilpunkte werden vergeben, um Lösungen zu fördern, die sinnvolle Fortschritte erzielen, auch wenn sie keine Perfektion erreichen.

Sekundäre Metriken werden ebenfalls erfasst, um die Klugen von den Tollpatschen zu trennen:

  • Effizienz: Gemessen werden die benötigte Zeit, die zurückgelegte Strecke und die gesamte Gelenkbewegung. Eine elegante Lösung ist eine schnelle.
  • Datennutzung: Die Organisatoren werden festhalten, wie viele der 1.200 Stunden Demonstrationsdaten für das Training jeder Einreichung verwendet wurden, was Einblicke in die Dateneffizienz gibt.

Der Wettbewerb wurde offiziell am 2. September 2025 gestartet, die endgültigen Einreichungen sind bis zum 16. November fällig. Die Gewinner, die auf der NeurIPS-Konferenz in San Diego im Dezember bekannt gegeben werden, erhalten Geldpreise – bescheidene 1.000 US-Dollar für den ersten Platz – aber der eigentliche Preis sind das Prestige und die Chance, das Feld der verkörperten KI maßgeblich voranzutreiben.

Letztendlich ist die BEHAVIOR Challenge mehr als nur ein Wettbewerb; sie ist ein Realitätscheck für die gesamte Robotikbranche. Es ist ein akribisch entworfener Schmelztiegel, um zu testen, ob unsere Algorithmen bereit sind, das Labor zu verlassen und in die chaotische, unberechenbare und oft klebrige Umgebung eines menschlichen Zuhauses einzutreten. Die Ergebnisse der NeurIPS 2025 werden uns nicht nur zeigen, wer das beste Modell hat; sie werden uns auch zeigen, wie weit wir noch gehen müssen, bevor unsere Roboterhelfer bereit sind, den Abwasch zu erledigen.