Im harten Wettlauf um das ultimative künstliche Gehirn für humanoide Roboter zeichnet sich derzeit ein faszinierendes philosophisches Schisma ab. Es geht längst nicht mehr nur darum, wer eine Maschine zum Laufen bringt oder wer sie unfallfrei eine Cola-Dose aus dem Kühlschrank holen lässt. Der wahre Krieg tobt in der Architektur des Geistes. Auf der einen Seite steht das Wunderkind – das End-to-End-Genie, das durch bloßes Zuschauen lernt. Auf der anderen Seite: die akribisch organisierte Bürokratie. Mit dem neuen KI-Framework KinetIQ positioniert sich Humanoid eindeutig in letzterem Lager – ein System, das nicht nur einen einzelnen Roboter steuern, sondern ein ganzes mechanisches Orchester dirigieren soll.
Damit ist die Bühne frei für einen spektakulären Showdown mit Figure AI, deren Figures Helix 02: Ein KI-Gehirn, das endlich den Abwasch macht das Publikum zuletzt mit flüssiger, minutenlanger Autonomie in Staunen versetzte. Während Figure darauf setzt, ein einziges, monolithisches neuronales Netz zu erschaffen, das komplexe, mehrstufige Aufgaben meistert, widmet sich Humanoid dem weitaus chaotischeren, industriellen Problem des Flottenmanagements. Es ist das Duell zwischen dem virtuosen Solisten und dem Generalunternehmer – und der Ausgang könnte entscheiden, wie Roboter in den kommenden Jahrzehnten unseren Alltag und unsere Fabriken infiltrieren.
KinetIQ: Die Karriereleiter der Kognition
Humanoids KinetIQ basiert auf einer sogenannten „Cross-Timescale“-Architektur – eine vornehme Umschreibung für ein vierstöckiges Schichtmodell aus Befehl und Gehorsam. Es ist ein agentenbasiertes Framework, das wie ein Konzern denkt: Jede Ebene arbeitet in ihrer eigenen Geschwindigkeit und auf ihrem eigenen Abstraktionslevel.
Ganz oben thront System 3, der „Agentic Fleet Orchestrator“. Das ist die C-Suite der Robotik. Dieses System dockt direkt an die Warehouse-Management-Software an und empfängt die strategischen Ziele. Es operiert auf einer Zeitskala von Sekunden bis Minuten und betrachtet jeden Roboter der Flotte – egal ob zweibeinig oder auf Rädern – als eine Ressource, die mit maximaler Effizienz eingesetzt werden muss.
Eine Etage tiefer sitzt System 2, der Projektleiter auf Roboterebene. Diese Schicht nutzt ein omnimodales Sprachmodell, um die Anweisungen von System 3 zu interpretieren und in eine Sequenz von Teilaufgaben für den einzelnen Roboter zu zerlegen. Es reflektiert über die Umgebung und kann Pläne dynamisch anpassen – Problemlösung „on the fly“.
Die taktischen Anweisungen kommen von System 1, einem Vision-Language-Action (VLA) Netzwerk, das quasi als Teamleiter fungiert. Mit einer Frequenz von 5 bis 10 Hz gibt es einen kontinuierlichen Strom von Zielposen für die Körperteile des Roboters – Hände, Torso, Becken – aus, um den Plan von System 2 in die Tat umzusetzen.
Die eigentliche Knochenarbeit leistet schließlich System 0. Das ist der „Whole-Body-Controller“, der mit 50 Hz taktet und ausschließlich durch rund 15.000 Stunden Reinforcement Learning in der Simulation trainiert wurde. Seine einzige, fast schon manische Aufgabe: Die Posen-Vorgaben von oben in stabile, ausbalancierte Gelenkbewegungen zu übersetzen, damit der Roboter keine derbe Bruchlandung hinlegt, während er versucht, eine Kiste anzuheben.

Helix 02: Der End-to-End-Virtuose
In der anderen Ecke steht Figure AIs Helix 02, ein System mit einer fundamental anderen Philosophie. Statt auf eine vielschichtige Bürokratie setzt Helix 02 auf ein einziges, vereinheitlichtes visumotorisches neuronales Netz. Das Mantra lautet: „All sensors in, all actuators out“. Vision, Tastsinn und Propriozeption fließen direkt in ein System ein, das jeden einzelnen Aktuator steuert.
Zwar ist auch Helix hierarchisch aufgebaut, doch die Struktur ist wesentlich kompakter:
- System 2 übernimmt das semantische Denken auf hohem Niveau, ähnlich wie die oberen Etagen von KinetIQ.
- System 1 ist der Ort, an dem die Magie passiert. Eine leistungsstarke Policy übersetzt die Wahrnehmung direkt in Ganzkörper-Gelenkbewegungen – und das mit rasanten 200 Hz.
- System 0 bildet das Fundament für die physische Verkörperung. Der Controller sorgt für geschmeidige und stabile Bewegungen. Doch im Gegensatz zum reinen RL-Ansatz von KinetIQ wurde Helix’ System 0 mit über 1.000 Stunden menschlicher Bewegungsdaten trainiert. Der Roboter lernt die Nuancen menschlicher Balance und Koordination, bevor das Ganze per RL verfeinert wird. Zudem arbeitet es mit einer beeindruckenden Frequenz von 1 kHz.
Dieser Ansatz ermöglichte es Figure, einen Roboter zu präsentieren, der autonom über vier Minuten lang eine Spülmaschine ein- und ausräumt – eine Meisterleistung in Sachen Langzeit-Autonomie, die derzeit als Goldstandard in der Branche gilt.
Ein Märchen von zwei Gehirnen: Der philosophische Graben
Die Unterschiede zwischen KinetIQ und Helix 02 sind nicht nur technischer Natur – sie repräsentieren zwei unterschiedliche Visionen für die Zukunft der Robotik.
| Feature | Humanoid KinetIQ | Figure AI Helix 02 |
|---|---|---|
| Primäres Ziel | Flotten-Orchestrierung unterschiedlicher Roboter | Langzeit-Autonomie eines einzelnen Roboters |
| Architektur | 4-lagiges agentenbasiertes Framework | 3-lagiges vereinheitlichtes visumotorisches Netz |
| System 0 Training | ~15.000 Std. reines Reinforcement Learning | 1.000+ Std. menschliche Daten + RL |
| System 0 Frequenz | 50 Hz | 1000 Hz (1 kHz) |
| Größte Stärke | Skalierbarkeit, Zuverlässigkeit und Management variabler Plattformen. | Fluidität, Geschicklichkeit und das Erlernen komplexer, neuer Aufgaben. |
| Analogie | Ein perfekt geführtes Logistikunternehmen. | Ein hochtrainierter Solo-Athlet. |
Das modulare Design von KinetIQ ist purer Pragmatismus. Durch die Trennung der Verantwortlichkeiten kann Humanoid theoretisch einzelne Schichten verbessern, debuggen oder sogar austauschen, ohne das gesamte System neu aufsetzen zu müssen. Diese Modularität ist ideal für industrielle Umgebungen, in denen Zuverlässigkeit und die Koordination vieler Maschinen oberste Priorität haben.
Figures End-to-End-Ansatz ist hingegen ambitionierter in seinem Streben nach einer allgemeinen künstlichen Intelligenz (AGI). Durch das Training mit menschlichen Daten will Figure ein Basismodell für physische Aktionen schaffen, das von Natur aus eleganter ist und sich besser an das unstrukturierte Chaos der realen Welt anpassen kann. Der Roboter lernt, wie man sich wie ein Mensch bewegt, nicht nur, wie man ein Ziel erreicht.
Das wahre Rennen: Von glanzvollen Demos zur harten Arbeit
Letztlich wird sich die überlegene Architektur nicht im Labor, sondern in den Werkshallen und unseren Wohnzimmern beweisen müssen. Humanoid wettet darauf, dass das schnelle Geld in der Logistik und Fertigung liegt – dort, wo das Dirigieren ganzer Flotten spezialisierter Roboter die eigentliche Herausforderung ist. KinetIQ ist genau für diese Welt gebaut.
Figure AI scheint mit seinem Fokus auf komplexe, menschenzentrierte Aufgaben auf das „Long Game“ zu setzen: den echten Mehrzweck-Roboter, der sich eines Tages in jeder menschlichen Umgebung zurechtfindet. Die beeindruckende Feinmotorik – vom Hantieren mit Pillen bis zum präzisen Aufziehen von Spritzen – zeigt ein System, das die Grenzen des Machbaren verschiebt.
Die Jagd ist eröffnet. Wird die Zukunft der Robotik von einem akribischen KI-Flottenmanager oder einem virtuosen Roboter-Wunderkind dominiert? KinetIQ ist ein gewichtiges Argument für Ersteres – ein System, das nicht für das Highlight-Video auf YouTube entwickelt wurde, sondern für die unerbittliche Realität des industriellen 24/7-Einsatzes. Weitere Details finden Sie in der Originalankündigung unter thehumanoid.ai.













