Das Wagniskapital fließt in Strömen, die YouTube-Demos sammeln Klicks im Millionenbereich und die Versprechen der Branche werden von Quartal zu Quartal kühner. Nachdem Large Language Models wie OpenAI’s ChatGPT die digitale Welt scheinbar über Nacht im Sturm erobert haben, stellt sich jeder die gleiche Multi-Milliarden-Dollar-Frage: Wann erlebt die Robotik ihren „ChatGPT-Moment“?
Geht es nach zwei Experten, die tief in den Schützengräben der „Embodied AI“ (verkörperte KI) gegraben haben, lautet die Antwort schlicht: Gar nicht. Und man tut gut daran, ihnen zuzuhören. Jonathan W. Hurst, Mitbegründer von Agility Robotics (den Köpfen hinter dem humanoiden Digit), und Hans Peter Brøndmo, der das Moonshot-Projekt Everyday Robots bei Google X leitete, haben einen dringend notwendigen Realitätscheck veröffentlicht. Sie verpassen dem Hype-Train eine ordentliche Eisdusche und argumentieren, dass es nicht den einen, magischen KI-Durchbruch geben wird, der plötzlich alle Probleme löst. Der Weg zu einer Welt voller nützlicher Roboter ist stattdessen mit mühsamer, inkrementeller und zutiefst unsexy wirkender Ingenieursarbeit gepflastert.
Angesichts der Tatsache, dass die Risikokapitalfinanzierung für Robotik im Jahr 2024 auf 6,1 Milliarden Dollar gestiegen ist (gegenüber 5,1 Milliarden Dollar im Jahr 2023), steht astronomisch viel auf dem Spiel. Doch wie Hurst und Brøndmo darlegen, klafft zwischen einer glanzvollen Demo und einem kommerziell lebensfähigen, sicheren und zuverlässigen Roboter nach wie vor ein tiefer Abgrund.
Die große Illusion: Anatomie einer YouTube-Demo
Wir alle kennen sie: Die Videos, in denen humanoide Roboter makellose Rückwärtssaltos schlagen, synchron tanzen oder eng choreografierte Kampfsport-Routinen vorführen. Die jüngste virale Sensation zeigte die Humanoiden von Unitree Robotics bei einer Kung-Fu-Performance während der Frühlingsfest-Gala 2026 in China – eine beeindruckende Demonstration von Koordination, nur wenige Meter von kindlichen Darstellern entfernt.

Hurst und Brøndmo stellen jedoch klar, was Insider schon lange wissen: „Traue niemals einem Roboter-Video auf YouTube.“ Diese Auftritte sind zwar technisch beeindruckend, aber im Grunde das robotische Äquivalent einer akribisch geplanten Broadway-Show. Sie demonstrieren bemerkenswerte motorische Kontrolle auf niedriger Ebene, doch ihre Autonomie ähnelt eher der eines Fließbandroboters als der einer denkenden Maschine. Die reale Welt – chaotisch, unvorhersehbar und hartnäckig ungeskriptet – ist ein völlig anderes Kaliber. Dies ist ein klassischer Fall des Moravec-Paradoxons: Aufgaben, die für einen Menschen trivial sind, wie das Navigieren durch ein unordentliches Zimmer, sind für einen Roboter monumental schwierig, während komplexe Berechnungen für ihn ein Kinderspiel sind.
Daten sind eine Herkulesaufgabe ohne Abkürzung
LLMs hatten einen gewaltigen Startvorteil: Sie wurden mit dem Internet trainiert, einer kolossalen, von Menschen geschaffenen Datenbank aus Texten und Bildern. Roboter haben diesen Luxus nicht. Um zu lernen, benötigt ein Roboter Daten aus der physischen Welt – einem hochdimensionalen Raum, in dem Variablen von Gelenkwinkeln und Kraftrückkopplung bis hin zu Lichtverhältnissen und den unberechenbaren Bewegungen von Menschen alles umfassen.
Das Ausmaß dieser Herausforderung ist atemberaubend. Bei Everyday Robots ließ Brøndmos Team im Jahr 2022 allein 240 Millionen simulierte Roboterinstanzen laufen, nur um ein Modell darauf zu trainieren, Müll mit einer halbwegs akzeptablen Kompetenz zu sortieren. Und das war nur für eine einzige, relativ simple Fertigkeit. Nun multiplizieren Sie diesen Aufwand mit der schier unendlichen Anzahl an Aufgaben, die wir von Allzweckrobotern erwarten. Es ist ein Datenerfassungsproblem in einer völlig neuen Größenordnung, das bisher weitgehend ungelöst bleibt. Das Projekt selbst wurde Anfang 2023 im Zuge umfassender Sparmaßnahmen beim Mutterkonzern Alphabet eingestellt.
Es wird nicht die eine „Roboter-KI“ geben
Die Vorstellung eines einzigen, monolithischen KI-Modells, das jeden Roboter steuern kann – egal ob auf Rädern, Beinen, fliegend oder schwimmend – ist reine Science-Fiction. Die physischen Realitäten der verschiedenen Bauformen („Embodiments“) und Umgebungen sind zu vielfältig. Die Autoren sind überzeugt, dass die siegreiche Architektur eine sogenannte „Agentic AI“ sein wird. Dabei koordinieren übergeordnete Modelle die Planung und delegieren Aufgaben an eine Suite spezialisierter, kleinerer KI-Tools. Ein Modell kümmert sich um die Fortbewegung auf zwei Beinen, ein anderes um die Feinmanipulation und ein drittes widmet sich der sicheren Interaktion zwischen Mensch und Roboter.
Dieser modulare Ansatz, so argumentieren sie, wird zu einer „kambrischen Explosion“ nützlicher, intelligenter Maschinen führen. Es wird kein einzelner Urknall sein, sondern ein Aufblühen vielfältiger, spezialisierter Fähigkeiten, die – korrekt orchestriert – eine wahrhaft kompetente Maschine ergeben.
Hardware ist immer noch verdammt schwer
Bei aller Begeisterung für KI darf man nicht vergessen: Ein Roboter ist ein physisches Objekt. Und die Hardware, insbesondere die Komponenten, die die Interaktion mit der Umwelt ermöglichen, bleibt ein massiver Flaschenhals. Die meisten Industrieroboter nutzen starre, kraftvolle Aktuatoren, die fantastisch für Präzision in abgesperrten Bereichen sind, aber in einer menschlichen Umgebung eine Gefahr darstellen. Eine einfache, versehentliche Kollision könnte katastrophale Folgen haben.
Menschen hingegen sind „compliant“ – wir sind nachgiebig. Wir nutzen ständig Tastsinn und Kraftrückkopplung, egal ob wir einen Schlüssel im Schloss drehen oder uns an einer Theke abstützen. Damit Roboter dies erreichen, benötigen sie eine neue Klasse von Aktuatoren, die feinfühlig, nachgiebig und kraftsensitiv sind. In Laboren existieren diese bereits, aber sie sind noch nicht in dem Maßstab, zu den Kosten oder mit der Zuverlässigkeit verfügbar, die für einen Masseneinsatz nötig wären. Die brillanteste KI der Welt ist nutzlos, wenn ihr Körper ein schwerfälliges, gefährliches Sicherheitsrisiko bleibt.
Echte Wertschöpfung durch „einfache“ Probleme
Die letzte und vielleicht wichtigste Wahrheit lautet: Echter Mehrwert entsteht in der Realität nicht durch Rückwärtssaltos. Er entsteht durch das zuverlässige Ausführen profaner, repetitiver und oft körperlich anstrengender Aufgaben, die Menschen nicht mehr machen wollen. Hier trennt sich die Spreu vom Weizen – oder in diesem Fall: Hier müssen die Füße des Roboters den Lagerhallenboden berühren.
Beide Autoren sprechen aus Erfahrung. Als Agility Robotics begann, Digit bei Kunden wie GXO Logistics einzusetzen, stellten sie schnell fest, dass die erste große Hürde nicht die Aufgabenbewältigung war, sondern die Sicherheit. Dies führte zu einer mehrjährigen Ingenieursleistung, um den Roboter für den sicheren Betrieb in menschlichen Arbeitsumgebungen völlig neu zu konzipieren. Ähnlich lernte das Team von Everyday Robots bei Google aus erster Hand, wie chaotisch und schwierig eine scheinbar einfache Umgebung wie eine Büro-Kantine für einen Roboter ist, der versucht, Tische abzuräumen.

Diese Praxiserfahrung ist der einzige Weg nach vorn. Sie prägt die KI-Architektur, deckt Hardware-Mängel auf und erdert ambitionierte Roadmaps in der harten Realität der Kundenbedürfnisse. Es gibt keinen „Silver Bullet“-Algorithmus und keinen Datensatz, der den mühsamen, teuren Prozess ersetzen kann, Roboter im Feld einzusetzen, sie scheitern zu sehen und akribisch Lösungen zu entwickeln. Die Zukunft der Robotik kommt – aber sie nähert sich Schritt für Schritt, wohlüberlegt und präzise konstruiert.
