Jahrelang funktionierte die Robotikbranche nach einer einfachen, wenn auch frustrierenden Prämisse: Man baute einen Roboter und anschließend ein maßgeschneidertes Gehirn dafür. Ein anderer Arm, ein neuer Satz Räder, eine andere Aufgabe? Zeit, wieder bei Null anzufangen. Dieser mühsame, einmalige Ansatz bescherte uns eine Armee von Spezialisten, aber keine echten Generalisten. Das ist der Grund, warum Ihr Roomba Ihnen kein Sandwich machen kann und ein Fabrikarm nicht mit dem Hund Gassi geht. Doch was, wenn eine einzige KI lernen könnte, sie alle zu steuern?
Genau das ist das kühne Ziel bei Google DeepMind, wo Carolina Parada, die Leiterin des Robotikteams, eine stille Revolution beaufsichtigt. In einem kürzlich geführten, weitreichenden Interview mit The Humanoid Hub skizzierte Parada eine Vision, die maßgeschneiderte Programmierung gegen eine universelle, anpassungsfähige Intelligenz eintauscht. Der „Nordstern“ des Teams, so sagt sie, sei nichts weniger als „die AGI in der physischen Welt zu lösen“. Während der Rest der Welt 2022 von ChatGPTs Poesie verzaubert war, merkt Parada an, dass ihr Team weniger überrascht gewesen sei, da sie intern bereits an großen Sprachmodellen gearbeitet hatten. Die eigentliche Lehre war für sie, den immensen Wert zu erkennen, Forschungsergebnisse der Öffentlichkeit zugänglich zu machen.
Geminis Gehirn, im Körper eines Roboters
Der Motor dieser Ambition ist Gemini Robotics 1.5, die neueste Iteration von DeepMinds Grundlagenmodell für verkörperte KI. Dies ist nicht einfach nur ein weiterer Chatbot, der in ein Chassis gestopft wurde. Es ist ein echtes Vision-Language-Action (VLA)-Modell, das von Grund auf dafür konzipiert wurde, die chaotische, unvorhersehbare physische Welt wahrzunehmen, zu denken und in ihr zu agieren. „Gemini Robotics erweitert die Fähigkeit, über physische Räume zu denken – und ermöglicht Robotern, in der realen Welt zu handeln“, so Google.
Das 1.5-Upgrade konzentriert sich auf drei Säulen: Generalisierung, Interaktivität und Geschicklichkeit. Wichtiger noch, es führt das ein, was DeepMind „physische Agenten“ nennt. Dieses System nutzt ein zweiteiliges Gehirn:
- Gemini Robotics-ER 1.5: Das „Embodied Reasoning“-Modell fungiert als strategischer Planer. Es nimmt einen komplexen Befehl, wie „dieses verschüttete Zeug aufräumen“, und zerlegt ihn in logische Schritte. Es kann sogar Tools wie Google Search nutzen, um Informationen nachzuschlagen, die es nicht besitzt.
- Gemini Robotics 1.5 (VLA): Das ist der Motorkortex, der den Schritt-für-Schritt-Plan vom Reasoning-Modell nimmt und ihn in präzise physische Aktionen übersetzt, egal in welchem Körper er sich wiederfindet.
Diese Architektur ermöglicht es dem Roboter, „zu denken, bevor er handelt“, indem er einen inneren Monolog generiert, um ein Problem zu durchdenken, was seine Entscheidungen transparenter und, offen gesagt, intelligenter macht.
Der Heilige Gral: Cross-Embodiment Transfer
Der bedeutendste Sprung ist jedoch das, was Parada „Cross-Embodiment Transfer“ nennt. Die Idee ist, dass eine von einem Roboter erlernte Fähigkeit nahtlos auf eine völlig andere Maschine übertragen werden kann, ohne erneutes Training. „Es ist wirklich derselbe Satz von Gewichten, der in all diesen funktioniert“, erklärt Parada und bezieht sich dabei auf Tests über so unterschiedliche Plattformen wie den Bi-Arm ALOHA, den Franka-Roboter und Apptroniks Apollo-Humanoiden.
Dies ist eine radikale Abkehr von der Industrienorm. Eine von einem Radroboter erlernte Aufgabe könnte theoretisch beeinflussen, wie ein Humanoid eine ähnliche Aktion ausführt. Dies ist der Schlüssel, um dem endlosen Kreislauf der Einzelplattform-Entwicklung zu entkommen. „Wir glauben fest an eine Zukunft, in der es eine wirklich breite Palette eines äußerst vielfältigen Ökosystems vieler verschiedener Robotertypen geben wird“, sagt Parada. „Wenn wir sagen, dass wir KI in der physischen Welt lösen wollen, bedeutet das für uns, dass sie intelligent genug sein muss, um sich in jeden Roboter zu verkörpern.“
Dieses Konzept baut auf DeepMinds früherer Arbeit mit Modellen wie RT-X auf, das auf einem riesigen Datensatz trainiert wurde, der aus 22 verschiedenen Robotertypen aus 33 akademischen Laboren gesammelt wurde. Dieses Projekt zeigte, dass das gemeinsame Training auf unterschiedlicher Hardware dem Modell emergente Fähigkeiten und ein besseres Verständnis räumlicher Beziehungen verlieh. Gemini Robotics 1.5 scheint die turbogeladene Evolution dieses Prinzips zu sein.
Ein sich verschiebender Zeitplan
Für Robotiker war der Traum von einer Maschine, die einfach einem Menschen zusehen und lernen kann, immer ein ferner Traum. „Früher dachte jeder im Team: ‚Ach, das wird erst nach meiner Karriere passieren‘“, gibt Parada zu. „Und jetzt diskutieren wir tatsächlich darüber, wie weit wir noch entfernt sind? Fünf Jahre? Sprechen wir von zehn Jahren?“
Diese Beschleunigung ist spürbar. Während Parada anerkennt, dass Humanoiden ein „wichtiger Formfaktor“ sind, weil sie für unsere Welt konzipiert wurden, wehrt sie sich gegen die Vorstellung, dass sie der einzige relevante Formfaktor sind. DeepMinds Vision ist Hardware-agnostisch. Die Intelligenz ist das Produkt, nicht die Metallhülle, die sie bewohnt.
Die ultimative Herausforderung? Unsere Heime. Parada glaubt, dass das Zuhause „eine der letzten Grenzen“ für die Robotik sein wird, eben weil es so unstrukturiert und chaotisch ist. Eine Fabrikhalle ist vorhersehbar; eine Familienküche ist alles andere als das.
Ein Gehirn, um sie alle zu binden
DeepMinds Strategie stellt eine grundlegende Wette dar: dass die Zukunft der Robotik nicht in besserer Hardware, sondern in einer universelleren, skalierbaren Intelligenz liegt. Durch die Entkopplung des KI-„Gehirns“ vom Roboter-„Körper“ wollen sie ein Grundlagenmodell schaffen, das gleichzeitig von jedem Roboter lernen kann, um sein Wissen über eine globale Flotte von Maschinen hinweg zu erweitern.
Es ist ein Ansatz, der endlich den Engpass von einem Roboter, einem Gehirn durchbrechen könnte, der das Feld seit Jahrzehnten einschränkt. Wir bekommen nicht nur einen intelligenteren Roboter; wir erleben die Geburt eines universellen Piloten, bereit, jede Maschine zu verkörpern, die wir bauen können. Der Roboter-Butler der Jetsons, so scheint es, hat gerade einen gigantischen, körperübergreifenden Sprung nach vorne gemacht.






