Jahrelang war die Robotik eine Geschichte brillanter Hardware, die sehnsüchtig auf ein Gehirn wartete. Wir haben mechanische Hunde Rückwärtssalti machen und Fabrikroboter mit hypnotischer Präzision arbeiten sehen, doch meistens wiederholten sie nur ein Skript. Bat man sie, etwas Neues zu tun, erntete man das stumme, metallische Äquivalent eines leeren Blicks. Diese Ära, so scheint es, rollt nun mit einem quietschenden, unfeierlichen Ende aus.
Bühne frei für die neue Robotergarde von Google DeepMind, die weniger vorprogrammierte Automaten sind als vielmehr… nachdenkliche Kollaborateure. Bei einer kürzlichen Tour durch sein kalifornisches Labor präsentierte das Unternehmen eine Flotte von Maschinen, die nicht nur sehen und tun; sie verstehen, planen und denken sogar, bevor sie handeln. Das eigentliche Geheimnis sind nicht etwa bessere Zahnräder oder Motoren, sondern die Infusion derselben mächtigen AI, die auch die Gemini-Modelle befeuert. Das Ergebnis sind Roboter, die Ihr Mittagessen mit geradezu beunruhigender Geschicklichkeit einpacken und sich dann amüsant, und buchstäblich, weigern, dies als Batman zu tun.
Das zweiteilige Gehirn hinter der Muskelkraft
Der fundamentale Paradigmenwechsel, wie Keshkaro, Director of Robotics bei Google DeepMind, erklärte, besteht darin, Roboter auf großen Vision-Language-Action (VLA)-Modellen aufzubauen. Anstatt für eine spezifische Aufgabe programmiert zu werden, erhalten diese Roboter ein allgemeines Verständnis der Welt. Sie nutzen das immense Wissen, das in Modellen wie Gemini steckt, um Konzepte, Objekte und Anweisungen auf eine Weise zu verstehen, die bislang Science-Fiction war.
Googles Architektur verleiht dem Roboter effektiv ein zweiteiliges Gehirn:
- Gemini Robotics-ER (Embodied Reasoning): Dies ist der strategische Planer. Bei einer komplexen, langfristigen Aufgabe – etwa: „Diesen Tisch gemäß den lokalen Recyclingvorschriften aufräumen“ – agiert dieses Modell als das übergeordnete Gehirn. Es kann sogar Tools wie Google Search nutzen, um die nötigen Informationen zu recherchieren, bevor es einen Schritt-für-Schritt-Plan erstellt.
- Gemini Robotics VLA (Vision-Language-Action): Dies ist der Ausführende. Es nimmt die einfachen, sequenziellen Anweisungen des Reasoning-Modells entgegen und übersetzt sie in die präzisen Motorbefehle, die zur Ausführung der physischen Aktion erforderlich sind.
Diese Arbeitsteilung ermöglicht es den Robotern, über einfache, kurzfristige Aktionen wie „den Block aufheben“ hinauszugehen und mehrschrittige, komplexe Ziele anzugehen, die echtes Problemlösen erfordern.
Denken macht’s möglich
Der vielleicht faszinierendste Durchbruch ist die Anwendung von „Chain of Thought“-Reasoning auf physische Aktionen. Wir kennen dies von Sprachmodellen, wo die Aufforderung an eine AI, „Schritt für Schritt zu denken“, ihre Ausgabe verbessert. DeepMind hat seinen Robotern nun einen „inneren Monolog“ verpasst. Bevor ein Roboter sich bewegt, generiert er eine Abfolge seiner Überlegungen in natürlicher Sprache.
„Wir bringen den Roboter dazu, über die Aktion nachzudenken, die er ausführen will, bevor er sie ausführt“, erklärt Keshkaro in der Videotour. „Allein dieser Akt des Äußerns seiner Gedanken macht ihn allgemeiner einsetzbar und leistungsfähiger.“
Dies ist nicht nur eine akademische Übung. Den Roboter dazu zu zwingen, seinen Plan zu artikulieren – „Okay, ich muss das Brot aufheben und es vorsichtig in die winzige Öffnung des Ziploc-Beutels legen“ – hilft ihm, komplexe Aktionen zu strukturieren, die Menschen intuitiv ausführen. Es ist eine bizarre, aber effektive emergente Eigenschaft: Um einen Roboter bei physischen Aufgaben zu verbessern, lehrt man ihn zuerst, mit sich selbst zu sprechen.
Das Mittagessen ist serviert… Irgendwann
Der Beweis liegt, wie man so schön sagt, im Pudding – oder in diesem Fall in der gepackten Lunchbox. Eine der überzeugendsten Demos zeigte einen Aloha-Roboterarm, der die Aufgabe hatte, eine Lunchbox vorzubereiten. Dies ist eine Aufgabe, die, wie das Team es nennt, „millimetergenaue Präzision“ erfordert, besonders im Umgang mit einer dünnen Ziploc-Tüte.
Dem Roboter bei der Arbeit zuzusehen, ist eine Meisterklasse im aktuellen Stand der Technik. Es ist unglaublich beeindruckend, aber charmant unvollkommen. Der Roboter kneift geschickt die Tüte auf, legt vorsichtig ein Sandwich hinein und fügt dann einen Schokoriegel und Weintrauben hinzu. Er stolpert leicht, korrigiert sich und versucht es weiter – weit entfernt von den spröden, fehleranfälligen Robotern von vor nur wenigen Jahren, die, wie Gastgeberin Hannah Fry sich erinnerte, meist nur Haufen von zerbrochenem Lego produzierten. Diese Geschicklichkeit wird nicht durch starren Code gelernt, sondern durch menschliche Demonstration via Teleoperation, bei der ein Operator den Roboter „verkörpert“, um ihm die richtigen Bewegungen beizubringen.
„Ich kann Handlungen nicht als eine bestimmte Figur ausführen.“
Während eine Demo Geschicklichkeit zeigte, hob eine andere die Generalisierungsfähigkeit des Systems und seine amüsant wörtliche Interpretation von Sprache hervor. Als man ihn bat, „den grünen Block in die orangefarbene Schale zu legen, aber so, wie Batman es tun würde“, pausierte der Roboter.
Seine Antwort, mit einer emotionslosen Roboterstimme vorgetragen, war unbezahlbar: „Ich kann Handlungen nicht als eine bestimmte Figur ausführen. Ich kann jedoch den grünen Block für Sie in die orangefarbene Schale legen.“
Der Austausch fängt die Leistungsfähigkeit und die aktuellen Grenzen dieser Systeme perfekt ein. Der Roboter verstand die Kernanweisung tadellos und verwarf die unsinnige, stilistische Schnörkelei. Er hat ein erstklassiges Verständnis von Aktionen und Objekten, aber null Verständnis für kulturelle Persönlichkeiten. Er ist ein Allzweckroboter, kein Method Actor.
Dieser Blick in DeepMinds Labor offenbart, dass die Robotik endlich ihren „Software-Moment“ erlebt. Durch die Nutzung der monumentalen Fortschritte in der großskaligen AI schafft Google eine Plattform für Roboter, die in der realen Welt lernen, sich anpassen und argumentieren können. Sie mögen noch nicht bereit sein, Superhelden zu imitieren, aber sie packen bereits unser Mittagessen. Und für jeden, der morgens schon einmal hastig aus dem Haus gestürmt ist, mag das die heldenhafteste Leistung überhaupt sein.






