In dem rasanten, kapitalintensiven Wettlauf um denkende Maschinen, die sich in unserer physischen Realität zurechtfinden, tut sich ein philosophischer Graben auf, der mittlerweile zum Canyon angewachsen ist. Auf der einen Seite stehen die Pragmatiker, die auf die kolossale Rechenpower bestehender Large Language Models (LLMs) setzen. Auf der anderen Seite finden sich die Puristen, die argumentieren, dass echte physische Intelligenz nicht einfach „drangeflanscht“ werden kann – sie muss von Grund auf neu entstehen. Diese Woche hat das Robotik-Unternehmen 1X Technologies seine Flagge fest im Lager der Puristen gehisst: Mit der Gründung des 1X World Model Lab schickte die Firma eine Kampfansage raus, die wie ein Paukenschlag durch die Branche hallte.
„Man kann sich den Weg zur AGI nicht herbeifinetunen“, erklärte Bernt Bornich, CEO von 1X, in einem pointierten Statement. „Und man kann sich erst recht nicht den Weg zu Robotern herbeifinetunen, die in der physischen Welt agieren sollen.“ Diese Aussage ist ein direkter Warnschuss vor den Bug der Konkurrenz, die derzeit massiv auf Vision-Language-Action (VLA) Modelle setzt – KI-Systeme, die im Grunde ein mächtiges Vision-Language-Modell wie GPT-4 nehmen und es mit einer Motorsteuerung „umhüllen“. 1X geht All-in und wählt den beschwerlicheren Pfad: Embodied World Models.
Die große Kluft: Fine-Tuning vs. First Principles
Um die Tragweite des Vorstoßes von 1X zu verstehen, muss man die zwei konkurrierenden Doktrinen beim Bau eines Robotergehirns betrachten.
Der Vision-Language-Action (VLA)-Ansatz, wie ihn etwa Figure AI verfolgt, ist der Weg des geringsten Widerstands. Die Logik dahinter ist verführerisch: Man nehme ein milliardenschweres Foundation Model, das bereits Sprache und Bilder versteht, trainiere es mit einem Datensatz von Roboterbewegungen nach (Fine-Tuning) – und voilà, man hat einen Roboter, der Anweisungen ausführen kann. Es ist ein Ansatz, der den immensen Fortschritt und die Investitionen im LLM-Sektor nutzt. Das Problem? Kritiker wie Bornich argumentieren, dass diesen Modellen ein echtes Verständnis für Physik fehlt. Sie sind hochentwickelte Mustererkenner, keine Physik-Engines. Sie wissen vielleicht aus ihren Trainingsdaten, dass man ein Glas nicht fallen lassen sollte, aber sie verstehen nicht intrinsisch, dass die Schwerkraft es zersplittern lässt.
Dann gibt es den World Model-Ansatz. Das ist die harte Tour. Ziel ist es, ein Foundation Model zu bauen, das eine interne, prädiktive Simulation der Welt lernt. Bevor der Roboter eine spezifische Aufgabe wie „Heb den Apfel auf“ lernt, muss er Konzepte wie Raum, Bewegung, Objektpermanenz, Kausalität und Physik begreifen. Die Befürworter glauben, dass dies der einzige Weg zu echter Generalisierung ist – also der Fähigkeit eines Roboters, in völlig neuen Situationen intelligent zu handeln, die so nie in seinen Trainingsdaten vorkamen.
Bornichs Haltung ist unmissverständlich: „Die technologische Grenze liegt nicht bei besseren VLA-Wrappern“, stellte er klar. „Die Grenze sind Embodied World Models.“
Das 1X-Wettspiel und ein strategischer Neuzugang
Das neue 1X World Model Lab ist die Antwort des Unternehmens auf diese Herausforderung. Die Mission: Das generalisierbarste Foundation Model für humanoide Roboter von Grund auf neu zu erschaffen. Um dieses ehrgeizige Projekt zu leiten, hat 1X Sam Sinha abgeworben, einen der Gründungsforscher des generativen Video-KI-Stars Luma AI.
Dieser Transfer ist ein strategischer Meisterstreich. Luma AI ist darauf spezialisiert, hochrealistische Videomodelle zu erstellen – eine Technologie, die konzeptionell sehr nah an dem Bau eines Weltmodells liegt, das zukünftige physische Zustände vorhersagt. Sinhas gesamte Karriere spielte sich an der vordersten Front der Skalierung multimodaler generativer Videomodelle ab. Wie er es selbst formuliert, wurde die Robotik in der KI-Welt zu lange als „Bürger zweiter Klasse“ behandelt, wobei Roboterdaten lediglich als „dünne Fine-Tuning-Schicht auf ein bestehendes Modell geklatscht wurden“. Das neue Labor will dieses Prinzip umkehren und physische Daten als fundamentale Grundzutat behandeln.
Die Strategie von 1X stützt sich auf einen hocheffizienten Datenkreislauf, das sogenannte „Data Flywheel“:
- Start: Web-Scale-Medien, Ego-Perspektiv-Videos von Menschen und Simulationsdaten.
- Ergänzung: Hochpräzise Daten von ferngesteuerten Robotern.
- Einsatz: Eine Flotte von NEO-Humanoiden sammelt „On-Policy“-Daten in der realen Welt.
- Wiederholung: Der Roboter sammelt Daten, das Modell wird besser, der Roboter wird besser.
Eine Allianz der Weltenbauer
1X steht mit dieser philosophischen Überzeugung nicht ganz allein da. Das Lager der Weltmodell-Anhänger hat einige Schwergewichte in seinen Reihen, auch wenn diese nicht alle zweibeinige Roboter bauen.
Teslas Full Self-Driving (FSD) System ist vielleicht die bekannteste Anwendung dieses Konzepts in der Praxis. FSD verlässt sich auf ein „World Model“, um die wahrscheinlichen zukünftigen Aktionen jedes Autos, Radfahrers und Fußgängers in der Umgebung vorherzusagen. Es lässt intern eine Simulation plausibler Zukunftsszenarien laufen, um Fahrentscheidungen zu treffen. Das System reagiert nicht nur; es antizipiert.
Auch die KI-Koryphäe Yann LeCun, der nach einer beeindruckenden Karriere bei Meta nun die AMI Labs leitet, ist seit Jahren ein lautstarker Verfechter von Weltmodellen. Er argumentiert, dass LLMs „fundamental unvollständig“ seien, weil ihnen ein internes Modell davon fehle, wie die Welt funktioniert. Seine Arbeit an Joint Embedding Predictive Architectures (JEPA) zielt darauf ab, Modellen „gesunden Menschenverstand“ beizubringen, indem sie Videos beobachten und vorhersagen – ein Kernaspekt der World-Model-Philosophie.
Ein Weg gepflastert mit Petabytes
Der Vorstoß von 1X ist ein High-Risk, High-Reward-Zock. Ein fundamentales Weltmodell von Null aufzubauen, ist ein astronomisch teures und datenhungriges Unterfangen. Während das VLA-Lager einen massiven Vorsprung genießt, indem es auf den Schultern von Giganten wie Google und OpenAI aufbaut, entscheidet sich 1X dafür, sein eigenes Fundament zu graben.
Der Erfolg des 1X World Model Lab wird davon abhängen, ob es gelingt, die „Data Flywheel“-Strategie in massivem Maßstab umzusetzen. Sollte der Plan aufgehen, könnte 1X einen uneinholbaren Daten-Burggraben schaffen und eine Generation von Robotern hervorbringen, deren Intelligenz weitaus robuster und anpassungsfähiger ist als die ihrer VLA-gesteuerten Konkurrenten. Sollte es scheitern, wird es als warnendes Beispiel dafür in die Geschichte eingehen, dass man eine pragmatische Abkürzung zugunsten eines eleganten, aber unmöglich schwierigen Ideals ausgeschlagen hat.
Die Fronten sind geklärt. Ist die Zukunft der Robotik eine clevere Erweiterung der LLM-Revolution, oder braucht es einen kompletten Neuanfang? Die Branche blickt gespannt darauf, ob sich die Wette von 1X, die Welt von Grund auf neu zu bauen, auszahlt – oder ob sie am Ende nur ihre eigenen Bilanzen „finetunen“ müssen.
