In einem Manöver, das die gesamte Robotik-Branche dazu bringen dürfte, ihren Espresso vor Schreck über den Tisch zu prusten, hat die Ant Group – jener Fintech-Gigant hinter Alibaba – mal eben einen kompletten Foundation-Stack für „Embodied Intelligence“ (verkörperte KI) auf den Markt geworfen. Und der Clou dabei? Das Ganze ist Open-Source unter der extrem großzügigen Apache 2.0-Lizenz. Wir reden hier nicht von irgendeinem weiteren Modell; das ist ein dreiteiliges Power-Paket aus Wahrnehmung, Aktion und Vorstellungskraft, konzipiert als universelles Betriebssystem für die Roboter-Generation von morgen.
Während der Rest der Welt noch staunend dabei zusah, wie humanoide Roboter Rückwärtssaltos üben, hat die Robbyant-Einheit der Ant Group im Stillen an der Software gefeilt, die diese Maschinen erst wirklich nützlich macht. Unter dem Banner LingBot wurden gleich drei miteinander verzahnte Basismodelle veröffentlicht, die die Kernprobleme lösen sollen: Wie Roboter in einer chaotischen, unvorhersehbaren Welt sehen, handeln und sogar vorausschauend planen können. Es ist ein strategischer Geniestreich, der den Fokus weg von maßgeschneiderten Einzellösungen hin zu einer standardisierten, Android-ähnlichen Plattform verschiebt, auf der jeder aufbauen kann.
Das Drei-Gänge-Menü für verkörperte KI
Die Ant Group hat ihr Release als kompletten Werkzeugkasten strukturiert, der die Bereiche Wahrnehmung, Aktion und Imagination abdeckt. Ein ganzheitlicher Ansatz, der die gesamte Pipeline von der Sensorik bis zur physischen Interaktion bedient.
Den Anfang macht LingBot-Depth, ein Modell für die räumliche Wahrnehmung. Darauf folgt LingBot-VLA, ein Vision-Language-Action-Modell, das Befehle in präzise Bewegungen übersetzt. Und als Krönung: LingBot-World, ein interaktives Weltmodell, das die Realität für Trainings- und Planungszwecke simulieren kann. Zusammen bilden sie den ernsthaften Versuch, das Problem der „Embodied AI“ von Grund auf zu lösen.
LingBot-VLA: Ein Gehirn mit 2,2 Jahren Praxiserfahrung
Der eigentliche Star der Show ist LingBot-VLA, und das aus gutem Grund. Das Modell wurde mit stolzen 20.000 Stunden an realen Roboterdaten trainiert. Um das mal einzuordnen: Das entspricht über 2,2 Jahren, in denen ein Roboter ununterbrochen Aufgaben erledigt, aus Fehlern lernt und begreift, wie die physische Welt tickt. Das ist kein theoretisches Trockentraining in der Simulation, sondern hart erarbeitete Erfahrung.
Dieser massive Datensatz stammt von neun verschiedenen gängigen Roboter-Konfigurationen mit Doppelarmen – ein entscheidender Faktor für die Generalisierungsfähigkeit. Das Ziel eines VLA-Modells ist es, ein „Universalgehirn“ zu schaffen, das verschiedene Robotertypen steuern kann, ohne dass man für jede neue Hardware teure Nachschulungen braucht. Die Ant Group verspricht, dass LingBot-VLA sowohl für einarmige als auch zweiarmige und sogar humanoide Plattformen adaptiert werden kann – seit jeher der heilige Gral der Branche.
Die Ergebnisse lassen aufhorchen: Im GM-100-Benchmark für echte Roboter hängte LingBot-VLA die Konkurrenz ab, besonders wenn es im Tandem mit seinem Geschwistermodell LingBot-Depth arbeitete. Zudem glänzte es mit Trainingsgeschwindigkeiten, die um das 1,5- bis 2,8-fache über bestehenden Frameworks liegen – ein entscheidendes Argument für Entwickler, die auf ihr Budget achten müssen.
Ein geistiges Auge und der digitale Sandkasten
Die Welt zu verstehen, ist die halbe Miete, und genau hier kommt LingBot-Depth ins Spiel. Dieses Foundation-Modell ist darauf spezialisiert, aus verrauschten, unvollständigen Sensordaten eine metrisch exakte 3D-Wahrnehmung zu generieren. Erstaunlicherweise kommt es mit weniger als 5 % der üblichen Tiefeninformationen aus – ein Szenario, das im Alltag ständig vorkommt, etwa bei spiegelnden Oberflächen oder transparenten Objekten, an denen herkömmliche Sensoren scheitern. Genau diese Robustheit braucht ein Roboter, wenn er das sterile Labor verlässt.
Der wohl faszinierendste Teil des Pakets ist jedoch LingBot-World. Es handelt sich um ein interaktives Weltmodell, das als „digitaler Sandkasten“ für KI fungiert. Es kann fast 10 Minuten an stabiler, physikalisch korrekter Simulation in Echtzeit generieren. Damit löst es das Problem des „Long-term Drift“, unter dem die meisten Videogenerierungsmodelle leiden, bei denen Szenen nach wenigen Sekunden in einen surrealistischen Albtraum abgleiten.
Noch beeindruckender: LingBot-World ist interaktiv. Mit einer Bildrate von etwa 16 FPS und einer Latenz von unter einer Sekunde können Nutzer Charaktere steuern oder die Umgebung per Textbefehl verändern und erhalten sofortiges Feedback. Dank „Zero-Shot-Generalisierung“ reicht ein einziges Foto eines realen Ortes aus, damit das Modell daraus eine voll interaktive Welt generiert – ganz ohne spezifisches Training für diese Szene.
Die Android-Strategie für die Robotik
Warum investiert ein Fintech-Riese solche Ressourcen in kostenlose Roboter-Gehirne? Die Antwort liegt bei der Muttergesellschaft Alibaba. Als Gigant im E-Commerce und in der Logistik profitiert Alibaba massiv von einer flächendeckenden, günstigen und intelligenten Automatisierung. Indem die Ant Group die Basisschicht unter der Apache 2.0-Lizenz quelloffen macht, lädt sie die ganze Welt ein, die nächste Generation der Robotik auf ihrer Plattform aufzubauen. Ein klassischer Ökosystem-Schachzug.
Die Veröffentlichung auf Hugging Face ist kein bloßer „Data Dump“. Sie umfasst eine produktionsreife Codebasis inklusive Tools für die Datenverarbeitung, das Fine-Tuning und die Evaluation. Die Ant Group verschenkt hier nicht nur den Fisch, sondern die gesamte Fangflotte inklusive Bauplänen.
Während die Konkurrenz ihre Modelle oft hinter geschlossenen APIs oder restriktiven Lizenzen versteckt, könnte die Entscheidung der Ant Group für volle Offenheit der Katalysator für eine „kambrische Explosion“ der Innovation in der Robotik sein. Das Rennen wird nicht mehr nur darüber entschieden, wer die klügste KI hat, sondern wer das lebendigste und produktivste Ökosystem um sie herum aufbaut. Mit der LingBot-Trilogie hat die Ant Group gerade einen verdammt starken Eröffnungszug gemacht.













