Model zastępuje rozproszone, wyspecjalizowane architektury zadaniowe, typowo stosowane w robotyce, jednym rozwiązaniem zdolnym obsługiwać wiele zadań i środowisk – informuje portal Interesting Engineering. Ma to ograniczyć zależność od oddzielnych modułów odpowiedzialnych za percepcję, planowanie i wykonanie.

Czytaj więcej

USA oskarżają Chiny o masową kradzież sztucznej inteligencji

Motubrain wykazał wysoką skuteczność w testach porównawczych. System bazuje na wcześniejszych pracach ShengShu nad generatywnym wideo w ramach platformy Vidu, wykorzystując dane wideo na dużą skalę do trenowania robotów w zakresie rozumienia i interakcji ze światem rzeczywistym.

Multimodalny model uczy się jak człowiek

Motubrain zaprojektowano jako zunifikowany model multimodalny, który uczy się jednocześnie z danych wideo, języka i działania. Pozwala to robotom analizować otoczenie, przewidywać skutki i działać w czasie rzeczywistym bez konieczności przełączania się między odrębnymi systemami.

Model wykorzystuje architekturę typu mixture-of-transformers z trzema strumieniami, aby integrować dane z różnych modalności. Takie podejście umożliwia robotom rozumienie poleceń, przewidywanie zmian w otoczeniu oraz generowanie odpowiednich działań w jednym, ciągłym cyklu.

Czytaj więcej

10 światowych trendów AI w 2026 roku. Co czeka Polskę?

W przeciwieństwie do konwencjonalnych systemów, które w dużym stopniu opierają się na oznaczonych zbiorach danych, Motubrain trenowany jest na szerszej mieszance nieoznaczonych nagrań wideo, danych symulacyjnych oraz zapisów zadań wykonywanych przez wiele robotów. Ramy tzw. latent action pozwalają wydobywać wzorce ruchu bezpośrednio z tych danych, ograniczając potrzebę ręcznego anotowania.

Roboty uczą się adaptacji w trakcie działania

Takie podejście pozwala na bardziej efektywne skalowanie modelu. W wewnętrznych testach Motubrain utrzymywał wyższy wskaźnik powodzenia niż konkurencyjne systemy wraz ze wzrostem złożoności zadań i liczby danych treningowych.

Motubrain potrafi realizować zadania wieloetapowe obejmujące do 10 elementarnych działań, co znacząco przewyższa typowe 2–3 kroki obsługiwane przez wiele obecnych systemów robotycznych. Dzięki temu roboty mogą wykonywać bardziej złożone czynności w czasie rzeczywistym w ramach jednej sekwencji.

Czytaj więcej

Sztuczna inteligencja pokonała matematyków. USA tracą przewagę

W testach w warunkach rzeczywistych roboty trenowane z użyciem Motubrain wykazały zdolność adaptacji w trakcie wykonywania zadań. Gdy zadanie nie powiodło się – na przykład przy nieudanej próbie podniesienia obiektu – system potrafił rozpoznać błąd i ponowić próbę bez wcześniejszego treningu na takim scenariuszu.

Firma informuje, że model jest już wykorzystywany przez przedsiębiorstwa robotyczne w aktywnych programach szkoleniowych w środowiskach przemysłowych, komercyjnych i domowych. Współpraca z firmami takimi jak Astribot, SimpleAI i Anyverse Dynamics ma przyspieszyć jego wdrażanie.