U utrci za takozvanu fizičku umjetnu inteligenciju – spoj temeljnih AI modela i robotike – Allen Institute for AI (Ai2) predstavio je MolmoAct 7B, otvoreni model koji robotima omogućuje da planiraju pokrete u stvarnom trodimenzionalnom prostoru.
Za razliku od klasičnih vision-language-action sustava, koji prvenstveno "vide" i opisno reagiraju, MolmoAct „razmišlja u 3D prostoru”, poručili su iz Ai2. Model generira „prostorno utemeljene percepcijske tokene” dobivene uz pomoć vektorski kvantiziranog varijacijskog autoenkodera, čime stječe osjećaj geometrije i procjenjuje udaljenosti među objektima. Nakon toga predviđa niz točaka-putokaza i na koncu izdaje konkretne naredbe – primjerice spuštanje robotske ruke za nekoliko centimetara ili istezanje hvataljke.
Licenciran pod Apache 2.0, s pripadnim skupovima podataka otvorenima kroz CC BY-4.0, MolmoAct se prema prvim testovima pokazao uvjerljivim: u internim mjerilima ostvario je uspješnost izvršavanja zadataka od 72,1 %, nadmašivši aktualne modele Googlea, Microsofta i Nvidije. Iako je treniran ponajprije za kućno okruženje – najnepravilniji i najpromjenjiviji prostor za robote – arhitektura se „s minimalnim dorađivanjem” može prilagoditi različitim oblicima, od industrijskih ruku do humanoidnih platformi.
Profesor Alan Fern s Oregonskog državnog sveučilišta ocjenjuje da istraživanje „predstavlja prirodan napredak u jačanju vizualno-jezičnih modela za robotiku i prostorno zaključivanje”, ali upozorava da su korišteni testovi još uvijek „relativno kontrolirani i igračke prirode”. Unatoč tomu, kaže, jedva čeka isprobati novi model na vlastitim zadacima fizičkog zaključivanja.
Otvorenost podataka pozdravio je i Daniel Maturana iz start-upa Gather AI: „Razvoj i treniranje ovakvih modela skupo je, zato je ovo snažna osnova za daljnji rad akademskih laboratorija pa čak i entuzijasta.”
MolmoAct dolazi u vrijeme kada se fizička AI ubrzava. Googleov SayCan, Metin i NYU-ov OK-Robot, Nvidijin Cosmos-Transfer1 te Hugging Faceov pristupačni stolni robot tek su neki od projekata koji nastoje robotima podariti općenitu „fizičku inteligenciju” – sposobnost da bez ručnog programiranja razumiju što vide i samostalno planiraju pokrete. Ai2 sada tvrdi da je upravo trodimenzionalno rezoniranje adut koji bi MolmoAct mogao pretvoriti u novo polazište za sljedeći val robotskih inovacija.