Allen Institute for AI (Ai2) objavio je novu verziju svog otvorenog multimodalnog sustava i prvi put ga proširio na video-analizu. Model Molmo 2 dolazi u tri inačice – 8B, 4B i 7B (Molmo 2-O) – a sve su značajno kompaktnije od dominantnih komercijalnih rješenja.
Prema priopćenju instituta, Molmo 2 „podiže mogućnosti prizemljene vizije” – načina na koji model precizno povezuje tekstualne upite s konkretnim pikselima – iz statičnih slika na višekadarske nizove i cijele videozapise. Time cilja tržište poduzeća kojima je presudna točnost praćenja objekata i odgovaranja na upite o sadržaju, a ne generiranje novih videa.
Ključni naglasci
• Podržava ulaze od pojedinačnih i višestrukih slika do isječaka različite duljine, što omogućuje zadatke kao što su video-grounding, praćenje i pitanja-odgovori.
• Varijanta Molmo 2 8B, temeljena na modelu Qwen-3, proglašena je „najboljom ukupnom” za video-grounding i kvizove, dok je 4B namijenjen štedljivijim implementacijama. Molmo 2-O 7B oslanja se na institutov vlastiti Olmo.
• Na referentnim mjerenjima praćenja objekata manje su verzije Molmo 2 nadmašile i neke znatno veće sustave, uključujući Googleov Gemini 3 Pro. U zadacima zaključivanja na slikama Molmo 2 8B predvodi skupinu otvorenih modela, a 4B mu je odmah za petama.
• Najveći pomak bilježi se u video-groundingu i brojnom prebrojavanju objekata, gdje Molmo 2 postiže najbolje rezultate među otvorenim rješenjima. Ipak, ni jedan model još ne doseže 40 % točnosti, što prema Ai2 „pokazuje koliko je područje i dalje zahtjevno”.
• Za razliku od masivnih sustava poput Veo 3.1 ili OpenAI-jeva Sora, Molmo 2 namjerno bira drugi kompromis: manji broj parametara uz optimizaciju za analizu i razumijevanje, a ne za kreiranje sadržaja.
Objava Molmo 2 dolazi nedugo nakon što je institut lansirao novu generaciju svog jezičnog modela Olmo, čime potvrđuje strategiju brze iteracije otvorenih rješenja kao alternative zatvorenim, visokobudžetnim platformama.