Allen Institute for AI (Ai2) lansirao je novu generaciju velikih jezičnih modela – Olmo 3, čime dodatno naglašava strategiju potpune otvorenosti i mogućnost prilagodbe za poslovne korisnike.
Modeli i njihove namjene • Olmo 3-Think (7B i 32B parametara): „first-ever fully open 32B thinking model that generates explicit reasoning-chain-style content.” Ima kontekstni prozor od 65 000 tokena, što ga čini pogodnim za složene projekte koji zahtijevaju rad s duljim dokumentima. • Olmo 3-Base (7B i 32B): opisan kao „ideal for continued pre-training or fine-tuning”, a posebno je usmjeren na programiranje, razumijevanje teksta, matematiku i dugoročno zaključivanje. • Olmo 3-Instruct (7B): optimiziran za praćenje uputa, višekratne razgovore i korištenje alata.
Svi modeli dostupni su pod licencijom Apache 2.0, a Ai2 uz svaku verziju isporučuje kontrolne točke iz svake glavne faze učenja, pa korisnici mogu precizno pratiti gdje i kako je model stjecao znanje.
Zašto je transparentnost ključna „The releases from our friends in the tech world are very cool and super exciting, but there are a lot of people for whom data privacy control over what goes into the model, how the models train and other constraints on how the model can be used as front of mind”, rekao je Noah Smith, viši direktor istraživanja obrade prirodnog jezika u Ai2-u.
Smith tvrdi da se tvrtka protivi konceptu „jednoga modela za sve” te naglašava kako je mogućnost specijalizacije važnija od postizanja vrhunskih rezultata na pojedinim standardiziranim testovima. Olmo 3 zato omogućuje da poduzeća u proces dodatnog treniranja uključe vlastite, povjerljive skupove podataka, čime se poboljšava točnost odgovora na poslovno specifična pitanja.
Učinkovitije učenje i bolji rezultati Prema internim podacima, osnovni Olmo 3 treniran je „s otprilike 2,5 puta većom računalnom učinkovitošću mjerenom u GPU-sati po tokenu”, pa troši manje energije i donosi niže troškove u odnosu na prethodnike. U priopćenju se navodi da: • Olmo 3-Think (32B) nadmašuje sve dosad potpuno otvorene modele razlučivanja slične veličine te smanjuje zaostatak za vodećim otvorenim modelima poput serije Qwen 3-32B-Thinking, iako je treniran na šest puta manje tokena. • Olmo 3-Instruct postiže bolje rezultate od Qwen 2.5, Gemme 3 i Llama 3.1 u zadacima praćenja uputa.
Dostupnost i daljnji planovi Programeri modele mogu preuzeti na platformi Hugging Face ili ih isprobati putem mrežnog sučelja Ai2 Playground. Institut je ranije predstavio i alat OlmoTrace, koji povezuje izlaz modela s originalnim podacima za učenje, nudeći dodatnu razinu provjerljivosti.
Rastuća potražnja za prilagodljivim modelima, osobito među reguliranim industrijama koje ne mogu razvijati vlastite LLM-ove, čini da se open-source pristup Ai2-a pozicionira kao privlačna alternativa komercijalnim „crnim kutijama”. Smith zaključuje da će upravo transparentnost i mogućnost fine-tuninga biti presudni kriteriji pri odabiru modela u korporativnom okruženju.