Alibabaov istraživački laboratorij Tongyi Lab razvio je otvoreni okvir za treniranje velikih jezičnih modela (LLM-ova) koji bi, tvrde autori, mogao nadmašiti dosadašnje komercijalne sustave za dubinsko istraživanje. Tehnika nazvana Agentic Continual Pre-training (Agentic CPT) ubacuje dodatnu fazu između standardnog pre-treniranja i završnog fino ugađanja, čime modelu usađuje tzv. agentičke sposobnosti – planiranje, samoispravljanje i prilagodbu nepredvidivim okolnostima.
„Da bi se model smatrao pouzdanim agentom, on mora održavati ponašanje usklađeno s ljudskim stručnjacima kroz više koraka rješavanja problema, a ne samo u jednoj razmjeni poruka”, ističu istraživači. Klasične metode poput nadziranog fino ugađanja ili potkrepljujućeg učenja pokazale su se nedostatnima jer modele uglavnom ‘zaključavaju’ u imitaciju točno određenih obrazaca.
Ključna dva načela
- Izvorni skupovi podataka moraju biti široki i međudomenski.
- Podaci moraju obuhvatiti raznolik spektar agentičkih ponašanja, kako bi model istraživao različite strateške puteve umjesto da napamet pamti rješenja.
Kako bi to postigli, znanstvenici su osmislili skalabilan sustav sinteze podataka koji radi potpuno offline, bez skupih API poziva ili ručnog anotiranja. Sastoji se od dvaju koraka: • First-order Action Synthesis (FAS) – pretvara sirove podatke u „otvorenu memoriju” i generira kompleksne parove pitanja i odgovora. • Higher-order Action Synthesis (HAS) – za svaki problem stvara više alternativnih putanja zaključivanja, učeći model fleksibilnom donošenju odluka.
AgentFounder – demonstracija u praksi Na temelju okvira Agentic CPT tim je istrenirao model AgentFounder-30B polazeći od otvorenog modela Qwen3-30B. U prvoj fazi model je obradio oko 200 milijardi tokena uz kontekst od 32 000 znakova, a u drugoj još 100 milijardi tokena s proširenim kontekstom od 128 000 znakova.
Rezultati testiranja pokazali su da AgentFounder-30B postavlja nova mjerila među otvorenim modelima: • na engleskom testu BrowseComp ostvario je 10 postotnih bodova bolji rezultat od dosadašnjeg rekorda open-sourcea i približio se razini zatvorenih sustava, • postao je prvi otvoreni model koji je na izazovnom Humanity’s Last Exam (HLE) premašio granicu od 30 bodova, • na Academic Browse testu dosegnuo je 75,3 %, uvjerljivo nadmašivši konkurenciju.
Prema autorima, visoki rezultati znače stabilnije, točnije i operativnije agente za poslovne zadatke poput praćenja tržišnih trendova ili nadzora opskrbnih lanaca, gdje je nužno brzo agregirati višestruke izvore, provjeriti podatke i ažurirati znanje. Za kritične primjene i dalje se preporučuje princip „čovjek u petlji” – ljudska provjera u ključnim točkama odlučivanja.
Brži put do prilagođenih agenata Okvir Agentic CPT, naglašavaju u Alibabaovu timu, omogućuje tvrtkama da relativno brzo i troškovno prihvatljivo prilagode snažan ‘pred-uskladen’ model vlastitim internim alatima i bazama podataka. Time je, primjerice, razvoj specijaliziranih agenata za financijske analize ili farmaceutska istraživanja izvediv unutar realnog budžeta i vremenskog okvira.
„S dovoljno jakim agentičkim temeljnim modelom, ponekad je za rješavanje složenih zadataka dovoljno samo osmišljeno promptiranje”, zaključuju istraživači, sugerirajući da bi agentičke sposobnosti uskoro mogle postati sastavni dio velikih jezičnih modela.