Godina 2025. već je prozvana „godinom AI agenata”, no i najsnažniji sustavi umjetne inteligencije još se muče s dugotrajnim, višekorakom zadacima. Novo akademsko rješenje, nazvano EAGLET, predlaže kako zadržati agenta „na zadatku” – bez dodatnoga ručnog označavanja podataka ili ponovnoga treniranja osnovnog modela.
Kako radi EAGLET
EAGLET su razvili istraživači s Tsinghua sveučilišta, Pekinškog sveučilišta, DeepLang AI-ja i Sveučilišta Illinois u Urbana-Champaignu. Riječ je o odvojenom „globalnom planeru” koji:
- prima korisničke upute,
- generira visoko-razinsku strategiju,
- prepusti izvršavanje postojećem LLM-agentu,
- više ne intervenira tijekom izvršenja.
Ovakva podjela rada smanjuje planerske halucinacije i skraćuje put do cilja.
Trening bez ljudskih anotacija
Planer se uči dvostupanjskim postupkom:
• Prvo se sintetski planovi stvaraju pomoću vrhunskih modela poput GPT-5 i DeepSeek-V3.1-Think. • Zatim se primjenjuje homologous consensus filtering – ostaju samo planovi koji istodobno pomažu i „iskusnim” i „početničkim” agentima.
Nakon filtriranja slijedi pojačano učenje utemeljeno na pravilima, pri čemu se svaka strategija vrednuje novom metrikom Executor Capability Gain Reward (ECGR). Ta nagrada favorizira kratke, učinkovite putanje koje podižu uspješnost različito jakih modela.
Rezultati na trima zahtjevnim mjerilima
Na benchmark-skupovima ScienceWorld, ALFWorld i WebShop agenti opremljeni EAGLET-om redovito su nadmašili:
• vlastite verzije bez planera, • konkurentske planerske pristupe poput MPO-a i KnowAgenta.
Primjeri skokova izvedbe:
• Llama-3.1-8B-Instruct: prosjek s 39,5 na 59,4 bodova (+19,9). • ScienceWorld (neviđeni scenariji): 42,2 → 61,6. • ALFWorld (viđeni scenariji): 22,9 → 54,3 – više nego dvostruko poboljšanje. • GPT-4.1: 75,5 → 82,2; GPT-5: 84,5 → 88,1.
Osim što su točniji, agenti s EAGLET-om završavali su zadatke u prosječno dva koraka manje (npr. GPT-5: s 11,4 na 9,4).
Učinkovitije treniranje i manji trošak izvođenja
Za razliku od metoda temeljenih na dubokom pojačanom učenju, koje traže stotine iteracija, EAGLET postiže jednake ili bolje rezultate uz otprilike osminu truda. Manji broj koraka tijekom izvođenja dodatno smanjuje vrijeme inferencije i trošak obrade.
Otvorena pitanja
Iako je opisan kao „plug-and-play”, izvorni kod još nije javno objavljen, pa ostaje nepoznato kako će se EAGLET uklopiti u popularne okvire poput LangChaina ili AutoGena. Također nije jasno kolika je minimalna veličina modela za praktičnu primjenu ni koliko je složena replikacija dvoagentnog treninga u tvrtkama s ograničenim resursima.
Unatoč tomu, studija pokazuje da odvojeno, globalno planiranje značajno povećava pouzdanost i učinkovitost LLM agenata, što EAGLET stavlja u središte interesa svih koji razvijaju dugotrajne AI radne procese.