Istraživači sa Sveučilišta Stanford i tvrtke SambaNova Systems razvili su Agentic Context Engineering (ACE), okvir koji automatski popunjava i mijenja kontekstualni prozor velikih jezičnih modela (LLM-ova) te ga tretira kao „razvijajuću knjigu poteza” što se kontinuirano nadograđuje iskustvima agenta.
Glavni izazov: gubitak i skraćivanje konteksta
Današnje aplikacije temeljene na LLM-ovima u velikoj se mjeri oslanjaju na prilagodbu konteksta umjesto na skupo ponovno učenje modela. No postoje dva kronična problema:
- „Bias prema kratkoći” – automatizirane metode skraćuju upute do generičkih formulacija i time slabe učinak u složenim domenama.
- „Kontekstualni kolaps” – višekratno prepisivanje cijelog prompta briše važne detalje, pa sustav „zaboravlja” prijašnje interakcije i ponaša se nedosljedno.
„Kada AI pokuša komprimirati sve što je naučio u jednu novu verziju memorije, s vremenom se prepišu bitne bilješke – poput dokumenta preko kojega pređete toliko puta da izblijede ključne napomene”, upozoravaju autori rada.
ACE: tri uloge za stabilan, bogat kontekst
Okvir ACE raspodjeljuje poslove na Generator, Reflektor i Kuratora:
- Generator gradi razložne putanje rješavanja zadatka, ističući uspješne strategije i tipične pogreške.
- Reflektor analizira te putanje i izvlači naučene lekcije.
- Kurator sažima lekcije u strukturirane stavke i uklapa ih u postojeću „knjigu poteza”.
Umjesto jedne blokovske poruke, ACE pohranjuje znanje kao zbirku označenih bullet-točaka koje se inkrementalno „rastu i pročišćavaju”. Redundancija se povremeno uklanja, pa kontekst ostaje sveobuhvatan, ali kompaktan.
Rezultati: bolja točnost uz 87 % nižu latenciju
U dvjema skupinama testova – višekorakim agentnim zadacima i financijskim analizama – ACE je nadmašio snažne polazne metode poput GEPA-e i klasičnog in-context učenja. Prosječna poboljšanja iznosila su 10,6 % na agentnim i 8,6 % na specijaliziranim zadacima.
Na javnom benchmarku AppWorld agent pogonjen otvorenim modelom DeepSeek-V3.1, ali potpomognut ACE-om, dosegnuo je prosječno učinke usporedive s GPT-4.1, a na zahtjevnijem dijelu testa čak ga i nadmašio.
Sve to postignuto je uz 86,9 % nižu latenciju i manji broj poziva modelu, što pokazuje da se samopoboljšanje može postići s manje troškova i bez ponovnog treniranja težina.
Praktične posljedice za poduzeća
Autori ističu kako ACE omogućuje da se visokokvalitetne AI usluge grade na lokalno pokrenutim, manjim modelima: „Tvrtkama nije nužno oslanjati se na goleme vlasničke modele da bi ostale konkurentne. Mogu zaštititi osjetljive podatke i istodobno dobiti vrhunske rezultate kontinuiranim rafiniranjem konteksta.”
Dulji prompti ne znače nužno veće troškove jer moderni sustavi posluživanja optimiziraju rad s dugim kontekstima putem reciklaže KV-predmemorije, kompresije i off-loada memorije.
Osim performansi, ACE nudi i transparentnost jer se znanje čuva u čitljivom tekstu. To pojednostavljuje usklađivanje s regulativom i „selektivno raz-učenje”: zastarjele ili pravno osjetljive informacije mogu se jednostavno ukloniti iz konteksta bez ikakva retreniranja modela.
Idući korak, zaključuju istraživači, jest otvaranje uređivanja konteksta stručnjacima iz domene – odvjetnicima, analitičarima, liječnicima – kako bi izravno oblikovali „ono što AI zna”. Time bi se vrata samostalnog, nadziranog i društveno odgovornog razvoja umjetne inteligencije dodatno širom otvorila.