Startup Anthropic predstavio je novo rješenje za svoj Claude Agent SDK kako bi otklonio kroničan problem: agenti koji rade danima ili tjednima zaboravljaju upute čim prijeđu granicu vlastitog kontekstnog prozora.
„Osnovni izazov dugotrajnih agenata jest to što moraju raditi u diskretnim sesijama, a svaka nova sesija započinje bez sjećanja na prethodnu”, istaknuli su inženjeri tvrtke u blog-zapisu. Budući da većina složenih projekata premašuje ograničeni broj tokena koje model može ‘vidjeti’ odjednom, agenti moraju pronaći način da mostom povežu sesije.
Ključ Anthropicova pristupa je dvočlana arhitektura:
- Initializer agent postavlja radno okruženje, bilježi sve što je prethodno napravljeno i koje su datoteke dodane.
- Coding agent zatim u svakoj novoj sesiji radi male inkrementalne korake, ostavlja strukturirane upute i artefakte za sljedeći krug te uz pomoć ugrađenih testova automatski otkriva i ispravlja greške.
Tvrtka navodi da je inspiraciju pronašla u svakodnevnoj praksi softverskih inženjera: jasna podjela zadataka, verzioniranje i testiranje. Bez takve discipline, pokazuju interni testovi, čak i veliki model Opus 4.5, kad dobije samo općenitu naredbu poput „izradi klon claude.ai”, posrne na dva načina: ili pokušava napraviti previše pa ostaje bez konteksta usred posla, ili pak, nakon dijela obavljenih funkcija, samouvjereno proglasi projekt završenim.
Iako na tržištu već postoje biblioteke poput LangMem-a, Memobasea ili OpenAI-eva Swarma, Anthropic tvrdi da njihovo rješenje donosi uredniji prijenos znanja između sesija i jednostavnije se povezuje s vlastitim modelima. Tvrtka priznaje da je riječ o „tek jednom mogućem sklopu rješenja”, ali vjeruje da se naučene lekcije mogu prenijeti na širi raspon zadataka, od znanstvenih istraživanja do financijskog modeliranja.
Sljedeći korak, poručuju istraživači, bit će utvrditi isplati li se generalistički koderski agent ili je učinkovitija podjela na više specijaliziranih agenata. Za sada su rezultati obećavajući, barem u domeni full-stack web razvoja, no širu primjenu tek treba eksperimentalno potvrditi.