Istraživači Googlea i Sveučilišta California, Santa Barbara predstavili su rad u kojemu opisuju kako agente potaknuti da pažljivije raspolažu tokene-om i skupim pozivima na alate. U središtu studije su dvije nove metode:
- Budget Tracker – jednostavan dodatak koji u svakom koraku odgovora obavještava model koliko mu je računalnog i „alatnog” budžeta preostalo.
- Budget Aware Test-time Scaling – sveobuhvatni okvir koji upravljanje budžetom ugrađuje dublje u postupak izvođenja.
„Pozivi na alate poput pregledavanja weba troše više tokena, produžuju kontekst i unose dodatno kašnjenje”, pojasnili su koautori Zifeng Wang i Tengxiao Liu. Dodaju da agent bez osjećaja za proračun često „naslijepo kopa” po jednoj ideji, da bi nakon desetak ili dvadeset poziva shvatio da je otišao u slijepu ulicu.
Kako radi Budget Tracker
Budget Tracker funkcionira isključivo na razini prompta: daje kratke smjernice o režimima potrošnje i nakon svakog koraka ažurira procjenu preostalog budžeta. Time model može prilagoditi sljedeći potez stvarnom stanju resursa, bez dodatnog treniranja ili izmjene arhitekture.
Tim je tehniku iskušao u dva scenarija: • Sekvencijsko skaliranje – model postupno dorađuje odgovor. • Paralelno skaliranje – pokreće više neovisnih instanci i potom agregira rezultate.
U oba slučaja agent je radio u ReAct petlji (Reasoning + Acting) s alatima za pretraživanje i pregledavanje interneta. Za realniji uvid uvedena je objedinjena metrika troška koja zbraja interne tokene i vanjske pozive.
Rezultati na tri zahtjevna skupa zadataka
Budget Tracker testiran je na trima setovima pitanja koja zahtijevaju vanjsko pretraživanje – među njima BrowseComp i HLE-Search – koristeći modele Gemini 2.5 Pro, Gemini 2.5 Flash i Claude Sonnet 4. U svim promatranim budžetnim okvirima jednostavni plugin podigao je uspjeh agenata, čime je potvrđeno da jasna „svijest” o troškovima vodi učinkovitijem istraživanju.
Za poduzeća i razvojne timove to otvara mogućnost pouzdanog planiranja troškova, bez odricanja od preciznosti ili povećanja latencije.