Istraživački tim Tongyi Laba kineskog diva Alibabe razvio je AgentEvolver, okvir koji omogućuje umjetnim agentima da sami stvaraju podatke za učenje istražujući okruženje u kojem rade. Riječ je o „self-evolving agent system” koji, kako autori ističu, „pomiče inicijativu s ljudski vođenih procesa na samo-poboljšanje potaknuto velikim jezičnim modelom”.
Tradicionalno se agenti treniraju metodama dubokog potkrepljivačkog učenja (RL), što traži skupe i ručne pripreme skupova zadataka te golemo računarsko vrijeme za pokušaje i pogreške. AgentEvolver taj teret znatno smanjuje zahvaljujući trima usko povezanim mehanizmima:
• Self-questioning – agent sam istražuje aplikaciju i iz tog obilaska generira raznolike zadatke, pretvarajući se „od potrošača u proizvođača podataka”.
• Self-navigating – iz uspješnih i neuspješnih pokušaja izvlači općenita pravila pa brže pronalazi učinkovite postupke.
• Self-attributing – umjesto da dobije samo konačnu oznaku uspjeha ili neuspjeha, LLM procjenjuje doprinos svake pojedine akcije, čime agent prima finije povratne informacije važne za regulirane industrije koje zahtijevaju preglednost koraka.
Ključnu infrastrukturu čini Context Manager, komponenta koja upravlja memorijom i poviješću interakcija, a već je prilagođena za rad s tisućama API-ja kakve susreću poduzeća.
Rezultati pokazuju koliko pristup ubrzava učenje. Na benchmark-ovima AppWorld i BFCL v3 modeli Qwen2.5 sa 7 i 14 milijardi parametara, opremljeni sva tri mehanizma, poboljšali su prosječni rezultat za 29,4 % odnosno 27,8 % u odnosu na bazni RL pristup. Najviše je doprinio self-questioning, jer rješava kroničan manjak kvalitetnih podataka.
Za poduzeća to znači da uz zadavanje visokorangiranih ciljeva mogu dobiti prilagođene digitalne asistente bez dugotrajnog ručnog označavanja. „A truly ‘singular model’ that can drop into any software environment and master it overnight is certainly the holy grail of agentic AI”, kaže koautor Yunpeng Zhai, dodajući da AgentEvolver vidi kao neophodan korak prema tom cilju.
Iako potpuna univerzalnost još traži daljnje pomake u rezoniranju i infrastrukturi, autori zaključuju da „AgentEvolver establishes a new paradigm that paves the way toward scalable, cost-effective, and continually improving intelligent systems”.