Istraživači sa Sveučilišta za znanost i tehnologiju Kine predstavili su Agent-R1, novi okvir za učenje potkrepljivanjem (RL) koji velikim jezičnim modelima (LLM) omogućuje snalaženje u složenim, višekoračnim zadaćama i interakcijama s dinamičnim okruženjima.
Dosadašnje RL metode uspješno treniraju modele za jasno definirane probleme poput matematike ili programiranja, gdje je nagrada jednostavna: odgovor je točan ili pogrešan. Međutim, takav pristup posustaje kada agent mora voditi višestruke razgovore, pozivati alate ili donositi odluke uz nepotpune informacije.
Prošireni MDP za „neurednu” stvarnost
Autori su zato proširili klasični Markovljev proces odlučivanja (MDP). Uz trenutačno stanje model sada pamti čitavu povijest interakcija, a niz generiranih tokena može pokrenuti radnju poput API poziva. Prijelazi između stanja postaju nepredvidivi jer ovise o odgovoru okruženja, dok se sustav nagrađivanja rafinira u takozvane procesne nagrade koje modelu daju bržu i precizniju povratnu informaciju.
„Ova proširenja ključna su kako bi algoritmi učenja potkrepljivanjem mogli trenirati sofisticirane agente sposobne za složeno, višekoračno zaključivanje i interakciju u dinamičnim okruženjima”, pišu istraživači.
Dva modula: Tool i ToolEnv
Na toj definiciji nastao je Agent-R1, platforma koja klasični jednokratni RL pretvara u višekoračni proces. Ključ su dva modula:
• Tool – izvršava konkretnu radnju (npr. API poziv) i vraća sirove podatke. • ToolEnv – tumači povratne podatke, ažurira stanje agenta i izračunava nagradu.
Drugim riječima, Tool javlja „što se dogodilo”, a ToolEnv određuje „što to znači” za zadatak.
Testovi na višestrukom dohvaćanju informacija
Agent-R1 je ispitan na višestrukom odgovaranju na pitanja (multi-hop QA) koje zahtijeva pronalaženje informacija u više dokumenata i niz odluka. Model Qwen2.5-3B-Instruct treniran je na skupovima HotpotQA i 2WikiMultihopQA, a potom provjeren i na izvan-domenskoj Musique zbirci.
RL agenti trenirani kroz Agent-R1 nadmašili su dvije osnovne strategije: jednostavan RAG pristup jednokratnog dohvaćanja i izvorno pozivanje alata bez posebnog RL-treninga. Najbolje rezultate dao je algoritam GRPO, poznat iz drugih naprednih LLM sustava.
„Ovi rezultati snažno potvrđuju učinkovitost Agent-R1 u treniranju moćnih LLM agenata putem RL-a od početka do kraja, uz konzistentna i značajna poboljšanja nad osnovnim pristupima”, navode autori.
Potencijal za poslovne primjene
Okvir bi u poslovnom svijetu mogao otvoriti put agentima koji rješavaju složene probleme u stvarnim, neuređenim okruženjima, gdje se informacije i ciljevi mijenjaju iz razgovora u razgovor.
„Nadamo se da će Agent-R1 postati temelj za buduća istraživanja skalabilnog i jedinstvenog RL-treninga agentičkih LLM-ova”, zaključuju znanstvenici.