CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

28. studenog 2025, 20:18

Novi okvir Agent-R1 mijenja način treniranja jezičnih modela

Kineski istraživači osmislili su Agent-R1, okvir koji proširuje tradicionalno učenje potkrepljivanjem i omogućuje velikim jezičnim modelima rješavanje složenih višekoračnih zadataka u promjenjivim okruženjima.

min. čitanja

XFacebookWhatsApp

Istraživači sa Sveučilišta za znanost i tehnologiju Kine predstavili su Agent-R1, novi okvir za učenje potkrepljivanjem (RL) koji velikim jezičnim modelima (LLM) omogućuje snalaženje u složenim, višekoračnim zadaćama i interakcijama s dinamičnim okruženjima.

Dosadašnje RL metode uspješno treniraju modele za jasno definirane probleme poput matematike ili programiranja, gdje je nagrada jednostavna: odgovor je točan ili pogrešan. Međutim, takav pristup posustaje kada agent mora voditi višestruke razgovore, pozivati alate ili donositi odluke uz nepotpune informacije.

Prošireni MDP za „neurednu” stvarnost

Autori su zato proširili klasični Markovljev proces odlučivanja (MDP). Uz trenutačno stanje model sada pamti čitavu povijest interakcija, a niz generiranih tokena može pokrenuti radnju poput API poziva. Prijelazi između stanja postaju nepredvidivi jer ovise o odgovoru okruženja, dok se sustav nagrađivanja rafinira u takozvane procesne nagrade koje modelu daju bržu i precizniju povratnu informaciju.

„Ova proširenja ključna su kako bi algoritmi učenja potkrepljivanjem mogli trenirati sofisticirane agente sposobne za složeno, višekoračno zaključivanje i interakciju u dinamičnim okruženjima”, pišu istraživači.

Dva modula: Tool i ToolEnv

Na toj definiciji nastao je Agent-R1, platforma koja klasični jednokratni RL pretvara u višekoračni proces. Ključ su dva modula:

• Tool – izvršava konkretnu radnju (npr. API poziv) i vraća sirove podatke. • ToolEnv – tumači povratne podatke, ažurira stanje agenta i izračunava nagradu.

Drugim riječima, Tool javlja „što se dogodilo”, a ToolEnv određuje „što to znači” za zadatak.

Testovi na višestrukom dohvaćanju informacija

Agent-R1 je ispitan na višestrukom odgovaranju na pitanja (multi-hop QA) koje zahtijeva pronalaženje informacija u više dokumenata i niz odluka. Model Qwen2.5-3B-Instruct treniran je na skupovima HotpotQA i 2WikiMultihopQA, a potom provjeren i na izvan-domen­skoj Musique zbirci.

RL agenti trenirani kroz Agent-R1 nadmašili su dvije osnovne strategije: jednostavan RAG pristup jednokratnog dohvaćanja i izvorno pozivanje alata bez posebnog RL-treninga. Najbolje rezultate dao je algoritam GRPO, poznat iz drugih naprednih LLM sustava.

„Ovi rezultati snažno potvrđuju učinkovitost Agent-R1 u treniranju moćnih LLM agenata putem RL-a od početka do kraja, uz konzistentna i značajna poboljšanja nad osnovnim pristupima”, navode autori.

Potencijal za poslovne primjene

Okvir bi u poslovnom svijetu mogao otvoriti put agentima koji rješavaju složene probleme u stvarnim, neuređenim okruženjima, gdje se informacije i ciljevi mijenjaju iz razgovora u razgovor.

„Nadamo se da će Agent-R1 postati temelj za buduća istraživanja skalabilnog i jedinstvenog RL-treninga agentičkih LLM-ova”, zaključuju znanstvenici.

#hotpotqa#agent-r1#sveuciliste-kine#markovljev-proces-odlucivanja#grpo

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Šest planeta u rijetkoj nebeskoj paradi ovaj vikend
Rijetko poravnanje omogućit će da se Jupiter, Saturn, Venera, Merkur, Neptun i Uran vide istodobno, a iduća prilika stiže tek 2040.

min čitanja

Više

Tehnologija

Google Labs otključava novu eru poslovnih AI agenata
Nadogradnja alata Opal donosi adaptivno usmjeravanje, trajnu memoriju i ljudsku kontrolu, otvarajući put fleksibilnijim i pouzdanijim poslovnim AI agentima.

min čitanja

Više

Tehnologija

OpenAI prikuplja 110 milijardi dolara i s Amazonom otvara „stateful” eru umjetne inteligencije
OpenAI osigurava 110 milijardi USD i s AWS-om najavljuje novo „stateful” okruženje koje bi autonomne AI agente trebalo dovesti ravno u poslovne procese.
TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Microsoft predstavio OPCD: brže i jeftinije korištenje velikih jezičnih modela
Novi pristup treniranju velikih jezičnih modela smanjuje latenciju i troškove, a pritom zadržava njihovu opću funkcionalnost.

min čitanja

Više

Tehnologija

OpenAI otpustio zaposlenika zbog insajderskog klađenja na Polymarketu
Otpuštanjem zaposlenika zbog insajderskih oklada, OpenAI je otvorio vruću raspravu o zlouporabi povjerljivih podataka na sve popularnijim predikcijskim tržištima.
TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Kalifornija želi razjasniti što je e-bicikl, a što električni motocikl
Prijedlog zakona SB 1167 nastoji stati na kraj prodaji snažnijih vozila pod oznakom e-bicikla i smanjiti ozljede, osobito među tinejdžerima.

min čitanja

Više

Tehnologija

AI agenti otvaraju najveću sigurnosnu površinu do sada, industrija još nema pravila
Stručnjaci iz Resolve AI-a i Zendeska upozoravaju da autonomni agenti dobivaju širi pristup korporativnim sustavima nego ikad prije, dok sigurnosni okviri kaskaju iza tehnološkog razvoja.

min čitanja

Više

Tehnologija

Sukob Anthropica i Pentagona, novi test u Silicijskoj dolini i oproštaj od kabela TAT-8
Podcast raspravlja o napetostima između Anthropica i Pentagona, novom agentic-mimetic kriteriju u Silicijskoj dolini te povlačenju povijesnog podmorskog kabela TAT-8.

min čitanja

Više

Tehnologija

Šibenčanka Petra Maleš odbila američki ‘mrak’ ugovor i zasjala u hrvatskoj znanosti
Mlada kemijska istraživačica, slavljenica programa L’Oréal-UNESCO „Za žene u znanosti 2025.”, otkrila zašto je napustila američki laboratorij i karijeru nastavila u rodnom Šibeniku.

min čitanja

Više

Tehnologija

Kninska srednja škola dobila CNC stroj težak tonu i pol
Srednja škola Kralja Zvonimira u Kninu dobila je moderni CNC tokarski stroj vrijedan 30 tisuća eura, što otvara put pokretanju jedinstvenog školskog programa za operatere strojne obrade.

min čitanja

Više

Najčitanije

Nogomet

By The logo is from the following website: https://www.realmadrid.com/, Fair use, https://en.wikipedia.org/w/index.php?curid=35239667

Španjolska policija: Nema dokaza o sudjelovanju hrvatskih navijača u neredima prije Real-Benfica
Španjolska policija tvrdi da među privedenim navijačima Benfice u Madridu nije bilo Hrvata, iako je televizijski program ranije govorio suprotno.

min čitanja

Više

Najnovije

Vijesti

Pulska Veruda sve tiša: poluprazni štandovi i kupci koji kupuju "na mjeru"

Vijesti

Dupini kod Zadra ispraznili mreže ribara, snimka izazvala raspravu tko je tu zapravo ‘lopov’

Vijesti

Sjećanje na Tomu Buzova: 33 godine od otmice u Štrpcima

Lifestyle

Vojko V repa o hidroizolaciji: „Mala rupa dovoljna je za veliki problem”

Vijesti

Karlovac dobio svoj prvi KAFKKA: glumci potpisuju tekstove i približavaju se publici

Vijesti

Preminuo Neil Sedaka, autor bezvremenske pjesme „Breaking Up Is Hard to Do”

Lifestyle

Netflix najavio seriju „Ponos i predrasude” za jesen

Sport

Augsburg slomio Köln, Jakić izašao rano

Politika

Afera „Solari” trese Zagorje: Kolar poništava dozvole, HDZ najavljuje „stezanje obruča”

Sport

BSK putuje u Hrvace po bodove spasa i mira

Vijesti

Pritvor zbog ilegalnog odlaganja otpada: 43-godišnjak sumnjiči se za višegodišnje ugrožavanje okoliša