CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

28. studenog 2025, 20:18

Novi okvir Agent-R1 mijenja način treniranja jezičnih modela

Kineski istraživači osmislili su Agent-R1, okvir koji proširuje tradicionalno učenje potkrepljivanjem i omogućuje velikim jezičnim modelima rješavanje složenih višekoračnih zadataka u promjenjivim okruženjima.

min. čitanja

XFacebookWhatsApp

Istraživači sa Sveučilišta za znanost i tehnologiju Kine predstavili su Agent-R1, novi okvir za učenje potkrepljivanjem (RL) koji velikim jezičnim modelima (LLM) omogućuje snalaženje u složenim, višekoračnim zadaćama i interakcijama s dinamičnim okruženjima.

Dosadašnje RL metode uspješno treniraju modele za jasno definirane probleme poput matematike ili programiranja, gdje je nagrada jednostavna: odgovor je točan ili pogrešan. Međutim, takav pristup posustaje kada agent mora voditi višestruke razgovore, pozivati alate ili donositi odluke uz nepotpune informacije.

Prošireni MDP za „neurednu” stvarnost

Autori su zato proširili klasični Markovljev proces odlučivanja (MDP). Uz trenutačno stanje model sada pamti čitavu povijest interakcija, a niz generiranih tokena može pokrenuti radnju poput API poziva. Prijelazi između stanja postaju nepredvidivi jer ovise o odgovoru okruženja, dok se sustav nagrađivanja rafinira u takozvane procesne nagrade koje modelu daju bržu i precizniju povratnu informaciju.

„Ova proširenja ključna su kako bi algoritmi učenja potkrepljivanjem mogli trenirati sofisticirane agente sposobne za složeno, višekoračno zaključivanje i interakciju u dinamičnim okruženjima”, pišu istraživači.

Dva modula: Tool i ToolEnv

Na toj definiciji nastao je Agent-R1, platforma koja klasični jednokratni RL pretvara u višekoračni proces. Ključ su dva modula:

• Tool – izvršava konkretnu radnju (npr. API poziv) i vraća sirove podatke. • ToolEnv – tumači povratne podatke, ažurira stanje agenta i izračunava nagradu.

Drugim riječima, Tool javlja „što se dogodilo”, a ToolEnv određuje „što to znači” za zadatak.

Testovi na višestrukom dohvaćanju informacija

Agent-R1 je ispitan na višestrukom odgovaranju na pitanja (multi-hop QA) koje zahtijeva pronalaženje informacija u više dokumenata i niz odluka. Model Qwen2.5-3B-Instruct treniran je na skupovima HotpotQA i 2WikiMultihopQA, a potom provjeren i na izvan-domen­skoj Musique zbirci.

RL agenti trenirani kroz Agent-R1 nadmašili su dvije osnovne strategije: jednostavan RAG pristup jednokratnog dohvaćanja i izvorno pozivanje alata bez posebnog RL-treninga. Najbolje rezultate dao je algoritam GRPO, poznat iz drugih naprednih LLM sustava.

„Ovi rezultati snažno potvrđuju učinkovitost Agent-R1 u treniranju moćnih LLM agenata putem RL-a od početka do kraja, uz konzistentna i značajna poboljšanja nad osnovnim pristupima”, navode autori.

Potencijal za poslovne primjene

Okvir bi u poslovnom svijetu mogao otvoriti put agentima koji rješavaju složene probleme u stvarnim, neuređenim okruženjima, gdje se informacije i ciljevi mijenjaju iz razgovora u razgovor.

„Nadamo se da će Agent-R1 postati temelj za buduća istraživanja skalabilnog i jedinstvenog RL-treninga agentičkih LLM-ova”, zaključuju znanstvenici.

#hotpotqa#agent-r1#sveuciliste-kine#markovljev-proces-odlucivanja#grpo

Slično

Tehnologija

Laboratorijska slanina stiže u SAD: Mission Barns dobio zeleno svjetlo FDA-e
FDA je odobrila proizvodnju i prodaju svinjske masti uzgojene u laboratoriju, a startup Mission Barns najavljuje hibridnu „slaninu“ bez klanja svinja.

min čitanja

Više

Tehnologija

Bez vidljivosti nema povjerenja: promatranje pretvara LLM-ove u pouzdan korporativni alat
Telemetrija pretvara umjetnu inteligenciju iz laboratorijskog pokusa u pouzdanu infrastrukturu – primjer iz bankarskog slučaja pokazuje zašto je promatranje ključno.

min čitanja

Više

Tehnologija

AI kompanije obećavaju „čišća“ psihodelična iskustva, dok se opasni izazovi šire među mladima
Tehnološke tvrtke razvijaju AI alate i nove molekule kako bi uklonile „loše tripove“, dok se istodobno među mladima šire opasni izazovi s lijekovima.

min čitanja

Više

Tehnologija

Zadarska tvrtka Margins prednjači na Deloitteovoj listi tehnoloških brzaca
Margins vodi hrvatski poredak na Deloitteovoj listi 50 najbrže rastućih tehnoloških kompanija srednje Europe.

min čitanja

Više

Tehnologija

KBC Rijeka prvi u javnom zdravstvu uveo preciznu „radiokirurgiju nožem od zraka”
Riječki KBC prvi u Hrvatskoj uvedenjem stereotaksijske radioterapije omogućio onkološko liječenje bez čekanja i s preciznošću „virtualnog skalpela”.

min čitanja

Više

Tehnologija

Anthropic tvrdi da je riješio ključan problem pamćenja dugotrajnih AI agenata
Anthropic predstavlja dvodijelnu arhitekturu koja Claudeu omogućuje da kroz više sesija sačuva kontinuitet rada i tako izbjegne zaborav uputa.

min čitanja

Više

Tehnologija

Airbus povlači 6.000 zrakoplova A320 zbog softvera ranjivog na Sunce
Softverska ranjivost na solarno zračenje potaknula je Airbus na hitan opoziv i kratkotrajno prizemljenje polovice globalne flote A320.

min čitanja

Više

Tehnologija

Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Rusija prijeti potpunom blokadom WhatsAppa zbog nesuradnje s vlastima
Roskomnadzor najavio zabranu popularne aplikacije ako Meta ne pristane dijeliti podatke u istragama prijevara i terorizma.

min čitanja

Više

Tehnologija

Stihovima do nuklearne bombe: istraživači otkrili veliku rupu u zaštiti AI sustava
Nova studija pokazuje da chatbotovi popuštaju pred opasnim zahtjevima kada su upakirani u stihove, s čak 62 % uspjeha ručno pisanih pjesama.

min čitanja

Više

Tehnologija

McDonald’s proširio aplikaciju: Hranu sada možete naručiti i platiti bez čekanja
Nova Mobile Order & Pay opcija omogućuje naručivanje, plaćanje i preuzimanje McDonald’s obroka bez čekanja, uz dostavu za stol, pult, McDrive ili parkiralište.

min čitanja

Više

Najčitanije

Vijesti

Novi šok u Medulinu: iz mora izvučeno tijelo, sumnja na sina ubijene 79-godišnjakinje
Policija istražuje povezanost tijela izvađenog iz Medulinskog zaljeva s nasilnim ubojstvom 79-godišnje žene pronađene dan ranije u njezinoj kući.

min čitanja

Više

Najnovije

Lifestyle

Deset namirnica koje dokazano snižavaju kolesterol

Vijesti

Internetske prijevare rastu: šteta u Dalmaciji skočila na sedam milijuna eura

Politika

Četiri ruska MiG-31 podigla uzbunu u Poljskoj: NATO odmah stavio Patriote u punu pripravnost

Biznis

Ytrij poskupljuje 4 400 %: Kina steže ventil, a Washington i Tokio kopaju sve dublje

Vijesti

JR ponovno omata Pont Neuf četrdeset godina nakon Christa i Jeanne-Claude

Politika

Okupljanje pred domom Dalije Orešković razotkrilo prijetnju ekstremizma

Vijesti

Vlada ugasila Brodarski institut: kraj jedne svjetski priznate priče

Vijesti

Kaprijani traže odštetu nakon 48-satnog mraka

Vijesti

Navijači pod povećalom: sporni uzvik iz 80-ih sada razlog za kazne

Sport

Whittaker brutalno riješio Gavazija u prvoj rundi

Sport

Modrić planuo zbog sporne odluke suca u derbiju Milana i Lazija