CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

28. studenog 2025, 20:18

Novi okvir Agent-R1 mijenja način treniranja jezičnih modela

Kineski istraživači osmislili su Agent-R1, okvir koji proširuje tradicionalno učenje potkrepljivanjem i omogućuje velikim jezičnim modelima rješavanje složenih višekoračnih zadataka u promjenjivim okruženjima.

min. čitanja

XFacebookWhatsApp

Istraživači sa Sveučilišta za znanost i tehnologiju Kine predstavili su Agent-R1, novi okvir za učenje potkrepljivanjem (RL) koji velikim jezičnim modelima (LLM) omogućuje snalaženje u složenim, višekoračnim zadaćama i interakcijama s dinamičnim okruženjima.

Dosadašnje RL metode uspješno treniraju modele za jasno definirane probleme poput matematike ili programiranja, gdje je nagrada jednostavna: odgovor je točan ili pogrešan. Međutim, takav pristup posustaje kada agent mora voditi višestruke razgovore, pozivati alate ili donositi odluke uz nepotpune informacije.

Prošireni MDP za „neurednu” stvarnost

Autori su zato proširili klasični Markovljev proces odlučivanja (MDP). Uz trenutačno stanje model sada pamti čitavu povijest interakcija, a niz generiranih tokena može pokrenuti radnju poput API poziva. Prijelazi između stanja postaju nepredvidivi jer ovise o odgovoru okruženja, dok se sustav nagrađivanja rafinira u takozvane procesne nagrade koje modelu daju bržu i precizniju povratnu informaciju.

„Ova proširenja ključna su kako bi algoritmi učenja potkrepljivanjem mogli trenirati sofisticirane agente sposobne za složeno, višekoračno zaključivanje i interakciju u dinamičnim okruženjima”, pišu istraživači.

Dva modula: Tool i ToolEnv

Na toj definiciji nastao je Agent-R1, platforma koja klasični jednokratni RL pretvara u višekoračni proces. Ključ su dva modula:

• Tool – izvršava konkretnu radnju (npr. API poziv) i vraća sirove podatke. • ToolEnv – tumači povratne podatke, ažurira stanje agenta i izračunava nagradu.

Drugim riječima, Tool javlja „što se dogodilo”, a ToolEnv određuje „što to znači” za zadatak.

Testovi na višestrukom dohvaćanju informacija

Agent-R1 je ispitan na višestrukom odgovaranju na pitanja (multi-hop QA) koje zahtijeva pronalaženje informacija u više dokumenata i niz odluka. Model Qwen2.5-3B-Instruct treniran je na skupovima HotpotQA i 2WikiMultihopQA, a potom provjeren i na izvan-domen­skoj Musique zbirci.

RL agenti trenirani kroz Agent-R1 nadmašili su dvije osnovne strategije: jednostavan RAG pristup jednokratnog dohvaćanja i izvorno pozivanje alata bez posebnog RL-treninga. Najbolje rezultate dao je algoritam GRPO, poznat iz drugih naprednih LLM sustava.

„Ovi rezultati snažno potvrđuju učinkovitost Agent-R1 u treniranju moćnih LLM agenata putem RL-a od početka do kraja, uz konzistentna i značajna poboljšanja nad osnovnim pristupima”, navode autori.

Potencijal za poslovne primjene

Okvir bi u poslovnom svijetu mogao otvoriti put agentima koji rješavaju složene probleme u stvarnim, neuređenim okruženjima, gdje se informacije i ciljevi mijenjaju iz razgovora u razgovor.

„Nadamo se da će Agent-R1 postati temelj za buduća istraživanja skalabilnog i jedinstvenog RL-treninga agentičkih LLM-ova”, zaključuju znanstvenici.

#hotpotqa#agent-r1#sveuciliste-kine#markovljev-proces-odlucivanja#grpo
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Iznenadni odlazak Kevina Weila iz OpenAI-ja
Kevin Weil, tvorac brojnih digitalnih proizvoda i bivši šef proizvoda u Instagramu, nakon kratkog angažmana napušta OpenAI te ostavlja otvorenim pitanje budućnosti projekta Prism.

min čitanja

Više

Tehnologija

Tinder uvodi oznaku „stvarne osobe” uz pomoć Altmanove tehnologije skeniranja šarenice
Sam Altman širi svoju tehnologiju provjere čovječnosti: nakon japanske probe, Tinder globalno uvodi značke za profile čiji su vlasnici pristali na skeniranje šarenice.
TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Papa Lav XIV. u Kamerunu kritizirao utrku za kobaltom i upozorio na opasnosti umjetne inteligencije
Tijekom posjeta Kamerunu Papa Lav XIV. osudio je eksploataciju afričkih minerala za digitalnu tehnologiju i upozorio na opasnosti umjetne inteligencije za društvenu koheziju.

min čitanja

Više

Tehnologija

Zašto astronauti ne mogu „vidjeti” svoju brzinu kao vozači na Zemlji
Na Zemlji brzinu osjećamo okom i očitavamo na brzinomjeru, no u bestežinskom prostoru astronautima nedostaju te referencije pa moraju posegnuti za sasvim drukčijim metodama.

min čitanja

Više

Tehnologija

Novo precizno mjerenje Hubbleove konstante još više produbilo kozmičku zagonetku
Najnovije, najpreciznije mjerenje brzine širenja svemira nije riješilo nego produbilo tzv. Hubbleovu napetost, sugerirajući moguće nedostatke u standardnom kozmološkom modelu.

min čitanja

Više

Tehnologija

Unlock Rab slavi petu obljetnicu i dovodi IT elitu na otok
Konferencija od 27. do 29. svibnja okuplja 350 sudionika, vodeće IT tvrtke i akademsku zajednicu na Rabu.

min čitanja

Više

Tehnologija

Edukacija u Splitu približila e-Građane i digitalnu pristupačnost
Radionica u Splitu pokazala kako portal e-Građani olakšava administrativne postupke i potiče digitalnu pristupačnost.

min čitanja

Više

Tehnologija

Besplatne STEM radionice bez barijera otvaraju vrata djeci diljem Slavonije
Udruga Vukovarski leptirići poziva djecu na besplatne STEM radionice u travnju 2026., financirane iz Europskog socijalnog fonda Plus i prilagođene i djeci s poteškoćama u razvoju.

min čitanja

Više

Tehnologija

Prometne kamere više ne bljeskaju: MUP objašnjava kako sada snimaju prekršaje
Infracrvene kamere bilježe prekršaje bez vidljivog blica, pa vozači više ne mogu zamijetiti trenutak snimanja.

min čitanja

Više

Tehnologija

Kineska posada Shenzhou-21 produžuje boravak: dodatni mjesec dana za testiranje izdržljivosti
Tri kineska astronauta na misiji Shenzhou-21 ostat će u orbiti dodatnih 30 dana kako bi testirali sustave za dugotrajni boravak u svemiru.

min čitanja

Više

Najčitanije

Politika

Kiriginu novi mandat na čelu opatijskog SDP-a
Opatijski SDP jednoglasno je obnovio povjerenje Fernandu Kiriginu, potvrdivši ga za predsjednika na još četiri godine.

min čitanja

Više

Nogomet

Autor autorsko pravo: HNK Hajduk Split - The logo may be obtained from HNK Hajduk Split., Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=693556

Rano slavlje Dabre srušilo Hajduk u Koprivnici
Slaven Belupo je pogotkom Ante Dabre u 4. minuti svladao Hajduk 1:0 i učvrstio peto mjesto na ljestvici.

min čitanja

Više

Vijesti

Tijelo muškarca izvučeno iz Kupe, slovenska policija uputila dojavu
Nakon dojave slovenske policije, HGSS je kod Gusta Laza iz rijeke Kupe izvukao tijelo nepoznatog muškarca; slijedi obdukcija i daljnja istraga.

min čitanja

Više

Vijesti

Urološka klinika KBC-a Rijeka seli sa Sušaka zbog energetske obnove
Privremena selidba počinje 20. travnja; pacijenti se upućuju na staru zgradu ginekologije na lokalitetu Rijeka.

min čitanja

Više

Vijesti

Ranokršćanska crkva sv. Petra otkrivena kraj Poreča
Na lokalitetu Pudarica kraj Poreča otkrivena je očuvana crkva iz 6. stoljeća, s vrijednim nalazima prokoneškog mramora i tragovima antičkoga gospodarstva, a grad najavljuje uređenje nalazišta za posjetitelje.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Tehnologija

Iznenadni odlazak Kevina Weila iz OpenAI-ja

Vijesti

Cigle s krana sručile se na Jelačićev trg, prolaznici prošli bez ozljeda

Sport

Sassuolo srušio Como, asistencija Smolčića nedovoljna za bijeg od novog poraza

Vijesti

Turudić demantira masovnu istragu: fokus je na skijaškom i judo savezu

Lifestyle

Proljetno sunce napunilo Korzo: 21 °C i modna dama u smeđem privukli poglede

Tehnologija

Tinder uvodi oznaku „stvarne osobe” uz pomoć Altmanove tehnologije skeniranja šarenice

Vijesti

Kvar na Jadranskoj magistrali: auto se zadimio, putnici neozlijeđeni

Vijesti

Crvena voda Jurice Pavičića u utrci za britanski Dagger

Sport

Đakovčani pod pritiskom pred gostovanje kod Uljanika

Sport

Dilj i Jedinstvo u izravnom okršaju za ostanak

Sport

Rijeka visoko poražena u Zagrebu, ali mirna ulazi u doigravanje