CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

28. studenog 2025, 20:18

Novi okvir Agent-R1 mijenja način treniranja jezičnih modela

Kineski istraživači osmislili su Agent-R1, okvir koji proširuje tradicionalno učenje potkrepljivanjem i omogućuje velikim jezičnim modelima rješavanje složenih višekoračnih zadataka u promjenjivim okruženjima.

min. čitanja

XFacebookWhatsApp

Istraživači sa Sveučilišta za znanost i tehnologiju Kine predstavili su Agent-R1, novi okvir za učenje potkrepljivanjem (RL) koji velikim jezičnim modelima (LLM) omogućuje snalaženje u složenim, višekoračnim zadaćama i interakcijama s dinamičnim okruženjima.

Dosadašnje RL metode uspješno treniraju modele za jasno definirane probleme poput matematike ili programiranja, gdje je nagrada jednostavna: odgovor je točan ili pogrešan. Međutim, takav pristup posustaje kada agent mora voditi višestruke razgovore, pozivati alate ili donositi odluke uz nepotpune informacije.

Prošireni MDP za „neurednu” stvarnost

Autori su zato proširili klasični Markovljev proces odlučivanja (MDP). Uz trenutačno stanje model sada pamti čitavu povijest interakcija, a niz generiranih tokena može pokrenuti radnju poput API poziva. Prijelazi između stanja postaju nepredvidivi jer ovise o odgovoru okruženja, dok se sustav nagrađivanja rafinira u takozvane procesne nagrade koje modelu daju bržu i precizniju povratnu informaciju.

„Ova proširenja ključna su kako bi algoritmi učenja potkrepljivanjem mogli trenirati sofisticirane agente sposobne za složeno, višekoračno zaključivanje i interakciju u dinamičnim okruženjima”, pišu istraživači.

Dva modula: Tool i ToolEnv

Na toj definiciji nastao je Agent-R1, platforma koja klasični jednokratni RL pretvara u višekoračni proces. Ključ su dva modula:

• Tool – izvršava konkretnu radnju (npr. API poziv) i vraća sirove podatke. • ToolEnv – tumači povratne podatke, ažurira stanje agenta i izračunava nagradu.

Drugim riječima, Tool javlja „što se dogodilo”, a ToolEnv određuje „što to znači” za zadatak.

Testovi na višestrukom dohvaćanju informacija

Agent-R1 je ispitan na višestrukom odgovaranju na pitanja (multi-hop QA) koje zahtijeva pronalaženje informacija u više dokumenata i niz odluka. Model Qwen2.5-3B-Instruct treniran je na skupovima HotpotQA i 2WikiMultihopQA, a potom provjeren i na izvan-domen­skoj Musique zbirci.

RL agenti trenirani kroz Agent-R1 nadmašili su dvije osnovne strategije: jednostavan RAG pristup jednokratnog dohvaćanja i izvorno pozivanje alata bez posebnog RL-treninga. Najbolje rezultate dao je algoritam GRPO, poznat iz drugih naprednih LLM sustava.

„Ovi rezultati snažno potvrđuju učinkovitost Agent-R1 u treniranju moćnih LLM agenata putem RL-a od početka do kraja, uz konzistentna i značajna poboljšanja nad osnovnim pristupima”, navode autori.

Potencijal za poslovne primjene

Okvir bi u poslovnom svijetu mogao otvoriti put agentima koji rješavaju složene probleme u stvarnim, neuređenim okruženjima, gdje se informacije i ciljevi mijenjaju iz razgovora u razgovor.

„Nadamo se da će Agent-R1 postati temelj za buduća istraživanja skalabilnog i jedinstvenog RL-treninga agentičkih LLM-ova”, zaključuju znanstvenici.

#hotpotqa#agent-r1#sveuciliste-kine#markovljev-proces-odlucivanja#grpo

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Tvrtke žure uskladiti AI agente: orkestracija postaje pitanje opstanka
Orkestracija komunikacije među AI agentima postaje presudna za sigurnost i učinkovitost. Stručnjaci upozoravaju da će tvrtke koje ne usklade agente riskirati nesporazume, halucinacije i gubitak podataka.

min čitanja

Više

Tehnologija

Musk odbacuje optužbe: „Grok nije stvarao gole maloljetnike”
Elon Musk tvrdi da AI chatbot Grok nije generirao nezakonite slike maloljetnika, dok europski i britanski regulatori najavljuju istrage zbog sumnji u duboke lažne pornografske sadržaje.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Riječki inovator odbio londonski doktorat kako bi u Hrvatskoj razvijao radiologiju
Diego Ivanović odbio je doktorat u Londonu i s Leonardom Martinisom pokrenuo Medusa Technologies, startup koji razvija AI za radiološke snimke.

min čitanja

Više

Tehnologija

AI alat Sybil otkrio propust klijenta i zbunio vlastite tvorce
Neočekivano otkriće AI alata Sybil označilo novu fazu u kibernetičkoj sigurnosti.

min čitanja

Više

Tehnologija

Je li vrijedno riskirati? Što treba znati prije uvoza kineskog pametnog telefona
Kineski pametni telefoni često nude vrhunske performanse po nižoj cijeni, no uvoz izvan službenih kanala nosi niz financijskih i servisnih rizika.

min čitanja

Više

Tehnologija

Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Poljska tvrdi da je ruski kibernetički napad umalo ugasio njezinu elektroenergetsku mrežu
Ministar digitalizacije Krzysztof Gawkowski otkrio da je Poljska tijekom blagdana odbila najveći kibernetički napad na svoj energetski sustav, za koji optužuje Rusiju.

min čitanja

Više

Tehnologija

Izraelski Novee izlazi iz sjene s 51,5 milijuna dolara za borbu protiv AI kibernapada
Startup iz Tel Aviva razvija vlastitog „AI hakera” za kontinuirano penetracijsko testiranje i osigurao više od 50 milijuna dolara početnih ulaganja.

min čitanja

Više

Tehnologija

Provokativna kineska aplikacija „Jesi li mrtav?” osvaja samce, mijenja ime i uvodi pretplatu
Sigurnosna aplikacija koja korisnike pita „Jesi li mrtav?” stekla je popularnost među kineskim samcima, a autori najavljuju pretplatu i novo ime Demumu.

min čitanja

Više

Tehnologija

TikTok Shop pod vatrom zbog prikaza nakita s nacističkom simbolikom
Pretraga za „hip hop nakitom” na TikTok Shopu dovela je do preporuka nakita s nacističkim simbolima, otvarajući nova pitanja o odgovornosti platforme.

min čitanja

Više

Tehnologija

Brian Cox rasprodao Lisinski devet mjeseci prije nastupa, dodan i drugi termin
Popularni fizičar ponovno puni Lisinski: zbog velike potražnje za showom „Emergence” otvoren je drugi datum u rujnu 2026.

min čitanja

Više

Najčitanije

Vijesti

Nesreća u Ludbregu blokirala križanje DC2 i ceste prema Selniku
HAK upozorava na potpunu obustavu prometa u Ludbregu, pješaka na A1 i skliske kolnike diljem zemlje.

min čitanja

Više

Nogomet

By The logo is from the following website: https://www.realmadrid.com/, Fair use, https://en.wikipedia.org/w/index.php?curid=35239667

Albacete šokirao Real Madrid i izbacio ga iz Kupa kralja
Drugoligaš Albacete izbacio je Real Madrid iz Kupa kralja dramatičnom pobjedom 3:2, produbivši krizu „Kraljevskog kluba” nakon odlaska trenera Xabija Alonsa.
DONOSTIA KULTURA, CC BY-SA 2.0 <https://creativecommons.org/licenses/by-sa/2.0>, via Wikimedia Commons

min čitanja

Više

Nogomet

Maneov pogodak u 78. minuti odveo Senegal u finale Afričkog kupa nacija
Senegal je zahvaljujući golu Sadija Manea u Tangieru pobijedio Egipat 1-0 i izborio novo finale Afričkog kupa nacija.

min čitanja

Više

Politika

SAD privremeno zaustavlja useljeničke vize za pet zemalja zapadnog Balkana
Washington od 21. siječnja zaustavlja obradu zahtjeva za useljeničke vize građana BiH, Crne Gore, Albanije, Kosova i Sjeverne Makedonije, uz objašnjenje da želi smanjiti mogući teret na američki sustav socijalne skrbi.

min čitanja

Više

Politika

Druga faza Trumpovog plana za Gazu: demilitarizacija Hamasa i tehnokratska vlada
SAD potvrđuje ulazak mirovnog plana u novu etapu; Hamas u Kairu prihvatio tehnokratsku vladu, no razoružanje i sigurnosni aranžmani ostaju najveći izazovi.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Najnovije

Politika

Ljubenko upozorava na „sistemsku pogrešku” državnog portala e-Savjetovanja

Lifestyle

BTS najavio povratak: svjetska turneja kreće u travnju, u Europi četiri metropole

Vijesti

Rijeka diže naknade za novorođenčad, u proračunu gotovo 500.000 eura

Politika

Krv na ulicama Irana: aktivisti tvrde da je ubijeno najmanje 2.400 prosvjednika

Lifestyle

Štampar upozorava: neki biljni čajevi mogu dugoročno opteretiti jetru

Vijesti

Krk bi zbog kašnjenja mogao izgubiti potporu za obnovu doma u Korniću

Sport

Dinamo slomio Kvarner u trećoj četvrtini

Lifestyle

Hrvatska vojska „zapjevala” s Taylor Swift: viralni video pilota oduševio pratitelje

Politika

Iranski kler i dalje čvrst unatoč valu prosvjeda

Vijesti

Sibirska anticiklona prijeti: sredinom siječnja moguć polarni udar

Politika

Jakovina: Trumpova retorika prosvjednicima u Iranu daje samo moralni vjetar u leđa