CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

25. rujna 2025, 08:22

Novi RL pristup unosi paralelno razmišljanje u velike jezične modele

Framework Parallel-R1 modelima omogućuje grananje misaonih tokova, čime poboljšava točnost rješenja bez potrebe za većim modelima.

min. čitanja

XFacebookWhatsApp

Istraživači iz Tencent AI Lab Seattle i Sveučilišta Maryland, College Park predstavili su Parallel-R1, tehniku potkrijepljenu učenjem kroz potkrepljenje (reinforcement learning, RL) koja velikim jezičnim modelima (LLM-ovima) omogućuje da u vrijeme izvođenja zadatka generiraju više paralelnih tokova zaključivanja i tako dolaze do točnijih odgovora.

„Riječ je o prvom RL okviru koji omogućuje paralelno razmišljanje kod složenih zadataka iz stvarnog svijeta”, istaknuli su autori rada.

Zašto paralelno razmišljanje?

• Paradigma grana-i-glasa (best of N) ili naprednije metode poput Monte Carlo Tree Searcha i Tree of Thoughtsa dosad su tražile vanjske sustave i ručno definirana pravila. • Nadogradnja putem nadziranog finog ugađanja često ovisi o rijetkim, skupo označenim podacima. • RL obećava skalabilnost, ali pati od „cold-start” problema i složenog dizajna nagrada.

Kako radi Parallel-R1

  1. Dvostupanjski format razmišljanja
    – Exploration: model po pojavi oznake <Parallel> otvara više blokova <Path> s različitim misaonim tokovima.
    – Summary: iz nalaza formira sažetak <Summary> i nastavlja glavnu nit.

  2. Trodijelni proces učenja
    • Cold-Start: model se fino ugađa na oko 7 000 AI-generiranih primjera paralelnog razmišljanja iz skupa GSM8K, kako bi svladao sam format.
    • RL na lakšoj matematici: uvodi se dvojak sustav nagrađivanja – točnost rješenja i pravilna uporaba strukture.
    • RL na složenijoj matematici: sposobnost se proširuje na zahtjevnije zadatke.

  3. Alternirajuća nagrada
    Naizmjenično nagrađivanje točnog odgovora i dosljednog paralelnog formata pokazalo se najboljim kompromisom između performansi i brzine.

Rezultati

Model Qwen-3-4B-Base treniran Parallel-R1 metodom nadmašio je sve usporedne inačice na standardnim matematičkim benchmark-ovima poput AIME, AMC i MATH. Autori tvrde da se time „otključava veća snaga zaključivanja bez skupe ekspanzije modela”, što je posebno privlačno za poduzeća koja žele jaču analitičku inteligenciju, ali ne i dodatne troškove treniranja golemih mreža.

Šira slika

Google je nedavno pripisao uspjeh svog modela Gemini Deep Think na Međunarodnoj matematičkoj olimpijadi upravo sposobnosti razmatranja više misaonih tokova. Parallel-R1 donosi sličnu strategiju u otvoreniji i skalabilniji RL okvir, pa bi se „paralelno razmišljanje” moglo ubrzo nametnuti kao standardni pristup za složene zadatke logičkog zaključivanja.

#google#medjunarodna-matematicka-olimpijada#tencent-ai-lab#sveuciliste-maryland#gsm8k

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Google Mapama stiže „Ask Maps”: razgovorni AI planira rute i vodi kroz 3D navigaciju
Razgovorni alat „Ask Maps” od danas korisnicima u SAD-u i Indiji nudi personalizirano planiranje ruta, dok Immersive Navigation donosi 3D prikaz kretanja u Google Kartama.

min čitanja

Više

Tehnologija

Googleov tim razvija AI agente koji spontano surađuju bez tvrdokodiranih pravila
Paradigms of Intelligence pokazuje da treniranje AI agenata protiv raznovrsnih protivnika stvara fleksibilne, suradljive sustave prikladne za složene poslovne primjene.

min čitanja

Više

Tehnologija

Google predstavlja Gemini Embedding 2: jedinstveni vektori za sve medijske sadržaje
Google je pustio u javni pretpregled multimodalni model Gemini Embedding 2 koji spaja tekst, slike, video i zvuk u isti vektorski prostor, ubrzava obradu do 70 % i smanjuje troškove za poduzeća.

min čitanja

Više

Tehnologija

Autor Government of Ukraine - ДСТУ 4512:2006 — Державний прапор України. Загальні технічні умови; Section 1, Article 20 of the Constitution of Ukraine, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=421234Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Ukrajina otvara bojišne podatke za treniranje savezničkih AI sustava
Ministar obrane Mihajlo Fedorov kaže da Kijev partnerima stavlja na raspolaganje milijune bojišnih snimki kako bi ubrzali razvoj autonomnih sustava protiv Rusije.
President Of Ukraine from Україна, CC0, via Wikimedia Commons

min čitanja

Više

Tehnologija

Brzi rast podatkovnih centara prijeti europskoj energetskoj mreži
Europski skok u umjetnoj inteligenciji otvara novu energetsku bitku: mogu li podatkovni centri rasti, a mreža ostati zelena?

min čitanja

Više

Tehnologija

Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Moskovljani se vraćaju voki-tokijima dok vlasti guše mobilni internet
Nepojasnjeni prekidi mobilnog interneta u Moskvi i St. Petersburgu prisilili su građane da komuniciraju voki-tokijima, dok vlasti guraju državnu „super-aplikaciju” Max.

min čitanja

Više

Tehnologija

Riječki umjetnik Andrej Zbašnik predstavio dijaloški eksperiment s umjetnom inteligencijom
U Galeriji OK predstavljena je knjiga „Dijalozi o životu i umjetnosti“, nastala u dijalogu riječkog umjetnika Andreja Zbašnika i umjetne inteligencije ChatGPT.

min čitanja

Više

Tehnologija

Platforma InferenceSense pretvara mrtvo vrijeme GPU-ova u prihod
Startup FriendliAI lansirao je InferenceSense, sustav koji automatski preusmjerava neiskorištene GPU-ove na plaćene AI inferencije i prihod dijeli s operaterom.

min čitanja

Više

Tehnologija

Opatijska TZ nudi iznajmljivačima bržu prijavu gostiju kroz aplikaciju mVisitor
TZ Opatije predstavila aplikaciju mVisitor koja vlasnicima apartmana omogućuje brzu i besplatnu prijavu gostiju u sustav eVisitor.

min čitanja

Više

Tehnologija

Zagreb razvija prometni portal vrijedan tri milijuna eura
Digitalna platforma omogućit će Zagrepčanima praćenje prometa uživo, prijavu problema i pristup e-uslugama, dok će gradskim službama donijeti preciznije analize i planiranje.
Zagreb is OURS, CC BY 4.0 <https://creativecommons.org/licenses/by/4.0>, via Wikimedia Commons

min čitanja

Više

Najčitanije

Biznis

Iva Radić odstupila s čela Journal Media: prijavila sumnje u izvlačenje novca
Osnivačica portala Journal.hr podnijela je ostavku na mjesto direktorice zbog sumnji u višegodišnje nezakonite radnje nad financijama tvrtke, dok je poslovanje portala privremeno zaustavljeno.

min čitanja

Više

Najnovije

Vijesti

Slavonsko selo i senzorno igralište obogatili osječki Zoološki vrt

Vijesti

Splitski taksisti tuže grad: brzopotezna podjela 60 koncesija izazvala pobunu

Lifestyle

Reper Nered nakon 800 kilometara Caminom planira novo hodočašće

Lifestyle

Blues diva Kyla Brox večeras u Puli, dio prihoda za djecu

Vijesti

Vinkovci ugostili fra Ivicu Perića: „Hrvatsko srce školuje tisuće djece u Africi”

Sport

Halilhodžić preuzeo Nantes: „Dugujem mu, ovo mi je posljednji posao”

Politika

Varšava uvodi zabranu noćne prodaje alkohola

Sport

Strukan sudi Dinamu, Pavlešić derbi na Poljudu

Biznis

Churchilla i Austena mijenjaju vidre i ježevi na novim britanskim novčanicama

Lifestyle

Plavi ožujak poziva na pregled: akcija protiv raka debelog crijeva u 13 gradova

Vijesti

Kutleša o naslijeđu kardinala Kuharića: „Ako budemo narod savjesti, bit ćemo narod nade”