CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

25. rujna 2025, 08:22

Novi RL pristup unosi paralelno razmišljanje u velike jezične modele

Framework Parallel-R1 modelima omogućuje grananje misaonih tokova, čime poboljšava točnost rješenja bez potrebe za većim modelima.

min. čitanja

XFacebookWhatsApp

Istraživači iz Tencent AI Lab Seattle i Sveučilišta Maryland, College Park predstavili su Parallel-R1, tehniku potkrijepljenu učenjem kroz potkrepljenje (reinforcement learning, RL) koja velikim jezičnim modelima (LLM-ovima) omogućuje da u vrijeme izvođenja zadatka generiraju više paralelnih tokova zaključivanja i tako dolaze do točnijih odgovora.

„Riječ je o prvom RL okviru koji omogućuje paralelno razmišljanje kod složenih zadataka iz stvarnog svijeta”, istaknuli su autori rada.

Zašto paralelno razmišljanje?

• Paradigma grana-i-glasa (best of N) ili naprednije metode poput Monte Carlo Tree Searcha i Tree of Thoughtsa dosad su tražile vanjske sustave i ručno definirana pravila. • Nadogradnja putem nadziranog finog ugađanja često ovisi o rijetkim, skupo označenim podacima. • RL obećava skalabilnost, ali pati od „cold-start” problema i složenog dizajna nagrada.

Kako radi Parallel-R1

  1. Dvostupanjski format razmišljanja
    – Exploration: model po pojavi oznake <Parallel> otvara više blokova <Path> s različitim misaonim tokovima.
    – Summary: iz nalaza formira sažetak <Summary> i nastavlja glavnu nit.

  2. Trodijelni proces učenja
    • Cold-Start: model se fino ugađa na oko 7 000 AI-generiranih primjera paralelnog razmišljanja iz skupa GSM8K, kako bi svladao sam format.
    • RL na lakšoj matematici: uvodi se dvojak sustav nagrađivanja – točnost rješenja i pravilna uporaba strukture.
    • RL na složenijoj matematici: sposobnost se proširuje na zahtjevnije zadatke.

  3. Alternirajuća nagrada
    Naizmjenično nagrađivanje točnog odgovora i dosljednog paralelnog formata pokazalo se najboljim kompromisom između performansi i brzine.

Rezultati

Model Qwen-3-4B-Base treniran Parallel-R1 metodom nadmašio je sve usporedne inačice na standardnim matematičkim benchmark-ovima poput AIME, AMC i MATH. Autori tvrde da se time „otključava veća snaga zaključivanja bez skupe ekspanzije modela”, što je posebno privlačno za poduzeća koja žele jaču analitičku inteligenciju, ali ne i dodatne troškove treniranja golemih mreža.

Šira slika

Google je nedavno pripisao uspjeh svog modela Gemini Deep Think na Međunarodnoj matematičkoj olimpijadi upravo sposobnosti razmatranja više misaonih tokova. Parallel-R1 donosi sličnu strategiju u otvoreniji i skalabilniji RL okvir, pa bi se „paralelno razmišljanje” moglo ubrzo nametnuti kao standardni pristup za složene zadatke logičkog zaključivanja.

#google#medjunarodna-matematicka-olimpijada#tencent-ai-lab#sveuciliste-maryland#gsm8k

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Chrome uskoro prekida podršku za starije Macove, Apple upozorava na rizike
Google od verzije 151 ukida ažuriranja Chromea za macOS 12 Monterey i starije sustave, dok Apple upozorava na rizike privatnosti i digitalno otiskivanje.

min čitanja

Više

Tehnologija

Internet kognicije: Outshift predlaže kako da AI agenti konačno surađuju, a ne samo razmjenjuju poruke
Outshift, inovacijski ogranak Cisca, nudi koncept „Interneta kognicije” kako bi AI agenti dijelili namjeru i kontekst, a ne samo podatke.

min čitanja

Više

Tehnologija

Yann LeCun kreće u novu AI avanturu: „Svi su se navukli na LLM-ove, a to nije put do istinske inteligencije”
Nakon odlaska iz Mete, Yann LeCun najavljuje startup koji će, kaže, zaobići ograničenja velikih jezičnih modela i ponuditi drukčiji put prema umjetnoj općoj inteligenciji.

min čitanja

Više

Tehnologija

Maturanti uronili u laboratorije: Tehnički fakultet Rijeka otvara vrata budućim STEM stručnjacima
Dvodnevni DOL2026 okupio je 450 maturanata iz 13 škola, predstavio projekt vrijedan 840 tisuća eura i otvorio vrata najmodernijim STEM laboratorijima u Rijeci.

min čitanja

Više

Tehnologija

AI plišani dinosaur izložio 50 000 dječjih razgovora
Sigurnosni stručnjaci otkrili su da je web-portal igračke Bondu omogućio pristup desecima tisuća transkripata dječjih razgovora, otvarajući pitanja o privatnosti i zaštiti podataka u AI igračkama.

min čitanja

Više

Tehnologija

Hakeri napali Clawdbot: gotovo 8.000 pokušaja prodora u 48 sati
Propusti u Clawdbotu u 48 sati pretvorili su se u tisuće napada, a infostealeri RedLine, Lumma i Vidar već ciljaju nezaštićene instance.

min čitanja

Više

Tehnologija

Šef Nvidije Jensen Huang u opuštenom obilasku Kine
Prizori izvršnog direktora Nvidije kako biciklira Šangajem i ruča u skromnom restoranu u Shenzhenu oduševili su kineske prolaznike i društvene mreže.

min čitanja

Više

Tehnologija

Nizozemski nadzornik za zaštitu podataka zvoni na uzbunu zbog gubitka tehnološkog suvereniteta
AP traži hitnu strategiju i nizozemski državni oblak nakon najave američkog preuzimanja DigiD-a.

min čitanja

Više

Tehnologija

Kineski Gestala želi spojiti mozak i računalo ultrazvukom, bez ikakvih implantata
Startup iz Chengdua najavljuje ultrazvučno sučelje mozak-računalo za ublažavanje kronične boli i druge neurološke poremećaje, bez invazivnih implantata.

min čitanja

Više

Tehnologija

SeaArt otvara SeaVerse, platformu koja spaja generativnu umjetnu inteligenciju i zajednicu
Japanski SeaArt lansirao je SeaVerse, platformu koja korisnicima nudi stvaranje, dijeljenje i monetizaciju AI-generiranih radova, oslanjajući se na već uspješan model zajednice SeaArt AI.

min čitanja

Više

Najčitanije

Politika

Trump tvrdi da je uvjerio Putina na tjedan dana primirja zbog hladnoće
Trump kaže da je telefonski uvjerio Putina na tjedan dana obustave napada, dok u Zaporižju ruski dronovi odnose nove žrtve.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524By Пресс-служба Президента РФ - https://www.thetimes.com/world/europe/article/emmanuel-macron-rebrands-himself-as-anti-russia-hawk-to-german-fury-dlplhbbzs (indirectly, this is identical in framing, slightly different color, higher res), CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=155844791

min čitanja

Više

Najnovije

Lifestyle

Springsteen objavio žestoku protestnu pjesmu „Streets of Minneapolis”

Tehnologija

Internet kognicije: Outshift predlaže kako da AI agenti konačno surađuju, a ne samo razmjenjuju poruke

Politika

Zastoj u Senatu prijeti djelomičnom blokadom vlade SAD-a

Sport

Crvi u kaši, plastika u bolonjezu: hrvatske rukometaše na Euru dočekala šokantna prehrana

Politika

Crvene kape iglom protiv ICE-a

Vijesti

Brzi odlazak: Kevin Couch dao ostavku samo dva tjedna nakon imenovanja u Trump-Kennedy Centeru

Politika

Kallas optužila Moskvu da zimu pretvara u oružje, EU šalje 500 generatora Ukrajini

Politika

Poziv na savez srednjih sila protiv Trumpove „nove igre”

Lifestyle

Nuša u novoj sezoni Gospodina Savršenog privlači pozornost: „Volim se raspravljati, pa zašto ne bih na tome zaradila?”

Vijesti

Bjelovarčanin pogodio „ništa” i osvojio 80 tisuća eura

Vijesti

Gust dim nad Pazinom zbog ilegalnog spaljivanja plastike