Tehnologija

25. rujna 2025, 08:22

Novi RL pristup unosi paralelno razmišljanje u velike jezične modele

Framework Parallel-R1 modelima omogućuje grananje misaonih tokova, čime poboljšava točnost rješenja bez potrebe za većim modelima.

min. čitanja

Istraživači iz Tencent AI Lab Seattle i Sveučilišta Maryland, College Park predstavili su Parallel-R1, tehniku potkrijepljenu učenjem kroz potkrepljenje (reinforcement learning, RL) koja velikim jezičnim modelima (LLM-ovima) omogućuje da u vrijeme izvođenja zadatka generiraju više paralelnih tokova zaključivanja i tako dolaze do točnijih odgovora.

„Riječ je o prvom RL okviru koji omogućuje paralelno razmišljanje kod složenih zadataka iz stvarnog svijeta”, istaknuli su autori rada.

Zašto paralelno razmišljanje?

• Paradigma grana-i-glasa (best of N) ili naprednije metode poput Monte Carlo Tree Searcha i Tree of Thoughtsa dosad su tražile vanjske sustave i ručno definirana pravila. • Nadogradnja putem nadziranog finog ugađanja često ovisi o rijetkim, skupo označenim podacima. • RL obećava skalabilnost, ali pati od „cold-start” problema i složenog dizajna nagrada.

Kako radi Parallel-R1

Dvostupanjski format razmišljanja
– Exploration: model po pojavi oznake <Parallel> otvara više blokova <Path> s različitim misaonim tokovima.
– Summary: iz nalaza formira sažetak <Summary> i nastavlja glavnu nit.
Trodijelni proces učenja
• Cold-Start: model se fino ugađa na oko 7 000 AI-generiranih primjera paralelnog razmišljanja iz skupa GSM8K, kako bi svladao sam format.
• RL na lakšoj matematici: uvodi se dvojak sustav nagrađivanja – točnost rješenja i pravilna uporaba strukture.
• RL na složenijoj matematici: sposobnost se proširuje na zahtjevnije zadatke.
Alternirajuća nagrada
Naizmjenično nagrađivanje točnog odgovora i dosljednog paralelnog formata pokazalo se najboljim kompromisom između performansi i brzine.

Rezultati

Model Qwen-3-4B-Base treniran Parallel-R1 metodom nadmašio je sve usporedne inačice na standardnim matematičkim benchmark-ovima poput AIME, AMC i MATH. Autori tvrde da se time „otključava veća snaga zaključivanja bez skupe ekspanzije modela”, što je posebno privlačno za poduzeća koja žele jaču analitičku inteligenciju, ali ne i dodatne troškove treniranja golemih mreža.

Šira slika

Google je nedavno pripisao uspjeh svog modela Gemini Deep Think na Međunarodnoj matematičkoj olimpijadi upravo sposobnosti razmatranja više misaonih tokova. Parallel-R1 donosi sličnu strategiju u otvoreniji i skalabilniji RL okvir, pa bi se „paralelno razmišljanje” moglo ubrzo nametnuti kao standardni pristup za složene zadatke logičkog zaključivanja.

#google #medjunarodna-matematicka-olimpijada #tencent-ai-lab #sveuciliste-maryland #gsm8k

Slično

Tehnologija

Apple traži povlačenje Zakona o digitalnim tržištima EU-a

Američki tehnološki div tvrdi da EU-ov Zakon o digitalnim tržištima krši temeljna prava i stvara sigurnosne rizike, dok Bruxelles poručuje da je interoperabilnost obvezna, a ne stvar izbora.

min čitanja

Više

Tehnologija

Meta predstavila Gaia2: novi test izdržljivosti AI agenata u simuliranom „stvarnom” okruženju

Otvorena platforma ARE i benchmark Gaia2 nude realističniji, stresniji i vremenski uvjetovan test sposobnosti umjetnih agenata u odnosu na dosadašnje statične provjere.

min čitanja

Više

Tehnologija

Meituan lansirao LongCat-Flash-Thinking: besplatni model od 560 milijardi parametara izaziva GPT-5

Kineski gigant objavio novu verziju otvorenog LLM-a fokusiranu na zaključivanje, uz besplatan API i permisivnu licencu.

min čitanja

Više

Tehnologija

Od zebri na farmi do „pijanih” šišmiša: dodijeljene ovogodišnje Ig Nobel nagrade

Japanske krave u zebrinim prugama, šišmiši alkoholizirani fermentiranim voćem i čašica votke koja poboljšava strani izgovor – najduhovitija znanstvena otkrića godine nagrađena su Ig Nobelom.

min čitanja

Više

Tehnologija

Zuckerberg dovodi još jedno ime iz OpenAI: Yang Song postaje ključni istraživač u Meta Superintelligence Labsu

Yang Song, dosadašnji OpenAI-jev stručnjak za velike modele, priključio se Meta Superintelligence Labsu, pridružujući se timu koji predvodi Shengjia Zhao. Transfer dolazi usred intenzivnog lova na AI talente, ali i prvih odlazaka iz novoosnovanog laboratorija.

min čitanja

Više

Tehnologija

Berlinski Vay od prosinca uvodi iznajmljivanje auta s vozačem na daljinu

Njemački start-up Vay od 1. prosinca pokreće uslugu iznajmljivanja električnih vozila koje do korisnika dovoze profesionalni vozači na daljinu, uz ambiciju da smanji potrebu za privatnim automobilima.

min čitanja

Više

Tehnologija

Qualcomm predstavio Snapdragon X2: novi udar na Intel i AMD s jačim performansama i dužim trajanjem baterije

Snapdragon X2 donosi 18 jezgri, snažniju grafiku i 80 TOPS AI-obradu, a Qualcomm tvrdi da će Windows prijenosnici dobiti višednevnu bateriju i performanse koje prestižu Intel.

min čitanja

Više

Tehnologija

Buzetski osnovci dobili najnovije LEGO setove: 8.500 eura donacija pretvoreno u 12 STEM kompleta

Osnovna škola „Vazmoslav Gržalja” prva u Hrvatskoj nabavila dvanaest novih LEGO Education Science setova zahvaljujući lokalnoj akciji koja je prikupila 8.500 eura.

min čitanja

Više

Tehnologija

Robot s umjetnom inteligencijom puže i nakon što mu motornom pilom odsijeku sve noge

Prizor četveronožnog robota koji nastavlja puzati nakon što mu motornom pilom odsijeku noge podjednako fascinira i plaši javnost.

min čitanja

Više

Tehnologija

Nvidia RTX 5060 Ti po sniženoj cijeni od 379 dolara privlači PC igrače

PNY-ev GeForce RTX 5060 Ti OC u Walmartu je snižen sa 429–479 na 379 dolara, nudi stabilnih 60 FPS na 1080p s ray tracingom i podršku za DLSS Multi-Frame Generation.

min čitanja

Više

Tehnologija

25. rujna 2025, 08:22

Novi RL pristup unosi paralelno razmišljanje u velike jezične modele

Framework Parallel-R1 modelima omogućuje grananje misaonih tokova, čime poboljšava točnost rješenja bez potrebe za većim modelima.

min. čitanja

„Riječ je o prvom RL okviru koji omogućuje paralelno razmišljanje kod složenih zadataka iz stvarnog svijeta”, istaknuli su autori rada.

Zašto paralelno razmišljanje?

Kako radi Parallel-R1

Dvostupanjski format razmišljanja
– Exploration: model po pojavi oznake <Parallel> otvara više blokova <Path> s različitim misaonim tokovima.
– Summary: iz nalaza formira sažetak <Summary> i nastavlja glavnu nit.
Trodijelni proces učenja
• Cold-Start: model se fino ugađa na oko 7 000 AI-generiranih primjera paralelnog razmišljanja iz skupa GSM8K, kako bi svladao sam format.
• RL na lakšoj matematici: uvodi se dvojak sustav nagrađivanja – točnost rješenja i pravilna uporaba strukture.
• RL na složenijoj matematici: sposobnost se proširuje na zahtjevnije zadatke.
Alternirajuća nagrada
Naizmjenično nagrađivanje točnog odgovora i dosljednog paralelnog formata pokazalo se najboljim kompromisom između performansi i brzine.

Rezultati

Šira slika

#google #medjunarodna-matematicka-olimpijada #tencent-ai-lab #sveuciliste-maryland #gsm8k

Slično

Tehnologija

Apple traži povlačenje Zakona o digitalnim tržištima EU-a

Američki tehnološki div tvrdi da EU-ov Zakon o digitalnim tržištima krši temeljna prava i stvara sigurnosne rizike, dok Bruxelles poručuje da je interoperabilnost obvezna, a ne stvar izbora.

min čitanja

Više

Tehnologija

Meta predstavila Gaia2: novi test izdržljivosti AI agenata u simuliranom „stvarnom” okruženju

Otvorena platforma ARE i benchmark Gaia2 nude realističniji, stresniji i vremenski uvjetovan test sposobnosti umjetnih agenata u odnosu na dosadašnje statične provjere.

min čitanja

Više

Tehnologija

Meituan lansirao LongCat-Flash-Thinking: besplatni model od 560 milijardi parametara izaziva GPT-5

Kineski gigant objavio novu verziju otvorenog LLM-a fokusiranu na zaključivanje, uz besplatan API i permisivnu licencu.

min čitanja

Više

Tehnologija

Od zebri na farmi do „pijanih” šišmiša: dodijeljene ovogodišnje Ig Nobel nagrade

min čitanja

Više

Tehnologija

Zuckerberg dovodi još jedno ime iz OpenAI: Yang Song postaje ključni istraživač u Meta Superintelligence Labsu

min čitanja

Više

Tehnologija

Berlinski Vay od prosinca uvodi iznajmljivanje auta s vozačem na daljinu

min čitanja

Više

Tehnologija

Qualcomm predstavio Snapdragon X2: novi udar na Intel i AMD s jačim performansama i dužim trajanjem baterije

Snapdragon X2 donosi 18 jezgri, snažniju grafiku i 80 TOPS AI-obradu, a Qualcomm tvrdi da će Windows prijenosnici dobiti višednevnu bateriju i performanse koje prestižu Intel.

min čitanja

Više

Tehnologija

Buzetski osnovci dobili najnovije LEGO setove: 8.500 eura donacija pretvoreno u 12 STEM kompleta

Osnovna škola „Vazmoslav Gržalja” prva u Hrvatskoj nabavila dvanaest novih LEGO Education Science setova zahvaljujući lokalnoj akciji koja je prikupila 8.500 eura.

min čitanja

Više

Tehnologija

Robot s umjetnom inteligencijom puže i nakon što mu motornom pilom odsijeku sve noge

Prizor četveronožnog robota koji nastavlja puzati nakon što mu motornom pilom odsijeku noge podjednako fascinira i plaši javnost.

min čitanja

Više

Tehnologija

Nvidia RTX 5060 Ti po sniženoj cijeni od 379 dolara privlači PC igrače

PNY-ev GeForce RTX 5060 Ti OC u Walmartu je snižen sa 429–479 na 379 dolara, nudi stabilnih 60 FPS na 1080p s ray tracingom i podršku za DLSS Multi-Frame Generation.

min čitanja

Više