CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

25. rujna 2025, 08:22

Novi RL pristup unosi paralelno razmišljanje u velike jezične modele

Framework Parallel-R1 modelima omogućuje grananje misaonih tokova, čime poboljšava točnost rješenja bez potrebe za većim modelima.

min. čitanja

XFacebookWhatsApp

Istraživači iz Tencent AI Lab Seattle i Sveučilišta Maryland, College Park predstavili su Parallel-R1, tehniku potkrijepljenu učenjem kroz potkrepljenje (reinforcement learning, RL) koja velikim jezičnim modelima (LLM-ovima) omogućuje da u vrijeme izvođenja zadatka generiraju više paralelnih tokova zaključivanja i tako dolaze do točnijih odgovora.

„Riječ je o prvom RL okviru koji omogućuje paralelno razmišljanje kod složenih zadataka iz stvarnog svijeta”, istaknuli su autori rada.

Zašto paralelno razmišljanje?

• Paradigma grana-i-glasa (best of N) ili naprednije metode poput Monte Carlo Tree Searcha i Tree of Thoughtsa dosad su tražile vanjske sustave i ručno definirana pravila. • Nadogradnja putem nadziranog finog ugađanja često ovisi o rijetkim, skupo označenim podacima. • RL obećava skalabilnost, ali pati od „cold-start” problema i složenog dizajna nagrada.

Kako radi Parallel-R1

  1. Dvostupanjski format razmišljanja
    – Exploration: model po pojavi oznake <Parallel> otvara više blokova <Path> s različitim misaonim tokovima.
    – Summary: iz nalaza formira sažetak <Summary> i nastavlja glavnu nit.

  2. Trodijelni proces učenja
    • Cold-Start: model se fino ugađa na oko 7 000 AI-generiranih primjera paralelnog razmišljanja iz skupa GSM8K, kako bi svladao sam format.
    • RL na lakšoj matematici: uvodi se dvojak sustav nagrađivanja – točnost rješenja i pravilna uporaba strukture.
    • RL na složenijoj matematici: sposobnost se proširuje na zahtjevnije zadatke.

  3. Alternirajuća nagrada
    Naizmjenično nagrađivanje točnog odgovora i dosljednog paralelnog formata pokazalo se najboljim kompromisom između performansi i brzine.

Rezultati

Model Qwen-3-4B-Base treniran Parallel-R1 metodom nadmašio je sve usporedne inačice na standardnim matematičkim benchmark-ovima poput AIME, AMC i MATH. Autori tvrde da se time „otključava veća snaga zaključivanja bez skupe ekspanzije modela”, što je posebno privlačno za poduzeća koja žele jaču analitičku inteligenciju, ali ne i dodatne troškove treniranja golemih mreža.

Šira slika

Google je nedavno pripisao uspjeh svog modela Gemini Deep Think na Međunarodnoj matematičkoj olimpijadi upravo sposobnosti razmatranja više misaonih tokova. Parallel-R1 donosi sličnu strategiju u otvoreniji i skalabilniji RL okvir, pa bi se „paralelno razmišljanje” moglo ubrzo nametnuti kao standardni pristup za složene zadatke logičkog zaključivanja.

#google#medjunarodna-matematicka-olimpijada#tencent-ai-lab#sveuciliste-maryland#gsm8k
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Kako ukloniti Gemini Nano iz Chromea i što time gubite
Googleov AI model Gemini Nano potajno zauzima 4 GB na računalima korisnika Chromea. Donosimo upute kako ga isključiti i koje sigurnosne značajke tada prestaju raditi.

min čitanja

Više

Tehnologija

Fitbit postaje Google Health, a Google Fit odlazi u povijest
Google je potvrdio da će popularna aplikacija Fitbit uskoro postati Google Health, dok će Google Fit biti ugašen do kraja godine.

min čitanja

Više

Tehnologija

Novi opoziv Cybertrucka: Teslinu „neuništivom” pick-upu prijeti ispadanje kotača
Tesla opoziva još 173 Cybertrucka jer pogrešna mast može uzrokovati pucanje kočionih diskova i otpadanje kotača, što je već jedanaesta greška na kontroverznom električnom pick-upu.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Porečki poduzetnici otkrivali alate umjetne inteligencije za unaprjeđenje poslovanja
Besplatna radionica u Poreču pokazala poduzetnicima kako AI može ubrzati marketing, prodaju i izradu web stranica.

min čitanja

Više

Tehnologija

Bostromov riskantni optimizam: umjetna inteligencija kao put prema čovjekovoj „mirovini od smrti”
Filozof Nick Bostrom tvrdi da je mala šansa AI-apokalipse prihvatljiva ako strojevi omoguće ljudsku besmrtnost, čime je okrenuo ploču na svoja ranija, puno mračnija upozorenja.

min čitanja

Više

Tehnologija

Trideset godina tehnološke strasti: Zajednica tehničke kulture PGŽ slavi jubilej
Zajednica tehničke kulture Primorsko-goranske županije proslavila je 30. rođendan uz naglasak na brzi tehnološki razvoj, rad s djecom i programe cjeloživotnog učenja.

min čitanja

Više

Tehnologija

Pametni ormarići s loptama stigli u Rijeku
Studentski startup Unlokie instalirao je pametne ormariće za posudbu lopti u Rijeci: skeniranje QR koda, 30 sekundi i lopta je vaša za 65 centi.

min čitanja

Više

Tehnologija

Belgija podiže prvi svjetski energetski otok u Sjevernom moru
Otok princeze Elizabete objedinit će 2,1 GW vjetroenergije, stajati više od milijardu eura i ujedno služiti kao morsko utočište za ptičji i podvodni svijet.

min čitanja

Više

Tehnologija

Mexički znanstvenici iz otrova škorpiona i habanera stvaraju nova oružja protiv superbakterija
UNAM-ovi timovi sintetizirali su antibiotike iz otrova škorpiona Diplocentrus melici i habanero papričice, učinkovite protiv tuberkuloze, zlatnog stafilokoka i Pseudomonas aeruginosa te već osigurali patente u Meksiku.

min čitanja

Više

Tehnologija

Kina planira kontejneraš na torij: deset godina plovidbe bez kapi goriva
Peking najavljuje kontejneraš na rastaljenu sol koji bi bez nadopune goriva plovio deset godina te mogao dramatično smanjiti emisije, ali ga čekaju golemi regulatorni i ekonomski izazovi.

min čitanja

Više

Najčitanije

Futsal

Zbog futsala na Trsatu privremene zabrane prometovanja
Prvo polufinale SuperSport HMNL-a donosi zatvaranje nekoliko ulica oko Dvorane mladosti u subotu od 18 sati.

min čitanja

Više

Vijesti

Supetarska gradonačelnica o napadu na Vukovića: prijetnje ne smiju postati normalne
Gradonačelnica Supetra osudila je fizički napad na novinara Sinišu Vukovića na splitskoj Rivi i pozvala građane da prijavljuju sve prijetnje.

min čitanja

Više

Politika

Plenković u Novoj Gradiški: HDZ-ovi kandidati nude stabilnost i razvoj
Premijer Andrej Plenković u Novoj Gradiški podržao HDZ-ove kandidate Bernardina Trnku i Brunu Bušića, naglasivši nužnost stabilnog vodstva i nastavka razvojnih projekata.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986

min čitanja

Više

Vijesti

Riječka onkologija skraćuje terapiju raka dojke na pet dana
KBC Rijeka prvi u Hrvatskoj uvodi FAST-Forward protokol: radioterapija raka dojke završava za samo pet dana uz jednaku učinkovitost i manje nuspojava.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Sport

Kvarner u Zagrebu protiv Cibone lovi posljednji vlak za doigravanje

Sport

Vrhunac drame u Trećoj NL Istok: Marsonia vreba povratak na vrh

Sport

Klapa HRM-a „Sveti Juraj” pjesmom podiže moral Vatrenima

Vijesti

Dvostruka akcija HGSS-a Split: isti dan spašene dvije ozlijeđene turistkinje

Sport

Riječki boksač Ramljak u polufinalu državnog prvenstva

Politika

Ivošević optužio Šutu: grad ignorira napade na novinare

Vijesti

Skele oko Tuđmanova spomenika: redovito održavanje traje do 15. svibnja

Vijesti

Ronioci najavili čišćenje podmorja uz Sustipan povodom blagdana sv. Duje

Sport

Đakovo Croatia pod pritiskom: derbi začelja protiv Hrvatskog dragovoljca odlučuje sezonu

Sport

Rijeka glatko slavila u Vukovaru i vratila treće mjesto pred finale Kupa

Lifestyle

Renata Lovrinčević Buljan usred Sudamje demonstrirala hitnu „rehabilitaciju”