CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

10. listopada 2025, 16:17

Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela

Metoda reinforcement learning pre-training (RLP) nagrađuje modele za korisne interne „misli” već u ranoj fazi treniranja, a pokusi pokazuju dvoznamenkasta poboljšanja na zadacima logičkog zaključivanja.

min. čitanja

XFacebookWhatsApp

Istraživači iz Nvidije razvili su metodu reinforcement learning pre-training (RLP) koja spaja pojačano učenje s početnom fazom treniranja velikih jezičnih modela i tako im, kako tvrde, već od prvog dana usađuje naviku „razmišljanja prije pogađanja” sljedeće riječi.

RLP korak po korak • Umjesto klasičnog pristupa u kojem se modeli treniraju isključivo na predviđanju sljedećeg tokena, RLP prvo potiče model da stvori interni lanac misli (chain-of-thought). • Nakon toga model predviđa sljedeću riječ, ali sada koristi originalni kontekst proširen vlastitom „mislima”. • Nagrada se dodjeljuje samo ako ta interna misao statistički poboljša točnost predviđanja u odnosu na baznu verziju koja nije „razmišljala”. • Signal se računa automatski, pa nije potreban nadzor ljudi ni posebni skupovi podataka.

„RLP je dizajniran da oblikuje razmišljanje u bazičnim modelima nagrađujući samo one misli koje mjerljivo pomažu predikciji”, stoji u radnom radu tima.

Što su otkrili testovi Metoda je isprobana na Qwen3-1.7B i Nemotron-Nano-12B modelima na nizu matematičkih i znanstvenih zadataka. RLP-om trenirani modeli: • postigli su 17 % bolji rezultat od standardno treniranih pandana na Qwen3-1.7B, • nadmašili su konkurentsku tehniku RPT, čak i kada je kontrolni model dobio 35 puta više podataka, • ostvarili relativno poboljšanje od 35 % na hibridnom Nemotron-Nano-12B uz tek djelić uobičajenog skupa podataka.

Bryan Catanzaro, potpredsjednik za primijenjeno duboko učenje u Nvidiji i suautor rada, naglašava da RLP „nije zamjena za kasniju nadogradnju modela, nego polazište koje tim naknadnim fazama daje jaču bazu”. Prema njegovim riječima, nova metoda bi u poslovnim primjenama mogla smanjiti logičke pogreške u dugim radnim tokovima poput financijskih analiza ili sažimanja pravnih dokumenata.

Prednosti ostaju i nakon dorade Jedan od čestih problema u obuci LLM-ova jest katastrofično zaboravljanje – gubitak prethodno stečenih vještina tijekom kasnijeg fino ugađanja. U pokusima Nvidije, modeli s RLP-om zadržali su stečene sposobnosti i nakon završne obuke te su ukupno bili 7–8 % bolji od kontrolnih modela.

Skalabilnost i učinkovitost RLP se, navode autori, pokazao uspješnim i na nestrukturiranim web-podatcima, što upućuje na to da skupa, posebno kurirana spremišta možda više neće biti nužna za razvoj dubljeg rezoniranja. „Next-token predikcija modelu pokazuje kako svijet izgleda; RLP ga uči kako o tom svijetu razmišljati”, ističe Catanzaro.

Iako RLP sam po sebi ne smanjuje računovnu potrošnju golemih modela, istraživači ga predstavljaju kao „pomak u paradigmi” koji kombinira masovno pretreniranje i aktivno, nagradama vođeno učenje. Time, zaključuju, otvara „novu os za skaliranje – ne samo po veličini, već i po načinu na koji modeli uče rezonirati”.

#nvidia#pojacano-ucenje#bryan-catanzaro#financijske-analize

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Nvidia lansirala Nemotron 3 Super, hibridni AI od 120 milijardi parametara
Nvidia je predstavila Nemotron 3 Super, hibridni model od 120 milijardi parametara namijenjen jeftinijem pogonu višestrukih AI-agenata u poslovnim okruženjima.

min čitanja

Više

Tehnologija

Agentne memorije ne ugrožavaju vektorske baze: Qdrant tvrdi da je potraga tek počela
Investicija od 50 milijuna dolara i novo izdanje Qdranta pokazuju da agenti povećavaju, a ne smanjuju potrebu za specijaliziranim vektorskim pretraživanjem.

min čitanja

Više

Tehnologija

Sinj otvara jubilarni Tjedan mozga: vrhunski stručnjaci stižu pod okrilje Alke
U Muzeju Sinjske alke od 13. do 15. ožujka održava se simpozij „Tjedan mozga u Sinju“ kao uvod u nacionalnu manifestaciju posvećenu istraživanju mozga.

min čitanja

Više

Tehnologija

Pogreška sustava za prepoznavanje lica: baka iz Tennesseeja provela gotovo pola godine u zatvoru
Angela Lipps iz Tennesseeja provela je gotovo šest mjeseci u zatvoru jer ju je policija pogrešno identificirala pomoću AI sustava za prepoznavanje lica.

min čitanja

Više

Tehnologija

Startup iz San Francisca lansirao Slate V1, „roj-native” agenta za masovno paralelno kodiranje
Random Labs predstavio je Slate V1, autonomnog „roj-native” agenta koji paralelno rješava složene zadatke u velikim kodnim bazama, ciljajući profesionalne razvojne timove.

min čitanja

Više

Tehnologija

Prvi AI plivački mlaz lansiran na Kickstarteru
iGarden na Kickstarteru nudi Swim Jet X Series, prvi prijenosni plivački mlaz kojim upravlja umjetna inteligencija, po početnoj cijeni od 799 USD.

min čitanja

Više

Tehnologija

Umjetna inteligencija ubrzava potragu za lijekovima: nova oružja protiv superbakterija i Parkinsona
Računalni algoritmi ubrzavaju otkrivanje novih antibiotika, potencijalnih terapija za Parkinsonovu bolest te otvaraju mogućnosti ponovne primjene postojećih lijekova, nudeći nadu milijunima pacijenata.

min čitanja

Više

Tehnologija

Google ne isključuje oglase u Gemini
Potpredsjednik Googlea Nick Fox kaže da se oglasi zasad neće pojaviti u AI-modelu Gemini, ali kompanija razmatra tu opciju za budućnost.

min čitanja

Više

Tehnologija

Iranski hakeri udarili na američku tvrtku Stryker: Handala najavljuje "novo doba kibernetskog rata"
Handala, za koju se vjeruje da je povezana s iranskom obavještajnom službom, tvrdi da je paralizirala Stryker u odmazdi za napade SAD-a i Izraela, upozoravajući na "novo doba kibernetskog rata".

min čitanja

Više

Tehnologija

Autor Government of Ukraine - ДСТУ 4512:2006 — Державний прапор України. Загальні технічні умови; Section 1, Article 20 of the Constitution of Ukraine, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=421234Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Ukrajina otvara bojišne podatke za treniranje savezničkih AI sustava
Ministar obrane Mihajlo Fedorov kaže da Kijev partnerima stavlja na raspolaganje milijune bojišnih snimki kako bi ubrzali razvoj autonomnih sustava protiv Rusije.
President Of Ukraine from Україна, CC0, via Wikimedia Commons

min čitanja

Više

Najčitanije

Nogomet

Gostujuće dominacije u Konferencijskoj ligi: Strasbourg, Šahtar i Rayo slavili na strani
Tri gostujuće i jedna domaća pobjeda otvorile osminu finala Konferencijske lige.

min čitanja

Više

Atletika

Duplantis u Uppsali preskočio 6,31 m i srušio 15. svjetski rekord
Šveđanin Armand Duplantis u rodnoj Uppsali skočio 6,31 m, iz prvog pokušaja postavio novi svjetski rekord i 15. put pomaknuo granicu motkaškog sporta.

min čitanja

Više

Politika

Pad predsjedatelja zbog riječi o Bleiburgu
Dragan Mioković izgubio je dužnost u Parlamentu FBiH nakon izjave da je na Bleiburgu „malo pobijeno Hrvata”; optužuje HDZ BiH za političko preslagivanje.

min čitanja

Više

Politika

Plenković o srbijanskoj hipersoničnoj raketi „Zagrepčanka“: Hrvatska će alarmirati NATO
Premijer u Požegi najavio razgovore s NATO-om o srbijanskom oružju i mogućnost zamrzavanja cijena struje i plina.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986

min čitanja

Više

Politika

Njemačka pomogla u hitnoj evakuaciji hrvatskog vojnika iz Libanona
Hrvatski vojnik iz misije UNIFIL evakuiran je iz Libanona uz logističku potporu Njemačke, dok MORH priprema povlačenje kolega iz Iraka.
Damir Sencar/HINA/POOL/PIXSELL/Social Democratic Party of Croatia, CC BY 3.0 HR <https://creativecommons.org/licenses/by/3.0/hr/deed.en>, via Wikimedia CommonsAutor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150013985

min čitanja

Više

Najnovije

Biznis

Washington privremeno dopušta kupnju ruske nafte u jeku krize s Iranom

Politika

Selmayr pozvao EU na jedinstvenog kandidata za čelo FAO-a

Sport

Kandidat Font obećao povratak Guardiole u Barcelonu

Vijesti

Igrano-dokumentarni „Zrinski” stiže u Zagreb: priča o tajanstvenoj smrti Nikole VII. Zrinskog

Lifestyle

Peglica i Komandos vraća se u Zadar nakon sedam godina

Lifestyle

Izjava Seke Sablić podijelila publiku filma „Svadba”

Politika

Bivši njemački ministar: nakon Trumpova povratka oružjem je postalo – sve

Sport

Baruzzi s letom od 1:30 otvorio Istrian Spring Tour

Politika

Belgija ubrzano naoružava vojsku, ali i dalje kaska za NATO saveznicima

Vijesti

Pulski srednjoškolci briljirali na WorldSkillsu i izborili državno finale

Biznis

Privatno kreditiranje naraslo na 3 bilijuna dolara, stručnjaci strahuju od „skrivenih termita”