CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

10. listopada 2025, 16:17

Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela

Metoda reinforcement learning pre-training (RLP) nagrađuje modele za korisne interne „misli” već u ranoj fazi treniranja, a pokusi pokazuju dvoznamenkasta poboljšanja na zadacima logičkog zaključivanja.

min. čitanja

XFacebookWhatsApp

Istraživači iz Nvidije razvili su metodu reinforcement learning pre-training (RLP) koja spaja pojačano učenje s početnom fazom treniranja velikih jezičnih modela i tako im, kako tvrde, već od prvog dana usađuje naviku „razmišljanja prije pogađanja” sljedeće riječi.

RLP korak po korak • Umjesto klasičnog pristupa u kojem se modeli treniraju isključivo na predviđanju sljedećeg tokena, RLP prvo potiče model da stvori interni lanac misli (chain-of-thought). • Nakon toga model predviđa sljedeću riječ, ali sada koristi originalni kontekst proširen vlastitom „mislima”. • Nagrada se dodjeljuje samo ako ta interna misao statistički poboljša točnost predviđanja u odnosu na baznu verziju koja nije „razmišljala”. • Signal se računa automatski, pa nije potreban nadzor ljudi ni posebni skupovi podataka.

„RLP je dizajniran da oblikuje razmišljanje u bazičnim modelima nagrađujući samo one misli koje mjerljivo pomažu predikciji”, stoji u radnom radu tima.

Što su otkrili testovi Metoda je isprobana na Qwen3-1.7B i Nemotron-Nano-12B modelima na nizu matematičkih i znanstvenih zadataka. RLP-om trenirani modeli: • postigli su 17 % bolji rezultat od standardno treniranih pandana na Qwen3-1.7B, • nadmašili su konkurentsku tehniku RPT, čak i kada je kontrolni model dobio 35 puta više podataka, • ostvarili relativno poboljšanje od 35 % na hibridnom Nemotron-Nano-12B uz tek djelić uobičajenog skupa podataka.

Bryan Catanzaro, potpredsjednik za primijenjeno duboko učenje u Nvidiji i suautor rada, naglašava da RLP „nije zamjena za kasniju nadogradnju modela, nego polazište koje tim naknadnim fazama daje jaču bazu”. Prema njegovim riječima, nova metoda bi u poslovnim primjenama mogla smanjiti logičke pogreške u dugim radnim tokovima poput financijskih analiza ili sažimanja pravnih dokumenata.

Prednosti ostaju i nakon dorade Jedan od čestih problema u obuci LLM-ova jest katastrofično zaboravljanje – gubitak prethodno stečenih vještina tijekom kasnijeg fino ugađanja. U pokusima Nvidije, modeli s RLP-om zadržali su stečene sposobnosti i nakon završne obuke te su ukupno bili 7–8 % bolji od kontrolnih modela.

Skalabilnost i učinkovitost RLP se, navode autori, pokazao uspješnim i na nestrukturiranim web-podatcima, što upućuje na to da skupa, posebno kurirana spremišta možda više neće biti nužna za razvoj dubljeg rezoniranja. „Next-token predikcija modelu pokazuje kako svijet izgleda; RLP ga uči kako o tom svijetu razmišljati”, ističe Catanzaro.

Iako RLP sam po sebi ne smanjuje računovnu potrošnju golemih modela, istraživači ga predstavljaju kao „pomak u paradigmi” koji kombinira masovno pretreniranje i aktivno, nagradama vođeno učenje. Time, zaključuju, otvara „novu os za skaliranje – ne samo po veličini, već i po načinu na koji modeli uče rezonirati”.

#nvidia#pojacano-ucenje#bryan-catanzaro#financijske-analize

Slično

Tehnologija

AI2 lansirao Olmo 3.1, dosad najmoćniji model s naglaskom na učinkovitost i kontrolu
Allen Institute for AI predstavio je Olmo 3.1, novu i snažniju generaciju jezičnih modela usmjerenih na učinkovitost, transparentnost i precizno praćenje uputa.

min čitanja

Više

Tehnologija

Google i UC Santa Barbara razvili "štedljive" tehnike za velike jezične agente
Nova studija pokazuje kako agentima velikih jezičnih modela dati „osjećaj za novčanik” i tako uštedjeti tokene, vrijeme i novac.

min čitanja

Više

Tehnologija

Prvi hrvatski baterijski vlak ulazi u redoviti promet između Splita i Kaštel Staroga
Vlak domaće tvrtke Končar – Električna vozila od 15. prosinca svakodnevno će prevoziti putnike na relaciji Split – Kaštel Stari, otvarajući novu eru baterijskih vlakova na hrvatskim prugama.

min čitanja

Više

Tehnologija

Zagrebački „Guru za kulturu” pokazuje put: Riječani zazivaju vlastitu jedinstvenu platformu
Zagrebačka aplikacija „Guru za kulturu” objedinjuje sve kulturne događaje na jednom mjestu, a riječki kulturnjaci sada traže sličnu platformu za svoj grad.
Zagreb is OURS, CC BY 4.0 <https://creativecommons.org/licenses/by/4.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Neprofitna inicijativa Fulu plaća hakere da ožive „mrtve” uređaje
Fulu nudi novčane nagrade za hakere koji oslobode potrošače ograničenja i produže vijek trajanja uređaja koje su proizvođači već otpisali.

min čitanja

Više

Tehnologija

Kadmij-cinkov telurid skratio bolničke CT preglede na 15 minuta
Brži pregledi, manje zračenja i jasnije slike: londonska bolnica uvela skener s kristalima kadmij-cinkovog telurida.

min čitanja

Više

Tehnologija

Cohere predstavio Rerank 4 s četiri puta većim kontekstom
Rerank 4 donosi kontekst od 32 000 tokena, više varijanti i naglasak na brže, preciznije pretrage.

min čitanja

Više

Tehnologija

Krapinski IT-jevac pretvara klikove u noćenja: softver Ivana Petrovića diže prihode malim hotelima
Ivan Petrović iz Krapinskih Toplica razvio je softver koji malim hotelima u regiji diže prihode i smanjuje ovisnost o posrednicima.

min čitanja

Više

Tehnologija

Autorica priznala golemu pogrešku u bestseleru o umjetnoj inteligenciji
Karen Hao na X-u priznala da je u knjizi „Empire of AI” pogrešno procijenila potrošnju vode Googleova podatkovnog centra – i to za faktor 1.000.

min čitanja

Više

Tehnologija

Gotovo 9,1 milijun eura za transformaciju istraživačkog centra METRIS u Puli
Istarsko veleučilište osiguralo je 9,1 milijun eura iz europskog Fonda za pravednu tranziciju za proširenje prostora, nabavu opreme i razvoj novih programa u istraživačkom centru METRIS.

min čitanja

Više

Najčitanije

Politika

Plan specijalizacija: obiteljska medicina dobiva 600 mjesta, liječnici sumnjičavi
Novo usvojeni nacionalni plan otvara rekordnih 600 specijalizacija za obiteljsku medicinu, no liječničke organizacije sumnjaju da će to biti dovoljno bez boljih radnih uvjeta.

min čitanja

Više

Vijesti

Noćna drama u Gubaševu: požar u pogonu CIAK-a pod kontrolom, građanima preporučeno zatvaranje prozora
Veliki požar zahvatio je pogon za recikliranje akumulatora u Gubaševu kraj Zaboka; vatrogasci su ga lokalizirali, ali stanovnici se pozivaju na oprez dok se čeka analiza zraka.

min čitanja

Više

Politika

Autor See File history below for details. - Own work based on: Flag of Serbia construction sheet.svg (Construction sheet)The Government of Serbia, National symbols srbija.gov.rs, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=65419036
Anušić: Hrvatski Rafalei bolji od srpskih, od 1. siječnja sami čuvamo nebo
Ministar obrane objašnjava zašto će hrvatske verzije Rafalea imati naprednije sustave od srpskih i najavljuje da HRZ 1. siječnja preuzima potpunu zaštitu nacionalnog neba.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150013985

min čitanja

Više

Politika

Bruxelles zacementirao ruske milijarde: 210 milijardi eura ostaje pod ključem dok Moskva ne plati odštetu
EU ingorira mađarsko i slovačko protivljenje te usvaja mehanizam koji onemogućuje odmrzavanje 210 milijardi eura ruske imovine sve dok Moskva ne plati ratnu odštetu Ukrajini.
Autor João Pedro Correia, CC BY 2.0, https://commons.wikimedia.org/w/index.php?curid=142432811

min čitanja

Više

Politika

Pojavile se nove Epsteinove fotografije: Trump snimljen u tri kadra, među njima i „Trumpov kondom”
Demokrati u Kongresu objavili 19 novih Epsteinovih fotografija; Trump snimljen na tri, uključujući satiričnu verziju „Trumpova kondoma”.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524Palm Beach County Sheriff's Department, Public domain, via Wikimedia Commons

min čitanja

Više

Najnovije

Sport

Riječki dvojac Franulović i Saftić sudi na Europskom prvenstvu u vaterpolu

Sport

Bayern ugrabio 14-godišnjeg hrvatskog dragulja: Emanuel Šipura seli u München

Sport

„Proces” se nastavlja: Dinamo nakon poraza od Betisa najavljuje novu rekonstrukciju

Vijesti

Hrvatska se vraća na Dječji Eurosong: Marino Vrgoč pjevat će „Snovi”

Politika

Oporba kreće u vikend akciju protiv „Bačićevih zakona”

Politika

Washington povukao sankcije sucu Moraesu, Lula hvali „novopronađeno partnerstvo” s Trumpom

Vijesti

Gusta magla usporava promet: HAK upozorava, Meteoalarm na većem dijelu zemlje

Politika

Velika većina Europljana smatra da članstvo u EU donosi koristi

Politika

Poziv iz Rijeke: država mora zaštititi djecu od algoritama

Sport

Istrin krilni adut Salim Fago Lawal iznenađujuće pozvan u nigerijski sastav za Afrički kup nacija

Biznis

Fina tuži slovenski regulator: prijepor oko burze seli na sud