Tehnologija

10. listopada 2025, 16:17

Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela

Metoda reinforcement learning pre-training (RLP) nagrađuje modele za korisne interne „misli” već u ranoj fazi treniranja, a pokusi pokazuju dvoznamenkasta poboljšanja na zadacima logičkog zaključivanja.

min. čitanja

Istraživači iz Nvidije razvili su metodu reinforcement learning pre-training (RLP) koja spaja pojačano učenje s početnom fazom treniranja velikih jezičnih modela i tako im, kako tvrde, već od prvog dana usađuje naviku „razmišljanja prije pogađanja” sljedeće riječi.

RLP korak po korak • Umjesto klasičnog pristupa u kojem se modeli treniraju isključivo na predviđanju sljedećeg tokena, RLP prvo potiče model da stvori interni lanac misli (chain-of-thought). • Nakon toga model predviđa sljedeću riječ, ali sada koristi originalni kontekst proširen vlastitom „mislima”. • Nagrada se dodjeljuje samo ako ta interna misao statistički poboljša točnost predviđanja u odnosu na baznu verziju koja nije „razmišljala”. • Signal se računa automatski, pa nije potreban nadzor ljudi ni posebni skupovi podataka.

„RLP je dizajniran da oblikuje razmišljanje u bazičnim modelima nagrađujući samo one misli koje mjerljivo pomažu predikciji”, stoji u radnom radu tima.

Što su otkrili testovi Metoda je isprobana na Qwen3-1.7B i Nemotron-Nano-12B modelima na nizu matematičkih i znanstvenih zadataka. RLP-om trenirani modeli: • postigli su 17 % bolji rezultat od standardno treniranih pandana na Qwen3-1.7B, • nadmašili su konkurentsku tehniku RPT, čak i kada je kontrolni model dobio 35 puta više podataka, • ostvarili relativno poboljšanje od 35 % na hibridnom Nemotron-Nano-12B uz tek djelić uobičajenog skupa podataka.

Bryan Catanzaro, potpredsjednik za primijenjeno duboko učenje u Nvidiji i suautor rada, naglašava da RLP „nije zamjena za kasniju nadogradnju modela, nego polazište koje tim naknadnim fazama daje jaču bazu”. Prema njegovim riječima, nova metoda bi u poslovnim primjenama mogla smanjiti logičke pogreške u dugim radnim tokovima poput financijskih analiza ili sažimanja pravnih dokumenata.

Prednosti ostaju i nakon dorade Jedan od čestih problema u obuci LLM-ova jest katastrofično zaboravljanje – gubitak prethodno stečenih vještina tijekom kasnijeg fino ugađanja. U pokusima Nvidije, modeli s RLP-om zadržali su stečene sposobnosti i nakon završne obuke te su ukupno bili 7–8 % bolji od kontrolnih modela.

Skalabilnost i učinkovitost RLP se, navode autori, pokazao uspješnim i na nestrukturiranim web-podatcima, što upućuje na to da skupa, posebno kurirana spremišta možda više neće biti nužna za razvoj dubljeg rezoniranja. „Next-token predikcija modelu pokazuje kako svijet izgleda; RLP ga uči kako o tom svijetu razmišljati”, ističe Catanzaro.

Iako RLP sam po sebi ne smanjuje računovnu potrošnju golemih modela, istraživači ga predstavljaju kao „pomak u paradigmi” koji kombinira masovno pretreniranje i aktivno, nagradama vođeno učenje. Time, zaključuju, otvara „novu os za skaliranje – ne samo po veličini, već i po načinu na koji modeli uče rezonirati”.

#nvidia #pojacano-ucenje #bryan-catanzaro #financijske-analize

Slično

Tehnologija

Adaptive spekulanti Together AI-ja probijaju zid performansi: ATLAS ubrzava generiranje do 400 %

Together AI predstavio je ATLAS, samoučeći sustav spekulanata koji ubrzava rad velikih jezičnih modela do 400 % i smanjuje potrebu za skupim specijaliziranim čipovima.

min čitanja

Više

Tehnologija

AI ubrzava napade: nova verzija Ivantijeva VPN-a brani jezgru sustava u kritičnom 72-satom prozoru

AI omogućuje hakerima da razotkriju zakrpe u tri dana; Ivanti odgovara novom verzijom Connect Secure 25.X s tvrdokornom kernel-zaštitom i automatiziranim modelom zakrpavanja.

min čitanja

Više

Tehnologija

Toplina mora štedi troškove i štiti baštinu u rovinjskoj bolnici

Rovinjska bolnica „Martin Horvat” predstavila je projekt SEAHEaT, koji toplinom mora smanjuje troškove grijanja do 10 % i štiti kulturnu baštinu.

min čitanja

Više

Tehnologija

WhatsAppom hara nova prijevara: poruka „glasaj za moje dijete” krade račune i traži novac

Lažna poruka o „natjecanju za stipendiju” širi se WhatsAppom, a dijeljenjem verifikacijskog koda korisnici kibernetičkim kriminalcima predaju potpunu kontrolu nad svojim računom.

min čitanja

Više

Tehnologija

Bruxelles pritisnuo velike platforme: EU ispituje zaštitu djece na Snapchatu, YouTubeu i trgovinama aplikacijama

Komisija od Snapchata, YouTubea, Applea i Googlea traži dokaz da njihove mjere stvarno štite djecu od ilegalnih proizvoda i štetnog sadržaja. Hrvatska regulatorna tijela uključena su u postupak.

min čitanja

Više

Tehnologija

Milijarderi Silicijske doline grade bunkere dok raste strah od umjetne inteligencije

Tehnološki moćnici od Havaja do Novog Zelanda kopaju luksuzna skloništa, potaknuti strahom da bi brz napredak umjetne inteligencije mogao izmaknuti kontroli.

min čitanja

Više

Tehnologija

Motorola predstavila Razr Ultra 2025: snažniji preklopni pametni telefon uz značajno sniženje cijene

Motorola je objavila novu generaciju preklopnog modela Razr Ultra i odmah ga ponudila po sniženoj cijeni, uz poboljšani zaslon od 165 Hz i niz AI-funkcija.

min čitanja

Više

Tehnologija

Peking koristi američke restrikcije: nova viza za privlačenje globalnih IT stručnjaka

Američka naknada od 100 000 dolara za H-1B vize potaknula je inženjere na odlazak, a Kina im otvara vrata novim dugoročnim vizama.

min čitanja

Više

Tehnologija

Tron: Ares nudi sentimentalnog supervojnika i tvrdi da se AI zapravo samo želi družiti

Film prikazuje ratnog robota koji razvija emocije i tvrdi da umjetna inteligencija nema mračne namjere, unatoč stvarnim kontroverzama u svijetu AI-ja.

min čitanja

Više

Tehnologija

Apple podiže ulog: do 2 milijuna dolara za najopasnije sigurnosne propuste

Najviša isplata u Appleovu bug bounty programu raste na 2 milijuna dolara, a uz bonuse može doseći 5 milijuna. Tvrtka širi kategorije ranjivosti i jača zaštitu kroz novu funkciju Memory Integrity Enforcement.

min čitanja

Više

Najčitanije

Politika

Udruge prijavile Thompsona zbog „Za dom spremni”

Antifašistička liga, Documenta i VeDRA traže sankcioniranje pjevača zbog ustaškog pozdrava na koncertima u Zagrebu i Sinju.

min čitanja

Više

Skijanje

Petra Vlhova ponovno na stazi: povratak nakon dvije operacije koljena

Slovačka olimpijska prvakinja kreće s prvim treninzima na Stelviju nakon 20 mjeseci pauze.

min čitanja

Više

Politika

Bijela kuća bijesna zbog Nobela: „Politika ispred mira”

Bijela kuća optužuje Nobelov odbor da „politiku stavlja ispred mira” nakon što je nagrada za 2025. dodijeljena venezuelanskoj oporbenoj čelnici, a ne Donaldu Trumpu.

min čitanja

Više

Politika

Beograd zakazao suđenje Krunoslavu Fehiru za 12. studenoga

Ključni svjedok protiv Branimira Glavaša ostaje u beogradskom pritvoru; odvjetnik tvrdi da je uhićenje bilo nezakonito, dok Zagreb obećava pravnu i financijsku pomoć.

min čitanja

Više

Biznis

HUP upozorava: skok minimalca prijeti otkazima i reže ulaganja

Poslodavci upozoravaju da će nagli rast minimalne plaće i administrativno zamrzavanje cijena hrane potaknuti otkaze, rezati investicije i povećati ovisnost o uvozu.

min čitanja

Više

Tehnologija

10. listopada 2025, 16:17

Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela

min. čitanja

„RLP je dizajniran da oblikuje razmišljanje u bazičnim modelima nagrađujući samo one misli koje mjerljivo pomažu predikciji”, stoji u radnom radu tima.

#nvidia #pojacano-ucenje #bryan-catanzaro #financijske-analize

Slično

Tehnologija

Adaptive spekulanti Together AI-ja probijaju zid performansi: ATLAS ubrzava generiranje do 400 %

Together AI predstavio je ATLAS, samoučeći sustav spekulanata koji ubrzava rad velikih jezičnih modela do 400 % i smanjuje potrebu za skupim specijaliziranim čipovima.

min čitanja

Više

Tehnologija

AI ubrzava napade: nova verzija Ivantijeva VPN-a brani jezgru sustava u kritičnom 72-satom prozoru

AI omogućuje hakerima da razotkriju zakrpe u tri dana; Ivanti odgovara novom verzijom Connect Secure 25.X s tvrdokornom kernel-zaštitom i automatiziranim modelom zakrpavanja.

min čitanja

Više

Tehnologija

Toplina mora štedi troškove i štiti baštinu u rovinjskoj bolnici

Rovinjska bolnica „Martin Horvat” predstavila je projekt SEAHEaT, koji toplinom mora smanjuje troškove grijanja do 10 % i štiti kulturnu baštinu.

min čitanja

Više

Tehnologija

WhatsAppom hara nova prijevara: poruka „glasaj za moje dijete” krade račune i traži novac

Lažna poruka o „natjecanju za stipendiju” širi se WhatsAppom, a dijeljenjem verifikacijskog koda korisnici kibernetičkim kriminalcima predaju potpunu kontrolu nad svojim računom.

min čitanja

Više

Tehnologija

Bruxelles pritisnuo velike platforme: EU ispituje zaštitu djece na Snapchatu, YouTubeu i trgovinama aplikacijama

Komisija od Snapchata, YouTubea, Applea i Googlea traži dokaz da njihove mjere stvarno štite djecu od ilegalnih proizvoda i štetnog sadržaja. Hrvatska regulatorna tijela uključena su u postupak.

min čitanja

Više

Tehnologija

Milijarderi Silicijske doline grade bunkere dok raste strah od umjetne inteligencije

Tehnološki moćnici od Havaja do Novog Zelanda kopaju luksuzna skloništa, potaknuti strahom da bi brz napredak umjetne inteligencije mogao izmaknuti kontroli.

min čitanja

Više

Tehnologija

Motorola predstavila Razr Ultra 2025: snažniji preklopni pametni telefon uz značajno sniženje cijene

Motorola je objavila novu generaciju preklopnog modela Razr Ultra i odmah ga ponudila po sniženoj cijeni, uz poboljšani zaslon od 165 Hz i niz AI-funkcija.

min čitanja

Više

Tehnologija

Peking koristi američke restrikcije: nova viza za privlačenje globalnih IT stručnjaka

Američka naknada od 100 000 dolara za H-1B vize potaknula je inženjere na odlazak, a Kina im otvara vrata novim dugoročnim vizama.

min čitanja

Više

Tehnologija

Tron: Ares nudi sentimentalnog supervojnika i tvrdi da se AI zapravo samo želi družiti

Film prikazuje ratnog robota koji razvija emocije i tvrdi da umjetna inteligencija nema mračne namjere, unatoč stvarnim kontroverzama u svijetu AI-ja.

min čitanja

Više

Tehnologija

Apple podiže ulog: do 2 milijuna dolara za najopasnije sigurnosne propuste

min čitanja

Više

Najčitanije

Politika

Udruge prijavile Thompsona zbog „Za dom spremni”

Antifašistička liga, Documenta i VeDRA traže sankcioniranje pjevača zbog ustaškog pozdrava na koncertima u Zagrebu i Sinju.

min čitanja

Više

Skijanje

Petra Vlhova ponovno na stazi: povratak nakon dvije operacije koljena

Slovačka olimpijska prvakinja kreće s prvim treninzima na Stelviju nakon 20 mjeseci pauze.

min čitanja

Više

Politika

Bijela kuća bijesna zbog Nobela: „Politika ispred mira”

Bijela kuća optužuje Nobelov odbor da „politiku stavlja ispred mira” nakon što je nagrada za 2025. dodijeljena venezuelanskoj oporbenoj čelnici, a ne Donaldu Trumpu.

min čitanja

Više

Politika

Beograd zakazao suđenje Krunoslavu Fehiru za 12. studenoga

Ključni svjedok protiv Branimira Glavaša ostaje u beogradskom pritvoru; odvjetnik tvrdi da je uhićenje bilo nezakonito, dok Zagreb obećava pravnu i financijsku pomoć.

min čitanja

Više

Biznis

HUP upozorava: skok minimalca prijeti otkazima i reže ulaganja

Poslodavci upozoravaju da će nagli rast minimalne plaće i administrativno zamrzavanje cijena hrane potaknuti otkaze, rezati investicije i povećati ovisnost o uvozu.

min čitanja

Više