CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

10. listopada 2025, 16:17

Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela

Metoda reinforcement learning pre-training (RLP) nagrađuje modele za korisne interne „misli” već u ranoj fazi treniranja, a pokusi pokazuju dvoznamenkasta poboljšanja na zadacima logičkog zaključivanja.

min. čitanja

XFacebookWhatsApp

Istraživači iz Nvidije razvili su metodu reinforcement learning pre-training (RLP) koja spaja pojačano učenje s početnom fazom treniranja velikih jezičnih modela i tako im, kako tvrde, već od prvog dana usađuje naviku „razmišljanja prije pogađanja” sljedeće riječi.

RLP korak po korak • Umjesto klasičnog pristupa u kojem se modeli treniraju isključivo na predviđanju sljedećeg tokena, RLP prvo potiče model da stvori interni lanac misli (chain-of-thought). • Nakon toga model predviđa sljedeću riječ, ali sada koristi originalni kontekst proširen vlastitom „mislima”. • Nagrada se dodjeljuje samo ako ta interna misao statistički poboljša točnost predviđanja u odnosu na baznu verziju koja nije „razmišljala”. • Signal se računa automatski, pa nije potreban nadzor ljudi ni posebni skupovi podataka.

„RLP je dizajniran da oblikuje razmišljanje u bazičnim modelima nagrađujući samo one misli koje mjerljivo pomažu predikciji”, stoji u radnom radu tima.

Što su otkrili testovi Metoda je isprobana na Qwen3-1.7B i Nemotron-Nano-12B modelima na nizu matematičkih i znanstvenih zadataka. RLP-om trenirani modeli: • postigli su 17 % bolji rezultat od standardno treniranih pandana na Qwen3-1.7B, • nadmašili su konkurentsku tehniku RPT, čak i kada je kontrolni model dobio 35 puta više podataka, • ostvarili relativno poboljšanje od 35 % na hibridnom Nemotron-Nano-12B uz tek djelić uobičajenog skupa podataka.

Bryan Catanzaro, potpredsjednik za primijenjeno duboko učenje u Nvidiji i suautor rada, naglašava da RLP „nije zamjena za kasniju nadogradnju modela, nego polazište koje tim naknadnim fazama daje jaču bazu”. Prema njegovim riječima, nova metoda bi u poslovnim primjenama mogla smanjiti logičke pogreške u dugim radnim tokovima poput financijskih analiza ili sažimanja pravnih dokumenata.

Prednosti ostaju i nakon dorade Jedan od čestih problema u obuci LLM-ova jest katastrofično zaboravljanje – gubitak prethodno stečenih vještina tijekom kasnijeg fino ugađanja. U pokusima Nvidije, modeli s RLP-om zadržali su stečene sposobnosti i nakon završne obuke te su ukupno bili 7–8 % bolji od kontrolnih modela.

Skalabilnost i učinkovitost RLP se, navode autori, pokazao uspješnim i na nestrukturiranim web-podatcima, što upućuje na to da skupa, posebno kurirana spremišta možda više neće biti nužna za razvoj dubljeg rezoniranja. „Next-token predikcija modelu pokazuje kako svijet izgleda; RLP ga uči kako o tom svijetu razmišljati”, ističe Catanzaro.

Iako RLP sam po sebi ne smanjuje računovnu potrošnju golemih modela, istraživači ga predstavljaju kao „pomak u paradigmi” koji kombinira masovno pretreniranje i aktivno, nagradama vođeno učenje. Time, zaključuju, otvara „novu os za skaliranje – ne samo po veličini, već i po načinu na koji modeli uče rezonirati”.

#nvidia#pojacano-ucenje#bryan-catanzaro#financijske-analize

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Šef Nvidije Jensen Huang u opuštenom obilasku Kine
Prizori izvršnog direktora Nvidije kako biciklira Šangajem i ruča u skromnom restoranu u Shenzhenu oduševili su kineske prolaznike i društvene mreže.

min čitanja

Više

Tehnologija

Internet kognicije: Outshift predlaže kako da AI agenti konačno surađuju, a ne samo razmjenjuju poruke
Outshift, inovacijski ogranak Cisca, nudi koncept „Interneta kognicije” kako bi AI agenti dijelili namjeru i kontekst, a ne samo podatke.

min čitanja

Više

Tehnologija

Yann LeCun kreće u novu AI avanturu: „Svi su se navukli na LLM-ove, a to nije put do istinske inteligencije”
Nakon odlaska iz Mete, Yann LeCun najavljuje startup koji će, kaže, zaobići ograničenja velikih jezičnih modela i ponuditi drukčiji put prema umjetnoj općoj inteligenciji.

min čitanja

Više

Tehnologija

Maturanti uronili u laboratorije: Tehnički fakultet Rijeka otvara vrata budućim STEM stručnjacima
Dvodnevni DOL2026 okupio je 450 maturanata iz 13 škola, predstavio projekt vrijedan 840 tisuća eura i otvorio vrata najmodernijim STEM laboratorijima u Rijeci.

min čitanja

Više

Tehnologija

AI plišani dinosaur izložio 50 000 dječjih razgovora
Sigurnosni stručnjaci otkrili su da je web-portal igračke Bondu omogućio pristup desecima tisuća transkripata dječjih razgovora, otvarajući pitanja o privatnosti i zaštiti podataka u AI igračkama.

min čitanja

Više

Tehnologija

Hakeri napali Clawdbot: gotovo 8.000 pokušaja prodora u 48 sati
Propusti u Clawdbotu u 48 sati pretvorili su se u tisuće napada, a infostealeri RedLine, Lumma i Vidar već ciljaju nezaštićene instance.

min čitanja

Više

Tehnologija

Nizozemski nadzornik za zaštitu podataka zvoni na uzbunu zbog gubitka tehnološkog suvereniteta
AP traži hitnu strategiju i nizozemski državni oblak nakon najave američkog preuzimanja DigiD-a.

min čitanja

Više

Tehnologija

Kineski Gestala želi spojiti mozak i računalo ultrazvukom, bez ikakvih implantata
Startup iz Chengdua najavljuje ultrazvučno sučelje mozak-računalo za ublažavanje kronične boli i druge neurološke poremećaje, bez invazivnih implantata.

min čitanja

Više

Tehnologija

SeaArt otvara SeaVerse, platformu koja spaja generativnu umjetnu inteligenciju i zajednicu
Japanski SeaArt lansirao je SeaVerse, platformu koja korisnicima nudi stvaranje, dijeljenje i monetizaciju AI-generiranih radova, oslanjajući se na već uspješan model zajednice SeaArt AI.

min čitanja

Više

Tehnologija

Francuski ured za zapošljavanje kažnjen s 5 milijuna eura zbog golemog curenja podataka
CNIL je kaznio France Travail s 5 milijuna eura nakon što je curenje podataka ugrozilo 36,8 milijuna registriranih građana.

min čitanja

Više

Najčitanije

Politika

Trump tvrdi da je uvjerio Putina na tjedan dana primirja zbog hladnoće
Trump kaže da je telefonski uvjerio Putina na tjedan dana obustave napada, dok u Zaporižju ruski dronovi odnose nove žrtve.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524By Пресс-служба Президента РФ - https://www.thetimes.com/world/europe/article/emmanuel-macron-rebrands-himself-as-anti-russia-hawk-to-german-fury-dlplhbbzs (indirectly, this is identical in framing, slightly different color, higher res), CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=155844791

min čitanja

Više

Najnovije

Lifestyle

Springsteen objavio žestoku protestnu pjesmu „Streets of Minneapolis”

Tehnologija

Internet kognicije: Outshift predlaže kako da AI agenti konačno surađuju, a ne samo razmjenjuju poruke

Politika

Zastoj u Senatu prijeti djelomičnom blokadom vlade SAD-a

Sport

Crvi u kaši, plastika u bolonjezu: hrvatske rukometaše na Euru dočekala šokantna prehrana

Politika

Crvene kape iglom protiv ICE-a

Vijesti

Brzi odlazak: Kevin Couch dao ostavku samo dva tjedna nakon imenovanja u Trump-Kennedy Centeru

Politika

Kallas optužila Moskvu da zimu pretvara u oružje, EU šalje 500 generatora Ukrajini

Politika

Poziv na savez srednjih sila protiv Trumpove „nove igre”

Lifestyle

Nuša u novoj sezoni Gospodina Savršenog privlači pozornost: „Volim se raspravljati, pa zašto ne bih na tome zaradila?”

Vijesti

Bjelovarčanin pogodio „ništa” i osvojio 80 tisuća eura

Vijesti

Gust dim nad Pazinom zbog ilegalnog spaljivanja plastike