CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

10. listopada 2025, 16:17

Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela

Metoda reinforcement learning pre-training (RLP) nagrađuje modele za korisne interne „misli” već u ranoj fazi treniranja, a pokusi pokazuju dvoznamenkasta poboljšanja na zadacima logičkog zaključivanja.

min. čitanja

Istraživači iz Nvidije razvili su metodu reinforcement learning pre-training (RLP) koja spaja pojačano učenje s početnom fazom treniranja velikih jezičnih modela i tako im, kako tvrde, već od prvog dana usađuje naviku „razmišljanja prije pogađanja” sljedeće riječi.

RLP korak po korak • Umjesto klasičnog pristupa u kojem se modeli treniraju isključivo na predviđanju sljedećeg tokena, RLP prvo potiče model da stvori interni lanac misli (chain-of-thought). • Nakon toga model predviđa sljedeću riječ, ali sada koristi originalni kontekst proširen vlastitom „mislima”. • Nagrada se dodjeljuje samo ako ta interna misao statistički poboljša točnost predviđanja u odnosu na baznu verziju koja nije „razmišljala”. • Signal se računa automatski, pa nije potreban nadzor ljudi ni posebni skupovi podataka.

„RLP je dizajniran da oblikuje razmišljanje u bazičnim modelima nagrađujući samo one misli koje mjerljivo pomažu predikciji”, stoji u radnom radu tima.

Što su otkrili testovi Metoda je isprobana na Qwen3-1.7B i Nemotron-Nano-12B modelima na nizu matematičkih i znanstvenih zadataka. RLP-om trenirani modeli: • postigli su 17 % bolji rezultat od standardno treniranih pandana na Qwen3-1.7B, • nadmašili su konkurentsku tehniku RPT, čak i kada je kontrolni model dobio 35 puta više podataka, • ostvarili relativno poboljšanje od 35 % na hibridnom Nemotron-Nano-12B uz tek djelić uobičajenog skupa podataka.

Bryan Catanzaro, potpredsjednik za primijenjeno duboko učenje u Nvidiji i suautor rada, naglašava da RLP „nije zamjena za kasniju nadogradnju modela, nego polazište koje tim naknadnim fazama daje jaču bazu”. Prema njegovim riječima, nova metoda bi u poslovnim primjenama mogla smanjiti logičke pogreške u dugim radnim tokovima poput financijskih analiza ili sažimanja pravnih dokumenata.

Prednosti ostaju i nakon dorade Jedan od čestih problema u obuci LLM-ova jest katastrofično zaboravljanje – gubitak prethodno stečenih vještina tijekom kasnijeg fino ugađanja. U pokusima Nvidije, modeli s RLP-om zadržali su stečene sposobnosti i nakon završne obuke te su ukupno bili 7–8 % bolji od kontrolnih modela.

Skalabilnost i učinkovitost RLP se, navode autori, pokazao uspješnim i na nestrukturiranim web-podatcima, što upućuje na to da skupa, posebno kurirana spremišta možda više neće biti nužna za razvoj dubljeg rezoniranja. „Next-token predikcija modelu pokazuje kako svijet izgleda; RLP ga uči kako o tom svijetu razmišljati”, ističe Catanzaro.

Iako RLP sam po sebi ne smanjuje računovnu potrošnju golemih modela, istraživači ga predstavljaju kao „pomak u paradigmi” koji kombinira masovno pretreniranje i aktivno, nagradama vođeno učenje. Time, zaključuju, otvara „novu os za skaliranje – ne samo po veličini, već i po načinu na koji modeli uče rezonirati”.

#nvidia#pojacano-ucenje#bryan-catanzaro#financijske-analize

Slično

Tehnologija

Adaptive spekulanti Together AI-ja probijaju zid performansi: ATLAS ubrzava generiranje do 400 %
Together AI predstavio je ATLAS, samoučeći sustav spekulanata koji ubrzava rad velikih jezičnih modela do 400 % i smanjuje potrebu za skupim specijaliziranim čipovima.

min čitanja

Više

Tehnologija

AI ubrzava napade: nova verzija Ivantijeva VPN-a brani jezgru sustava u kritičnom 72-satom prozoru
AI omogućuje hakerima da razotkriju zakrpe u tri dana; Ivanti odgovara novom verzijom Connect Secure 25.X s tvrdokornom kernel-zaštitom i automatiziranim modelom zakrpavanja.

min čitanja

Više

Tehnologija

Toplina mora štedi troškove i štiti baštinu u rovinjskoj bolnici
Rovinjska bolnica „Martin Horvat” predstavila je projekt SEAHEaT, koji toplinom mora smanjuje troškove grijanja do 10 % i štiti kulturnu baštinu.

min čitanja

Više

Tehnologija

WhatsAppom hara nova prijevara: poruka „glasaj za moje dijete” krade račune i traži novac
Lažna poruka o „natjecanju za stipendiju” širi se WhatsAppom, a dijeljenjem verifikacijskog koda korisnici kibernetičkim kriminalcima predaju potpunu kontrolu nad svojim računom.

min čitanja

Više

Tehnologija

Bruxelles pritisnuo velike platforme: EU ispituje zaštitu djece na Snapchatu, YouTubeu i trgovinama aplikacijama
Komisija od Snapchata, YouTubea, Applea i Googlea traži dokaz da njihove mjere stvarno štite djecu od ilegalnih proizvoda i štetnog sadržaja. Hrvatska regulatorna tijela uključena su u postupak.

min čitanja

Više

Tehnologija

Milijarderi Silicijske doline grade bunkere dok raste strah od umjetne inteligencije
Tehnološki moćnici od Havaja do Novog Zelanda kopaju luksuzna skloništa, potaknuti strahom da bi brz napredak umjetne inteligencije mogao izmaknuti kontroli.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305Anthony Quintano from Honolulu, HI, United States, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia CommonsTechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Motorola predstavila Razr Ultra 2025: snažniji preklopni pametni telefon uz značajno sniženje cijene
Motorola je objavila novu generaciju preklopnog modela Razr Ultra i odmah ga ponudila po sniženoj cijeni, uz poboljšani zaslon od 165 Hz i niz AI-funkcija.

min čitanja

Više

Tehnologija

Peking koristi američke restrikcije: nova viza za privlačenje globalnih IT stručnjaka
Američka naknada od 100 000 dolara za H-1B vize potaknula je inženjere na odlazak, a Kina im otvara vrata novim dugoročnim vizama.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Tehnologija

Tron: Ares nudi sentimentalnog supervojnika i tvrdi da se AI zapravo samo želi družiti
Film prikazuje ratnog robota koji razvija emocije i tvrdi da umjetna inteligencija nema mračne namjere, unatoč stvarnim kontroverzama u svijetu AI-ja.

min čitanja

Više

Tehnologija

Apple podiže ulog: do 2 milijuna dolara za najopasnije sigurnosne propuste
Najviša isplata u Appleovu bug bounty programu raste na 2 milijuna dolara, a uz bonuse može doseći 5 milijuna. Tvrtka širi kategorije ranjivosti i jača zaštitu kroz novu funkciju Memory Integrity Enforcement.

min čitanja

Više

Najčitanije

Politika

Udruge prijavile Thompsona zbog „Za dom spremni”
Antifašistička liga, Documenta i VeDRA traže sankcioniranje pjevača zbog ustaškog pozdrava na koncertima u Zagrebu i Sinju.

min čitanja

Više

Skijanje

Petra Vlhova ponovno na stazi: povratak nakon dvije operacije koljena
Slovačka olimpijska prvakinja kreće s prvim treninzima na Stelviju nakon 20 mjeseci pauze.

min čitanja

Više

Politika

Bijela kuća bijesna zbog Nobela: „Politika ispred mira”
Bijela kuća optužuje Nobelov odbor da „politiku stavlja ispred mira” nakon što je nagrada za 2025. dodijeljena venezuelanskoj oporbenoj čelnici, a ne Donaldu Trumpu.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Politika

Beograd zakazao suđenje Krunoslavu Fehiru za 12. studenoga
Ključni svjedok protiv Branimira Glavaša ostaje u beogradskom pritvoru; odvjetnik tvrdi da je uhićenje bilo nezakonito, dok Zagreb obećava pravnu i financijsku pomoć.
By European Commission - https://newsroom.consilium.europa.eu/events/20240613-justice-and-home-affairs-council-june-2024/Roundtable(Justice)-27833/187367, Public Domain, https://commons.wikimedia.org/w/index.php?curid=171255177

min čitanja

Više

Biznis

HUP upozorava: skok minimalca prijeti otkazima i reže ulaganja
Poslodavci upozoravaju da će nagli rast minimalne plaće i administrativno zamrzavanje cijena hrane potaknuti otkaze, rezati investicije i povećati ovisnost o uvozu.

min čitanja

Više

Najnovije

Vijesti

Lubanja pronađena u blizini Okučana, policija traga za identitetom

Sport

Đoković unatoč vrućini i zdravstvenim brigama izborio polufinale Šangaja

Sport

Dinamo objavio detalje prodaje ulaznica za gostovanje u Malmöu

Biznis

Volkswagenova prodaja rasla unatoč slabijim rezultatima u Kini i SAD-u

Vijesti

Kolinda Grabar-Kitarović: „Kamo sreće da smo svi barem malo kao Halid”

Politika

Verbalni okršaj Matijevića i Ivoševića ispred gradske vijećnice

Vijesti

Akcija u Puli: kontrola parkiranja na mjestima za osobe s invaliditetom

Politika

Trajna legalizacija bez roka: Ministarstvo predlaže digitalizirani postupak i jaču zaštitu koridora

Vijesti

Prvo uhićenje po novom zakonu: djevojka iz Sarajeva mjesecima uhodila glumca Feđu Štukana

Vijesti

U ruskom labirintu nestala kći: Davor Sluganović tri godine traži Evu

Tehnologija

AI ubrzava napade: nova verzija Ivantijeva VPN-a brani jezgru sustava u kritičnom 72-satom prozoru