R-Zero obećava samostalno učenje velikih jezičnih modela bez ljudskih oznaka

Istraživači iz Tencent AI Laba i Sveučilišta Washington u St. Louisu predstavili su novi okvir za treniranje velikih jezičnih modela (LLM-ova) koji bi mogao ukinuti jednu od najvećih prepreka u razvoju napredne umjetne inteligencije – skupu i sporovoznu izradu označenih skupova podataka.

R-Zero, kako glasi naziv sustava, omogućuje modelima da „uče sami od sebe”. Umjesto da se oslanjaju na ručno pripremljene zadatke i točne odgovore, dva neovisna modela — Challenger i Solver — međusobno se izazivaju i evoluiraju kroz višekratne cikluse pojačanog učenja.

Challenger generira nova pitanja koja su taman na granici trenutnih mogućnosti Solvera.
Solver nastoji riješiti te zadatke i za to prima nagradu.
Najbolji odgovori prema većinskom glasanju postaju nova „točna” rješenja.
Proces se ponavlja, pa oba modela postaju sve sposobnija.

U prvim pokusima R-Zero je primijenjen na otvorenokodne modele Qwen3 i OctoThinker. Nakon tri iteracije treniranja na matematičkim problemima: • Qwen3-4B-Base poboljšao je prosječni rezultat na skupovima zadataka za računanje za 6,49 bodova, a na općim testovima rezoniranja za 7,54 boda. • Veći Qwen3-8B-Base skočio je za 5,51 bod nakon tri kruga.

Najveći napredak zabilježen je već nakon prvog kruga, što, prema autorima, potvrđuje da algoritamski složena „nastavna shema” Challengera nadmašuje statične, unaprijed pripremljene skupove podataka.

Za poslovne korisnike najprivlačniji je aspekt činjenica da R-Zero u potpunosti zaobilazi skupe procese prikupljanja, označavanja i čišćenja podataka, posebice u nišnim područjima gdje kvalitetni skupovi podataka jednostavno ne postoje.

Ipak, autori upozoravaju na važnu zamku: kako zadaci postaju teži, preciznost samostalno generiranih „točnih” odgovora pada – s 79 % u prvom ciklusu na 63 % u trećem. Taj pad pouzdanosti označen je kao ključna prepreka za dugoročno, stabilno poboljšavanje sustava.

Trenutačna je metoda najprikladnija za domene u kojima se ispravnost može jasno provjeriti, poput matematike. Za subjektivnije zadatke – primjerice pisanje marketinškog teksta ili sažimanje poslovnih izvješća – istraživači razmatraju uvođenje trećeg, „kritičarskog” modela koji bi ocjenjivao kvalitetu odgovora po složenijim kriterijima.

Ako se pokaže održivom u širem spektru primjena, R-Zero bi mogao znatno ubrzati razvoj specijaliziranih, visokokvalitetnih jezičnih modela i pritom smanjiti troškove do sada neizostavnog označavanja podataka.

Challenger generira nova pitanja koja su taman na granici trenutnih mogućnosti Solvera.
Solver nastoji riješiti te zadatke i za to prima nagradu.
Najbolji odgovori prema većinskom glasanju postaju nova „točna” rješenja.
Proces se ponavlja, pa oba modela postaju sve sposobnija.

R-Zero obećava samostalno učenje velikih jezičnih modela bez ljudskih oznaka

Komentari ~ 0

R-Zero obećava samostalno učenje velikih jezičnih modela bez ljudskih oznaka

Komentari ~ 0