Istraživači iz Tencent AI Laba i Sveučilišta Washington u St. Louisu predstavili su novi okvir nazvan R-Zero koji omogućuje velikim jezičnim modelima (LLM-ovima) da se treniraju bez ijednog ljudski označenog podatka.
Modeli kao vlastiti učitelji
• R-Zero započinje s jednim osnovnim modelom koji se dijeli na dvije uloge: – Challenger (izazivač) generira zadatke točno na granici trenutačnih mogućnosti modela. – Solver (rješavač) nastoji riješiti te sve teže zadatke i za to biva nagrađen.
• Nakon svake runde izazova Solverova rješenja idu na „glasovanje” – većinska odluka određuje točan odgovor, a najraznovrsnija pitanja ulaze u novu trening-datoteku. Ciklus se ponavlja, pri čemu oba modela ko-evoluiraju i postaju sve sposobniji bez ikakve ljudske intervencije.
Rezultati na otvorenim modelima
• Na modelu Qwen3-4B-Base prosječni rezultat na matematičkim testovima porastao je za 6,49 bodova, dok je veći Qwen3-8B-Base napredovao za 5,51 boda nakon tri iteracije.
• Već prva iteracija donijela je znatni skok, što, prema autorima, potvrđuje da „inteligentni kurikulum” koji stvara RL-učen Challenger djeluje bolje od slučajno generiranih zadataka.
• Stečene vještine s matematike prenijele su se i na opće domene: isti Qwen3-4B-Base ostvario je poboljšanje od 7,54 boda na skupovima MMLU-Pro i SuperGPQA.
• R-Zero se pokazao učinkovitom predpripremom; modeli koji su prošli ovaj proces kasnije su postizali dodatna poboljšanja kad su naknadno fino podešeni na klasičnim, ručno označenim podacima.
Zašto je to važno za industriju
Dok je prikupljanje i označavanje velikih korpusa podataka skupo i sporo, R-Zero preskače taj usko grlo. Chengsong Huang, suautor rada, ističe da je riječ o „putu prema stvaranju AI-a koji može nadmašiti ljudske sposobnosti jer više nije ograničen ljudskim znanjem ili podacima”.
Izazovi koji ostaju
• Točnost „samogeneriranih” odgovora pada kako zadaci postaju teži: s 79 % u prvoj na 63 % u trećoj iteraciji u usporedbi s referentnim GPT-4 modelom. Autori priznaju da je dugoročno održavanje napretka bez plateau-efekta „značajan istraživački izazov”.
• Okvir zasad najbolje radi u disciplinama s jasnim kriterijem točnosti, primjerice matematici. Za subjektnije zadatke istraživači razmatraju dodavanje trećeg agenta – Verifikatora – koji bi procjenjivao kvalitetu odgovora prema finijim kriterijima.
R-Zero tako otvara vrata autonomnim sustavima koji bi jednog dana mogli učiti i o objektivnim i o subjektivnim problemima – bez da itko ručno priprema podatke.