Istraživači iz Meta FAIR-a i Nacionalnog sveučilišta u Singapuru predstavili su okvir Self-Play In Corpus Environments – SPICE, novi pristup koji omogućuje umjetnoj inteligenciji da sama unapređuje vlastite sposobnosti bez izravnog nadzora ljudi.
SPICE u istoj jezgri modela odvaja dvije uloge:
- „Challenger” kreira sve složeniji niz zadataka oslanjajući se na golemi korpus dokumenata.
- „Reasoner” rješava te zadatke, ali bez uvida u izvorne dokumente.
Takvo razbijanje „informacijske simetrije” uklanja klasične zamke samosuprotstavljanja jezičnih modela – ponavljajuće izazove i gomilanje halucinacija.
„Ovi sustavni neuspjesi pokazuju da je za samounapređenje potreban vanjski izvor raznolikih, provjerljivih povratnih informacija, a ne zatvorena introspekcija”, navode autori u radu.
Kako funkcionira
• Adverzalna dinamika: Challenger je nagrađen kada postavi pitanja koja su dovoljno teška, ali dostižna; Reasoner dobiva bodove za točne odgovore. • Automatski kurikulum: razinom po razinu oba agenta podižu letvicu pa se sustav prilagođava vlastitoj „granici mogućnosti”. • Raznolikost zadataka: od višestrukog izbora do otvorenih odgovora, i to u svim domenama – daleko šire od dosadašnjih, često usko specijaliziranih okvira.
Rezultati
Istraživači su SPICE testirali na baznim modelima Qwen3-4B-Base i OctoThinker-3B-Hybrid-Base te ga usporedili s više standardnih polaznih točaka, uključujući treniranje s unaprijed definiranim „jakim” izazivačem i popularne metode R-Zero i Absolute Zero. U matematičkim i općim zadacima razumijevanja SPICE je u svim slučajevima osigurao osjetno bolje rezultate.
• Točnost Reasonera na fiksnom skupu problema porasla je s 55 % na 85 % tijekom treninga. • Kasnije verzije Challengera srušile su prolaznost ranog Reasonera s 55 % na 35 %, potvrđujući da oba agenta evoluiraju.
Što slijedi
Za sada sustav koristi tekstualni korpus, ali cilj je proširiti izazove na fizički svijet, internetske interakcije i multimedijalne podatke – video, zvuk ili senzorske signale. Autori smatraju da SPICE označava „zaokret s zatvorenih petlji koje stagniraju zbog halucinacija prema otvorenom, beskrajnom poboljšavanju kroz kontakt s provjerljivim znanjem”.