SPICE donosi samonapredujuće AI sustave bez ljudske intervencije

Istraživači iz Meta FAIR-a i Nacionalnog sveučilišta u Singapuru predstavili su okvir Self-Play In Corpus Environments – SPICE, novi pristup koji omogućuje umjetnoj inteligenciji da sama unapređuje vlastite sposobnosti bez izravnog nadzora ljudi.

SPICE u istoj jezgri modela odvaja dvije uloge:

„Challenger” kreira sve složeniji niz zadataka oslanjajući se na golemi korpus dokumenata.
„Reasoner” rješava te zadatke, ali bez uvida u izvorne dokumente.

Takvo razbijanje „informacijske simetrije” uklanja klasične zamke samosuprotstavljanja jezičnih modela – ponavljajuće izazove i gomilanje halucinacija.

„Ovi sustavni neuspjesi pokazuju da je za samounapređenje potreban vanjski izvor raznolikih, provjerljivih povratnih informacija, a ne zatvorena introspekcija”, navode autori u radu.

Kako funkcionira

• Adverzalna dinamika: Challenger je nagrađen kada postavi pitanja koja su dovoljno teška, ali dostižna; Reasoner dobiva bodove za točne odgovore. • Automatski kurikulum: razinom po razinu oba agenta podižu letvicu pa se sustav prilagođava vlastitoj „granici mogućnosti”. • Raznolikost zadataka: od višestrukog izbora do otvorenih odgovora, i to u svim domenama – daleko šire od dosadašnjih, često usko specijaliziranih okvira.

Rezultati

Istraživači su SPICE testirali na baznim modelima Qwen3-4B-Base i OctoThinker-3B-Hybrid-Base te ga usporedili s više standardnih polaznih točaka, uključujući treniranje s unaprijed definiranim „jakim” izazivačem i popularne metode R-Zero i Absolute Zero. U matematičkim i općim zadacima razumijevanja SPICE je u svim slučajevima osigurao osjetno bolje rezultate.

• Točnost Reasonera na fiksnom skupu problema porasla je s 55 % na 85 % tijekom treninga. • Kasnije verzije Challengera srušile su prolaznost ranog Reasonera s 55 % na 35 %, potvrđujući da oba agenta evoluiraju.

Što slijedi

Za sada sustav koristi tekstualni korpus, ali cilj je proširiti izazove na fizički svijet, internetske interakcije i multimedijalne podatke – video, zvuk ili senzorske signale. Autori smatraju da SPICE označava „zaokret s zatvorenih petlji koje stagniraju zbog halucinacija prema otvorenom, beskrajnom poboljšavanju kroz kontakt s provjerljivim znanjem”.

SPICE u istoj jezgri modela odvaja dvije uloge:

„Challenger” kreira sve složeniji niz zadataka oslanjajući se na golemi korpus dokumenata.
„Reasoner” rješava te zadatke, ali bez uvida u izvorne dokumente.

Takvo razbijanje „informacijske simetrije” uklanja klasične zamke samosuprotstavljanja jezičnih modela – ponavljajuće izazove i gomilanje halucinacija.

„Ovi sustavni neuspjesi pokazuju da je za samounapređenje potreban vanjski izvor raznolikih, provjerljivih povratnih informacija, a ne zatvorena introspekcija”, navode autori u radu.

Kako funkcionira

Rezultati

Što slijedi

SPICE donosi samonapredujuće AI sustave bez ljudske intervencije

Komentari ~ 0

SPICE donosi samonapredujuće AI sustave bez ljudske intervencije

Komentari ~ 0