Japan-ski laboratorij Sakana AI objavio je algoritam Model Merging of Natural Niches (M2N2) koji, po riječima autora, omogućuje da se sposobnosti više specijaliziranih sustava uklope u jedan moćniji model – i to bez klasičnog, skupo plaćenog fine-tuninga.
Modeli se ne treniraju iznova, već se njihovi već naučeni parametri međusobno stapaju. Budući da je postupak „bez gradijenata” i koristi samo prolaze prema naprijed, računalno je znatno jeftiniji od ponovno pokretanog učenja, a pritom nije potrebna ni originalna skupina podataka. Takav pristup, navodi tim, smanjuje rizik od „katastrofalnog zaboravljanja” – gubitka starih vještina pri svladavanju novih zadataka.
Tri evolucijska trika
- Nema fiksnih granica. Umjesto da se spajaju cijeli slojevi, M2N2 određuje fleksibilne „točke presjeka” pa, primjerice, u jednom sloju preuzima 30 % parametara iz Modela A i 70 % iz Modela B.
- Natjecanje za raznolikost. Algoritam simulira borbu za ograničene resurse te u arhivi čuva modele s jedinstvenim vještinama, a slabije izbacuje. „Zamišljajte to kao spajanje dviju ispitnih skripti – najbolje je ako svaka zna različite odgovore”, pojašnjavaju istraživači.
- „Privlačnost” pri uparivanju. Modeli se ne biraju samo po ukupnom rezultatu nego prema tome nadopunjuju li si slabosti: jedan je jak ondje gdje drugi posustaje.
Pokusima do dokaza
• MNIST klasifikacija – M2N2 je iz početka evoluirao neuronske mreže i ostvario najveću točnost u odnosu na ostale metode.
• Spajanje LLM-ova – matematički specijalist WizardMath-7B i agencijski AgentEvol-7B (obojica na arhitekturi Llama 2) udruženi su u jednog agenta koji rješava zadatke GSM8K i WebShop, pokrivajući i računanje i web-navigaciju.
• Difuzijski generator slika – japanski model JSDXL spojen je s trima Stable Diffusion varijantama treniranima na engleskim uputama. Rezultat su fotorealistične slike uz „novonastalu” dvojezičnost: sustav razumije i japanske i engleske upite premda je optimiran samo na japanske opise.
Što to znači za poduzeća?
Autori ističu da bi se, primjerice, LLM za persuasivni prodajni govor mogao stopiti s vizijskim modelom koji očitava reakcije kupaca – i sve raditi u jednom procesu, uz manju latenciju i trošak. M2N2-ov izvorni kod već je dostupan na GitHubu.
Gledajući naprijed, tim vidi „ekosustav koji se neprestano razvija i spaja po potrebi”. No najveća prepreka nije tehnička, nego organizacijska: u svijetu golemih „spojenih modela” složenih od otvorenih, komercijalnih i vlasničkih komponenti, ključni će izazovi biti privatnost, sigurnost i usklađenost s propisima.