Istraživači sa Sveučilišta Illinois u Urbana-Champaignu tvrde da su pronašli jednostavniji način finog podešavanja (fine-tuninga) velikih jezičnih modela (LLM) bez takozvanog katastrofalnog zaborava – gubitka već usvojenih sposobnosti nakon dodatnog treniranja.
Glavni naglasci
• Tim je metodu ispitao na dva vizualno-jezična modela, LLaVA i Qwen 2.5-VL. • Umjesto potpunog ponovnog učenja, istraživači su prilagođavali samo usko područje mreže – višeslojni perceptron (MLP) i projiciranja samopažnje. • Takav pristup, kažu, smanjuje računalne troškove, emisije CO₂ i rizik od gubitka znanja.
„Treniranje novog LMM-a može stajati milijune dolara, trajati tjednima i proizvesti stotine tona CO₂, pa je pronalazak učinkovitijih metoda presudno”, navodi se u radu.
Otkriće prave prirode „zaborava”
Autori su prvo željeli potvrditi postojanje i uzrok fenomena. Nakon što su modele izložili nizu specifičnih zadataka, primijetili su očekivani pad performansi na prethodnim testovima – ali i iznenadan oporavak: model je, primjerice, ponovno ostvario dobre rezultate na medicinskom skupu PathVQA.
„Što se činilo kao zaborav zapravo je pristranost u izlaznoj distribuciji uzrokovana pomakom zadatka”, zaključuju. Kada su podešavali samo projiciranja samopažnje, modeli su savladali nove zadatke „bez ikakvog pada u drugim područjima, čak ni nakon pet uzastopnih ciljanih zadataka”.
Tehnički recept
- Zamrznuti donju projekciju MLP-a.
- Podešavati gornju/gating projekciju MLP-a i/ili projiciranja samopažnje.
Rezultat je, tvrde, usporedivo učenje uz „minimalni drift izlaza” i znatnu uštedu resursa.
Ograničenja i primjena
Studija je zbog ograničenih resursa obuhvatila samo dva modela i multimodalni (slika-tekst) kontekst. Ipak, autori smatraju da se princip može proširiti i na druge LLM-ove te domene, što bi poduzećima omogućilo jeftinije i kontroliranije osvježavanje modela.