Istraživači Googlea objavili su novu tehniku treniranja velikih jezičnih modela (LLM-ova) koja bi mogla značajno smanjiti halucinacije i poboljšati sposobnost dugoročnog planiranja.
Prelazak s predviđanja sljedećeg tokena
Standardni pristup treniranju LLM-ova oslanja se na autoregresivno predviđanje sljedećeg znaka ili riječi. Taj je postupak učinkovit za kraće zadatke, ali postaje neučinkovit kada je potrebno više koraka razmišljanja; model svaku novu strategiju mora istraživati promjenom tek jednog znaka, što često dovodi do pogrešaka i „rušenja” logičkog slijeda.
Što donosi „internal RL”
Nova metoda, nazvana „interna pojačana učenja” (internal reinforcement learning), preusmjerava fokus s površinskog nizanja riječi na upravljanje samim internim aktivacijama modela. Umjesto da nagrađuje svaki ispravno pogađeni token, algoritam nagrađuje korake koji vode prema cjelovitom, logičnom rješenju problema. Time se modelu otvara „viša razina apstrakcije” na kojoj može planirati dulje nizove akcija i izbjeći lutanja u beskorisne kombinacije riječi.
Moguće primjene
Istraživači tvrde da bi ova tehnika mogla biti „skalabilan put” prema autonomnim agentima koji rješavaju složene zadatke – od naprednih virtualnih asistenata do robota u stvarnom okruženju – uz znatno manje ručnog nadzora i intervencija.
Iako detalji rada još nisu javno objavljeni, najava označava novi smjer u razvoju umjetne inteligencije: umjesto finog ugađanja konačnog izlaza, razvojni timovi sve se više usredotočuju na to kako modeli „razmišljaju” unutar sebe.