Znanstvenici s Massachusetts Institute of Technology (MIT) osmislili su novu metodu koja velikim jezičnim modelima (LLM-ovima) omogućuje da nastave usvajati znanje i nakon što službeno završi njihovo osnovno treniranje.
Riječ je o sustavu Self Adapting Language Models (SEAL). On model potiče da sam generira sintetičke podatke za vježbu te zatim, na temelju tog materijala, mijenja vlastite težine i parametre.
„The initial idea was to explore if tokens could cause a powerful update to a model”, objasnio je doktorand Jyothish Pari, jedan od autora SEAL-a. Pari i kolega Adam Zweiger, dodiplomski istraživač na MIT-u, ističu kako današnji modeli mogu do boljih odgovora doći složenijim rezoniranjem, ali se to „kratkoročno mudrovanje” ne ugrađuje trajno u njihove sposobnosti. SEAL tu prazninu popunjava: model stvara nove bilješke, „uči” iz njih i tako, poput marljivog studenta, postupno proširuje repertoar znanja.
Testovi na otvorenim modelima Llama (Meta) i Qwen (Alibaba) te na skupu zadataka ARC pokazali su da ovakav pristup omogućuje kontinuirani napredak izvan početnih granica treniranja. Voditelj istraživanja, profesor Pulkit Agrawal, sažima cilj projekta: „LLMs are powerful but we don’t want their knowledge to stop.”
Unatoč obećavajućim rezultatima, SEAL se zasad suočava s dva velika izazova. Prvi je fenomen „katastrofičnog zaborava” – unošenje novih informacija ponekad potiskuje staro znanje. Drugi je velika računalna zahtjevnost procesa, posebice kad se razmišlja o primjeni na današnjim, višestruko većim „frontier” modelima.
Zweiger predlaže i neobičnu ideju: možda bi, poput ljudi, i LLM-ovi mogli ‑ spavati. Tijekom takvih „pauza” model bi konsolidirao novo gradivo, čime bi se ublažio zaborav i smanjili troškovi stalnog ažuriranja.
Iako trenutačno nije riječ o metodi koja će umjetnoj inteligenciji priskrbiti beskonačni rast, SEAL otvara novu stazu u potrazi za sustavima koji uče neprekidno, personalizirano i – što je ključno – bez nadzora čovjeka. Istraživački tim vjeruje da bi se slični mehanizmi uskoro mogli naći u budućim komercijalnim modelima, od naprednih chat-botova do specijaliziranih alata za kodiranje ili analizu podataka.