Istraživači sa Sveučilišta Shanghai Jiao Tong i partnerskih institucija predstavili su MemRL, okvir koji velikim jezičnim modelima (LLM) daje mogućnost da nakon implementacije samostalno uče nove zadatke – bez dodatnog fine-tuninga i rizika od „katastrofičnog zaboravljanja”.
Za razliku od parametarskih metoda, koje zahtijevaju skupo i sporo prilagođavanje težina modela, ili pasivnih sustava pretraživanja znanja (RAG), MemRL odvajа „korteks” (smrznuti LLM) od epizodnog pamćenja smještenog u vanjsku bazu podataka. Svako novo iskustvo pohranjuje se kao trojka „namjera–iskustvo–korisnost”, pri čemu se korisnost mjeri Q-vrijednošću koja se ažurira povratnom informacijom iz okoline.
Taj je „dvofazni” pristup presudan: najprije se pronalaze semantički slična sjećanja, a zatim se ponovno rangiraju prema dosadašnjoj uspješnosti. Time agent uči ignorirati distrakcije i favorizirati rješenja koja su se pokazala djelotvornima, dok sam LLM ostaje netaknut.
MemRL je testiran na četiri različita industrijska mjerila – BigCodeBench (generiranje koda), ALFWorld (navigacija po kućanstvu), Lifelong Agent Bench (rad s operativnim sustavom i bazama) i Humanity’s Last Exam (višedisciplinarno rezoniranje). U svim je kategorijama premašio konkurentske pristupe u učenju u stvarnom vremenu i prenošenju znanja na neviđene zadatke. Posebno se istaknuo u ALFWorldu, gdje je zabilježio približno 56 % bolji rezultat od MemP-a, drugog okvira s memorijom agenta.
Izvedba ne trpi zbog dodatnog koraka potkrepljujućeg učenja: izračun Q-vrijednosti odvija se isključivo na CPU-u, pa kašnjenje ostaje zanemarivo. Ipak, autori upozoravaju na mogućnost „otrovanog pamćenja” – pogrešno ocijenjenih interakcija – no naglašavaju da se problem lako otklanja brisanjem ili resetiranjem spornih zapisa jer je memorija transparentna i revizibilna.
MemRL se uklapa u sve popularniji istraživački smjer nazvan Memory-Based Markov Decision Processes, gdje je dohvat iz memorije definiran kao akcija koju agent optimizira učenjem. Za poslovne korisnike to znači da se opći LLM može pustiti u produkciju, a da potom sam skuplja i vrednuje interne procese, podatke i poslovna pravila – bez stalnog skupog pretreniravanja.
„U svijetu u kojem statični skupovi podataka postaju iscrpljeni, iskustva generirana tijekom života svakog inteligentnog agenta postat će novo gorivo”, poručuju autori. Ako MemRL ispuni obećanja iz laboratorija, sljedeća generacija poslovnih asistenta mogla bi doslovno učiti – dok radi.