Nvidia je razvila tehniku dynamic memory sparsification (DMS) koja, prema internim mjerenjima, smanjuje memorijski trošak zaključivanja velikih jezičnih modela (LLM-ova) do osam puta, a pritom održava ili čak poboljšava njihovu točnost.
LLM-ovi pri rješavanju složenih zadataka generiraju tzv. chain-of-thought tokene, čime raste njihov privremeni spremnik ključ-vrijednost (KV cache). Kako spremnik linearno buja, GPU-ovi troše sve više vremena na dohvat podataka umjesto na izračun, što povećava latenciju i ograničava broj paralelnih korisnika. „Pitanje nije samo o količini hardvera; radi se o tome obrađuje li vaša infrastruktura 100 niti zaključivanja ili 800 niti za isti trošak”, istaknuo je Piotr Nawrot, viši inženjer dubokog učenja u Nvidiji.
Za razliku od prijašnjih heurističkih rješenja – primjerice kliznih prozora koji jednostavno brišu starije tokene – DMS ugrađuje inteligentni mehanizam unutar postojećeg modela. Tijekom svega tisuću dodatnih koraka učenja, dio neurona u slojevima pozornosti prerasporedi se kako bi za svaki token generirao signal „zadrži” ili „izbaci”. Ključna je i funkcija „odgođene deložacije”: token označen za brisanje ostaje u spremniku još kratko vrijeme, što modelu pruža priliku da izvuče preostale informacije prije konačnog uklanjanja.
U testovima na modelima Qwen-R1 i Llama 3.2 DMS je pomaknuo tzv. Pareto-frontu odnosa cijene i učinka. Na matematičkom benchmarku AIME 24, Qwen-R1 32B opremljen DMS-om ostvario je 12 bodova bolji rezultat od standardne inačice pri jednakom memorijskom budžetu. U "needle-in-a-haystack" provjerama dugoga konteksta, varijante s DMS-om čak su nadmašile osnovne modele, jer aktivno održavaju „čistiji” i relevantniji kontekst.
Praktične koristi najvidljivije su u propusnosti sustava. Na modelu Qwen3-8B DMS je zadržao istu točnost, ali isporučio do pet puta više odgovora u sekundi, čime jedan poslužitelj može poslužiti višestruko više korisnika bez dodatnog hardvera.
DMS je objavljen u sklopu Nvidijine biblioteke KVPress i kompatibilan je s uobičajenim Hugging Face cjevovodima i FlashAttentionom, pa za uvođenje nije potrebno prilagođavati CUDA jezgre. Tehnika radi i s novijim arhitekturama poput Multi-Head Latent Attentiona, a u Nvidiji očekuju da će „upravljanje memorijom postati zaseban, inteligentan sloj AI-stoga”.
„Tek smo zagrebli površinu onoga što je moguće i uvjereni smo da će se skaliranje tijekom izvođenja i dalje razvijati”, zaključuje Nawrot.