Veliki jezični modeli sve češće rješavaju poslovne zadatke koji zahtijevaju obradu desetaka tisuća tokena – od pravnih ugovora do višednevnih razgovora sa strankama. No kako raste duljina konteksta, linearno raste i memorija u kojoj se pohranjuju ključevi i vrijednosti (KV) svakog prethodnog tokena, što brzo iscrpljuje skupu radnu memoriju GPU-ova.
„U praksi je KV predmemorija najveće usko grlo pri posluživanju modela s iznimno dugim kontekstom”, rekao je koautor rada Adam Zweiger. Prevelika predmemorija ograničava broj istovremenih korisnika, prisiljava na manje serije upita ili zahtijeva preskupo premještanje podataka na sporiju pohranu.
Postojeća rješenja – izbacivanje starijih tokena, spajanje sličnih vektora ili sažimanje teksta – daju prihvatljive rezultate pri blagom smanjenju, ali drastično kvare kvalitetu kad je potreban veći stupanj kompresije. Druga recentna metoda, Cartridges, pokazala je da se KV memorija može snažno sažeti, no traži dugotrajno gradijentno optimiranje pa je nepraktična za sustave u stvarnom vremenu.
Istraživači s MIT-a zato su razvili Attention Matching, postupak koji do 50 puta smanjuje KV predmemoriju gotovo bez gubitka točnosti, a pritom radi višestruko brže od metoda temeljenih na učenju.
Ključ je u očuvanju dvaju matematičkih svojstava tijekom kompresije:
- attention output – izračun informacija koje model dohvati pri svakoj upotrebi memorije;
- attention mass – relativne „težine” koje pojedini token ima u odnosu na ostale.
Ako manja memorijska slika točno reproducira oba svojstva, model se ponaša isto kao da raspolaže originalnom, znatno većom predmemorijom.
„Attention Matching je na neki način 'ispravan' cilj za latentno sažimanje konteksta jer izravno cilja na očuvanje ponašanja svake attention glave nakon sažimanja”, dodao je Zweiger.
U stres-testovima na otvorenim modelima Llama 3.1 i Qwen-3 tehnika je isprobana na dvije vrste podataka: QuALITY, skupu dokumenata od 5 000 do 8 000 riječi, i LongHealth, složenoj kolekciji od 60 000 tokena s medicinskim zapisima više pacijenata. I pri najagresivnijem smanjenju izlazna kvaliteta ostala je gotovo nepromijenjena.
Takvo ubrzano i precizno krčenje radne memorije moglo bi otvoriti put servisiranju LLM-ova na jeftinijem hardveru te omogućiti nove aplikacije koje zahtijevaju ultradugi kontekst, bez žrtvovanja performansi.