Istraživači Nvidije predstavili su tehniku KV Cache Transform Coding (KVTC) koja, bez mijenjanja samog modela, smanjuje memorijske potrebe velikih jezičnih modela za pohranu razgovorne povijesti i do 20 puta.
KVTC prenosi principe kompresije iz medijskih formata poput JPEG-a na ključno-vrijednosni spremnik (key-value cache) transformera. Time se znatno rasterećuju grafičke kartice, a vrijeme do ispisivanja prvog tokena ubrzava se do osam puta.
U praksi to znači da se napredni višekratni dijaloški sustavi mogu pokretati na manjem broju ili slabijim GPU-ovima, otvarajući prostor za veće modele ili niže troškove rada postojećih.
Iako je tehnika zasad istraživačke naravi, njezino uvođenje moglo bi pojednostaviti razvoj i implementaciju generativne umjetne inteligencije u širokom rasponu primjena – od cloud servisa do lokalno pokretanih aplikacija.