Rast agentičkih sustava umjetne inteligencije otkrio je neočekivanu usku grla: nedostatak radne memorije na GPU-ovima. Ključni problem nisu procesorske jedinice ni veličina modela, nego Key-Value (KV) keš koji čuva kontekst svake interakcije.
„Kad gledamo infrastrukturu inferenciranja, izazov nije u GPU ciklusima. To je prvenstveno problem GPU memorije”, pojašnjava Shimon Ben-David, glavni tehnološki direktor tvrtke WEKA.
Kako transformeri funkcioniraju • Svaki izgovoreni ili napisani token sprema se u KV-keš. • Što je prozor konteksta dulji, to je potrošnja memorije veća. • Najnapredniji GPU-ovi nude najviše 288 GB brze HBM memorije, a u istoj treba smjestiti i sam model.
Kad nema mjesta, sustav izbacuje starije podatke, pa pri sljedećoj potrebi ponovno popunjava KV-keš. Taj ciklus „prefill – dekodiranje – ponovno prefill” vodi do: • oko 40 % izgubljenog vremena i energije na redundantne izračune, • povećane latencije i poskupljenja rada u oblaku, • lošijeg korisničkog iskustva, osobito u aplikacijama poput pisanju koda ili obradi poreznih prijava koje zahtijevaju postojani kontekst.
Zašto dodatni GPU-ovi ne pomažu Nadogradnja hardvera samo multiplicira isti nedostatak memorije. Svaki novi akcelerator ponavlja ciklus izbacivanja i popunjavanja, pa trošak i potrošnja energije linearno rastu, a temeljni problem ostaje.
WEKA-ino rješenje: proširena memorija Tvrtka predlaže „Augmented Memory Grid” i tzv. token warehousing – premještanje KV-keša izvan samog GPU-a u brzu, zajedničku memorijsku „skladišnu mrežu” (NeuralMesh). Time se: • oslobađa prostor na akceleratoru, • sprječava izbacivanje podataka, • smanjuje ponovni preračun i ukupni trošak inferenciranja.
„Stalno promatramo GPU-ove koji u produkciji izračunavaju iste stvari iznova”, kaže Ben-David, upozoravajući da nevidljivi gubici već nagrizaju marže tvrtki koje su AI agente uvele u radne procese.
Kako industrija prelazi iz eksperimentalnih u stvarne radne opterećenja, rješavanje ovog „memory walla” postaje presudno. Bez dugoročnog odgovora, ambicija o sveprisutnim, kontekstualno svjesnim AI asistentima mogla bi naići na – ograničenje kapaciteta memorije.