CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

13. veljače 2026, 06:18

Nvidia predstavila DMS: do osam puta manji memorijski trošak zaključivanja velikih jezičnih modela

DMS komprimira KV spremnik LLM-ova, omogućuje dublje „razmišljanje” i do pet puta veći protok korisničkih upita bez gubitka točnosti.

min. čitanja

XFacebookWhatsApp

Nvidia je razvila tehniku dynamic memory sparsification (DMS) koja, prema internim mjerenjima, smanjuje memorijski trošak zaključivanja velikih jezičnih modela (LLM-ova) do osam puta, a pritom održava ili čak poboljšava njihovu točnost.

LLM-ovi pri rješavanju složenih zadataka generiraju tzv. chain-of-thought tokene, čime raste njihov privremeni spremnik ključ-vrijednost (KV cache). Kako spremnik linearno buja, GPU-ovi troše sve više vremena na dohvat podataka umjesto na izračun, što povećava latenciju i ograničava broj paralelnih korisnika. „Pitanje nije samo o količini hardvera; radi se o tome obrađuje li vaša infrastruktura 100 niti zaključivanja ili 800 niti za isti trošak”, istaknuo je Piotr Nawrot, viši inženjer dubokog učenja u Nvidiji.

Za razliku od prijašnjih heurističkih rješenja – primjerice kliznih prozora koji jednostavno brišu starije tokene – DMS ugrađuje inteligentni mehanizam unutar postojećeg modela. Tijekom svega tisuću dodatnih koraka učenja, dio neurona u slojevima pozornosti prerasporedi se kako bi za svaki token generirao signal „zadrži” ili „izbaci”. Ključna je i funkcija „odgođene deložacije”: token označen za brisanje ostaje u spremniku još kratko vrijeme, što modelu pruža priliku da izvuče preostale informacije prije konačnog uklanjanja.

U testovima na modelima Qwen-R1 i Llama 3.2 DMS je pomaknuo tzv. Pareto-frontu odnosa cijene i učinka. Na matematičkom benchmarku AIME 24, Qwen-R1 32B opremljen DMS-om ostvario je 12 bodova bolji rezultat od standardne inačice pri jednakom memorijskom budžetu. U "needle-in-a-haystack" provjerama dugoga konteksta, varijante s DMS-om čak su nadmašile osnovne modele, jer aktivno održavaju „čistiji” i relevantniji kontekst.

Praktične koristi najvidljivije su u propusnosti sustava. Na modelu Qwen3-8B DMS je zadržao istu točnost, ali isporučio do pet puta više odgovora u sekundi, čime jedan poslužitelj može poslužiti višestruko više korisnika bez dodatnog hardvera.

DMS je objavljen u sklopu Nvidijine biblioteke KVPress i kompatibilan je s uobičajenim Hugging Face cjevovodima i FlashAttentionom, pa za uvođenje nije potrebno prilagođavati CUDA jezgre. Tehnika radi i s novijim arhitekturama poput Multi-Head Latent Attentiona, a u Nvidiji očekuju da će „upravljanje memorijom postati zaseban, inteligentan sloj AI-stoga”.

„Tek smo zagrebli površinu onoga što je moguće i uvjereni smo da će se skaliranje tijekom izvođenja i dalje razvijati”, zaključuje Nawrot.

#nvidia#hugging-face#piotr-nawrot#aime#latent-attention

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

OpenAI predstavio GPT-5.3-Codex-Spark: 15 puta brži model za kodiranje u stvarnom vremenu
OpenAI se udružio s Cerebras Systemsom kako bi lansirao ultrabrzi model za kodiranje, prvi put izvan Nvidia infrastrukture.

min čitanja

Više

Tehnologija

Nvidia Blackwell dramatično reže troškove AI inferencija
Analiza četiriju tvrtki pokazuje da kombinacija Nvidijina Blackwella, optimiziranog softvera i otvorenih modela snižava cijenu AI inferencije i do deset puta.

min čitanja

Više

Tehnologija

Zaprešić otkrio golemo geotermalno ležište: toplina iz dubine mogla bi grijati cijeli grad
Prvo testiranje bušotine kod Zaprešića otkrilo je izuzetno propusno geotermalno ležište, dovoljno snažno da od 2028. godine grije cijeli grad.

min čitanja

Više

Tehnologija

Krvni testovi nude nadu za rano otkrivanje Parkinsonove bolesti
Skandinavski istraživači pronašli su biomarkere Parkinsonove bolesti u krvi, što bi moglo omogućiti dijagnozu godinama prije prvih simptoma.

min čitanja

Više

Tehnologija

Kineski MiniMax lansira M2.5 i ruši cijene vrhunskih jezičnih modela
Startup iz Šangaja tvrdi da novim modelom M2.5 i njegovom Lightning verzijom donosi 95-postotno sniženje troškova generativne umjetne inteligencije.

min čitanja

Više

Tehnologija

Waymo poziva stanovnike Washingtona na pritisak vlastima radi odobrenja robotaksija
Waymo je pokrenuo masovnu kampanju e-mailova kako bi natjerao vlasti Washingtona, DC, da dopuste potpuno autonomne robotaksije.

min čitanja

Više

Tehnologija

Misteriozni kineski klikovi preplavili malu internetsku stranicu iz Kolumbije
Nišna stranica o duhovima i izvanzemaljcima, pisana na španjolsko-engleskoj mješavini, odjednom prima većinu prometnih klikova iz Kine i Singapura, zbunjujući svojeg kolumbijskog vlasnika.

min čitanja

Više

Tehnologija

Google u Chrome Canaryju uvodi WebMCP i otvara web za izravnu suradnju s AI agentima
Eksperimentalna verzija Chromea dobila je WebMCP, novi protokol koji AI agentima daje izravan, strukturiran pristup funkcijama web-stranica.

min čitanja

Više

Tehnologija

‘Hakirani smo’: splitski klubovi Boiler i Olive Tree prijavili milijunske gubitke
Vlasnici splitskih klubova tvrde da su kibernetičkim napadom ostali bez milijunskih prihoda, a u slučaju se spominju i visoko pozicionirani akteri.

min čitanja

Više

Tehnologija

Split dobio pametne semafore, vozači prisiljeni mijenjati navike
Novi inteligentni sustav upravljanja prometom obuhvatio je 86 raskrižja u Splitu i Solinu, donio videonadzor i analitiku te primorao vozače na nove rituale za volanom.

min čitanja

Više

Najčitanije

Nogomet

Autor autorsko pravo: GNK Dinamo Zagreb - https://gnkdinamo.hr/, Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=790542

UEFA otkrila zarade: Dinamu 39,7 milijuna eura unatoč propuštenom nokautu
Financijsko izvješće UEFA-e otkriva da je Dinamo, iako bez nokaut-faze, zaradio rekordnih 39,71 milijun eura u Ligi prvaka 2024./2025.

min čitanja

Više

Nogomet

By http://www.mancity.com/, Fair use, https://en.wikipedia.org/w/index.php?curid=51208953

Arsenal u blokadi protiv Brentforda: prednost na vrhu Premier lige se topi
Brentford je izborio bod protiv lidera Arsenala i smanjio im prednost ispred Manchester Cityja na samo četiri boda.

min čitanja

Više

Najnovije

Politika

Macan prozvao Orešković zbog Facebook objave: „Budite manje brzi na okidaču”

Vijesti

Masovna tučnjava u Makarskoj: pet osoba ozlijeđeno, trojica uhićenih

Sport

Dubrovnik u DNK Hajduka: 115 godina od povijesnog potpisa

Politika

Stečaj prijeti Hrvatskoj stranci građanskog otpora zbog duga od 1852 eura

Sport

Vušković opet najbolji mladi igrač Bundeslige

Vijesti

Trpimirova obala opet pod morem

Vijesti

U utorak kreće isplata 160 eura nacionalne naknade za starije

Lifestyle

Zadarski liječnik Boris Dželalija predstavio društveno angažirani roman „I razbiše se valovi”

Vijesti

Kino Europa kreće u potpunu obnovu uz 11,6 milijuna eura vrijedan projekt

Sport

Bearina neispričana priča: umjesto u Zvezdu sanjao je Dinamo

Biznis

Novi kontejnerski terminal pogurao riječku luku na vrh domaćeg pomorskog prometa