DeepSeek predstavlja Engram: hibridna arhitektura koja štedi GPU memoriju i poboljšava rezoniranje

DeepSeek je predstavio modul Engram koji uvodi „uvjetno pamćenje”, nadopunjujući postojeće sustave rijetke aktivacije (MoE – mixture of experts) i otvarajući novu fazu u gradnji velikih jezičnih modela.

Glavna ideja: model paralelno koristi dva sustava
• 75–80 % kapaciteta ostaje namijenjeno izračunu (MoE)
• 20–25 % dobiva ugrađena memorija (Engram)

Stručnjaci tvrde da ekstremi nisu učinkoviti. Čisti MoE troši slojeve na ponovno otkrivanje statičnih uzoraka, dok previše memorije slabi sposobnost rezoniranja. Testovi su pokazali da je zlatna sredina upravo opisani omjer.

Kako radi uvjetno pamćenje

Modul uzima dvotročlane sekvence tokena i preko hash funkcija ih traži u golemoj tablici ugrađenih vektora.
Vraćeni zapisi prolaze dodatnu provjeru: „vrata” uspoređuju pronađeni sadržaj s kontekstom koji je model do tada izgradio.
Ako informacija odudara od konteksta, blokira se; ako se uklapa, pušta se dalje.
Engram se ubacuje samo u odabrane slojeve kako bi se izbjegla kašnjenja.

Pametno zaobilaženje GPU ograničenja

Latimer iz istraživačkog tima objašnjava: „The challenge is that GPU memory is limited and expensive, so using bigger models gets costly and harder to deploy. The clever idea behind Engram is to keep the main model on the GPU, but offload a big chunk of the model's stored information into a separate memory on regular RAM, which the model can use on a just-in-time basis.”

Zahvaljujući determinističkom indeksiranju (ovisnom isključivo o ulaznim tokenima), sustav unaprijed dohvaća potrebne vektore iz radne memorije računala putem PCIe sabirnice. Dok GPU obrađuje rane transformatorske blokove, CPU u pozadini doprema podatke. Demonstracija s tablicom od 100 milijardi parametara potpuno prebačenom u DRAM pokazala je usporenje manje od 3 %.

Posljedice za tvrtke koje planiraju AI infrastrukturu

• Hibridne arhitekture nadmašuju čiste pristupe; Engramov omjer 75/25 mogao bi postati novi standard.
• Trošak se seli s GPU-a na radnu memoriju: bogate RAM konfiguracije s umjerenim brojem GPU-ova mogu nuditi bolji omjer cijene i performansi.
• Najveći skok mjeri se u sposobnosti rezoniranja, ne samo u pukom prisjećanju činjenica.

Zaključak istraživača glasi da budući temeljni modeli neće biti samo „veći”, nego i pametnije raspoređeni. Tvrtke koje planiraju kasniji ulazak u AI trebale bi pratiti hoće li vodeći proizvođači usvojiti uvjetno pamćenje – jer bi ono moglo značajno smanjiti troškove uz istodobno povećanje kvalitete zaključivanja.

Glavna ideja: model paralelno koristi dva sustava
• 75–80 % kapaciteta ostaje namijenjeno izračunu (MoE)
• 20–25 % dobiva ugrađena memorija (Engram)

Kako radi uvjetno pamćenje

Modul uzima dvotročlane sekvence tokena i preko hash funkcija ih traži u golemoj tablici ugrađenih vektora.
Vraćeni zapisi prolaze dodatnu provjeru: „vrata” uspoređuju pronađeni sadržaj s kontekstom koji je model do tada izgradio.
Ako informacija odudara od konteksta, blokira se; ako se uklapa, pušta se dalje.
Engram se ubacuje samo u odabrane slojeve kako bi se izbjegla kašnjenja.

DeepSeek predstavlja Engram: hibridna arhitektura koja štedi GPU memoriju i poboljšava rezoniranje

Kako radi uvjetno pamćenje

Pametno zaobilaženje GPU ograničenja

Posljedice za tvrtke koje planiraju AI infrastrukturu

Komentari ~ 0

DeepSeek predstavlja Engram: hibridna arhitektura koja štedi GPU memoriju i poboljšava rezoniranje

Kako radi uvjetno pamćenje

Pametno zaobilaženje GPU ograničenja

Posljedice za tvrtke koje planiraju AI infrastrukturu

Komentari ~ 0