Kineski laboratorij DeepSeek predstavio je eksperimentalni veliki jezični model DeepSeek-V3.2-Exp kojim cilja istodobno zadržati razinu sposobnosti prethodnika i dramatično sniziti troškove rada.
Prepolovljene cijene API-ja
• 1 000 000 ulaznih tokena (cache hit): 0,028 USD
• 1 000 000 ulaznih tokena (cache miss): 0,28 USD
• 1 000 000 izlaznih tokena: 0,42 USD
U usporedbi s prošlotjednim modelom V3.1-Terminus, cijene su snižene približno 50 %. Terminus ostaje dostupan samo do 15. listopada, nakon čega ga tvrtka povlači.
Što donosi DeepSeek Sparse Attention
Ključ ušteda krije se u novoj arhitekturi DeepSeek Sparse Attention (DSA). Umjesto klasične „guste” samopozornosti, DSA uz pomoć tzv. „lightning indexera” bira samo najrelevantnije tokene pa se memorijski i računski zahtjevi sporije povećavaju s duljinom ulaza. To omogućuje:
• podršku do 128 000 tokena (oko 300–400 stranica teksta) bez brzog rasta cijene
• brže izvođenje i manju potrošnju GPU vremena na dugim promptovima
• gotovo jednaku kvalitetu odgovora kao kod prethodne generacije
Fino ugađanje: specijalisti i objedinjeno pojačano učenje
Post-trening odvija se u dvije faze:
- Specijalistička destilacija – izdvojeni modeli za matematiku, natjecateljsko programiranje, logičko zaključivanje, kodne agente i pretraživanje stvaraju domensko znanje koje se potom prelijeva natrag u glavni model.
- Reinforcement learning – umjesto višestupanjskog pristupa, razlozi, agenti i usklađivanje s ljudskim preferencijama objedinjeni su u jednu RL fazu korištenjem metode Group Relative Policy Optimization (GRPO). Tako se izbjegava „katastrofalno zaboravljanje”, a performanse ostaju uravnotežene.
Benchmark: gotovo ista snaga, znatno niži troškovi
Na javnim testovima V3.2-Exp postiže rezultate vrlo slične Terminusu. Blagi pad vidljiv je na pojedinim zahtjevnim zadacima zaključivanja, no u većini domena (programiranje, Q&A, sažimanje) učinak je praktički nepromijenjen, dok su troškovi značajno smanjeni.
Otvoreni kod i fleksibilno raspoređivanje
Model težak 685 milijardi parametara objavljen je pod MIT licencom na Hugging Faceu i GitHubu, zajedno s optimiziranim kernelima (CUDA/FlashMLA) i Docker slikama za NVIDIA H200, AMD MI350 i NPU sustave. Okviri poput SGLang i vLLM nude podršku od prvoga dana.
Organizacije mogu birati:
• Korištenje službenog API-ja – brzi start, predvidljivi troškovi, ali podatci prolaze kroz poslužitelje tvrtke sa sjedištem u Hong Kongu.
• Samostalno hostanje – potpuna kontrola nad podatcima i lokacijom, ali i veća inženjerska složenost te potreba za GPU-ima.
Šira slika i sljedeći koraci
Lansiranje V3.2-Exp dolazi samo tjedan dana nakon Terminusa, potvrđujući intenzivan ritam iteracija unutar DeepSeeka. Tvrtka zadržava filozofiju otvorenog koda, ali istodobno ispituje granice skalabilnosti i ekonomičnosti.
Iako je model označen kao eksperiment, interni testovi sugeriraju da bi upravo rijetka pozornost mogla postati temelj budućeg izdanja V3.3 ili čak V4.0. Za sada, V3.2-Exp nudi developerima i poduzećima rijetko viđenu kombinaciju visokih mogućnosti i niskih operativnih troškova, osobito pri radu s dugim kontekstom.