Nova analiza Nvidije pokazuje kako su četiri vodeća pružatelja inferencijskih usluga – Baseten, DeepInfra, Fireworks AI i Together AI – snizila cijenu po tokenu između četiri i deset puta prelaskom na Blackwell platformu, optimizirane softverske stogove i otvoren-izvorske modele koji dosežu tzv. frontier razinu inteligencije.
Prema podacima iz produkcijskih okruženja:
• Sully.ai je u zdravstvu spustio troškove inferencije za 90 % te ubrzao odgovore za 65 %. Automatizacijom medicinskog kodiranja i bilješki tvrtka je liječnicima „vratila” više od 30 milijuna minuta rada.
• Latitude je za svoju igru AI Dungeon na DeepInfra-ovoj Blackwell infrastrukturi smanjio trošak s 20 na 5 centi po milijunu tokena. Sam prelazak s Hopper na Blackwell donio je dvostruko smanjenje, a dodatni prelazak na niskoprecizni format NVFP4 još dvostruko – ukupno četiri puta jeftinije.
• Sentient Foundation je, na Fireworks AI-jevom optimiziranom stogu, snizio cijenu obrade složenih višestrukih chat-agenata za 25–50 %, pri čemu je u jednom tjednu obradio 5,6 milijuna upita uz nisku latenciju.
• Decagon je za glasovnu korisničku podršku na Together AI-jevoj infrastrukturi postigao šest puta niži trošak po upitu, zadržavši vrijeme odziva ispod 400 ms – ključno kako bi korisnici ostali na liniji.
Izvještaj naglašava da hardverski skok sam po sebi donosi približno dvostruko smanjenje troškova, no veći učinci dolaze tek kad se doda optimizirani softver i prelazak na NVFP4 ili slične niskoprecizne formate te na otvorene modele, koji uklanjaju licence s visokim maržama.
„Performance is what drives down the cost of inference”, ističe Dion Harris, viši direktor za HPC i AI hiperskalerska rješenja u Nvidiji, objašnjavajući da se veća propusnost izravno prevodi u manje dolara po tokenu.
Paradoksalno, zaključuje se u analizi, za jeftiniju inferenciju potrebno je ulagati u snažniju infrastrukturu: kroz veću brzinu obrade i precizno podešene modele poduzeća mogu proširiti AI rješenja s pilot-projekata na milijune krajnjih korisnika, a da pritom trošak ostane održiv.