GPU klasteri često provode sate u praznom hodu – treninzi završe, radna opterećenja se preusmjere, a skupi strojevi nastavljaju trošiti struju i hlađenje bez ikakvog povrata. Korejski startup FriendliAI tvrdi da je pronašao način kako to „mrtvo vrijeme” pretvoriti u novac.
Osnivač Byung-Gon Chun, bivši profesor sa Sveučilišta u Seulu i autor znanstvenog rada koji je uveo kontinuirano grupiranje zahtjeva (core mehanizam u danas raširenom vLLM-u), ovoga tjedna lansira platformu InferenceSense. Ideja je jednostavna: kada god GPU-ovi ostanu bez primarnog posla, InferenceSense automatski pokreće plaćene inferencijske zadatke na otvorenim velikim jezičnim modelima poput DeepSeeka, Qwena, Kimi, GLM-a ili MiniMaxa, a prihod od obrađenih tokena dijeli s vlasnikom hardvera.
„Umjesto da GPU-ovi besposličare, izvođenjem inferencija mogu se unovčiti”, ističe Chun. Čim interni raspoređivač zatraži natrag karticu, InferenceSense u nekoliko sekundi prekida svoj posao i vraća je primarnom sustavu.
Platforma sjeda na postojeći Kubernetes, pa operator samo označi koje će se kartice i pod kojim uvjetima ponuditi. FriendliAI potom preuzima sve ostalo: dovodi klijente, optimizira modele, brine se o posluživanju i nudi nadzornu ploču uživo s prikazom zarade i opterećenja.
Ključ zarade leži u broju tokena obrađenih po GPU-satu. FriendliAI tvrdi da njihov potpuno C++-om pisan motor s vlastitim GPU jezgrama postiže dvostruko do trostruko veći protok od „golog” vLLM-a – zahvaljujući internim rješenjima za spekulativno dekodiranje, kvantizaciju i upravljanje KV-predmemorijom. Više tokena znači i veći prihod u istom vremenu.
Za razliku od tržišta spot GPU-ova, gdje provajder iznajmljuje cijelu karticu trećoj strani, ovdje operator zadržava potpunu kontrolu: monetizira samo one minute kada mu hardver stvarno miruje. Time dobiva dodatni motiv da stalno drži konkurentne cijene tokena, što bi s vremenom moglo pritisnuti troškove inferencije širom industrije.
„Kad dobavimo učinkovitije dobavljače, ukupni trošak pada. InferenceSense tome može pridonijeti”, zaključuje Chun.