Iako se u javnosti i dalje često povlači pitanje koliko AI košta, dvije tehnološki različite, ali jednako ambiciozne kompanije – prehrambeno-logistički lanac Wonder i biotehnološki pionir Recursion – pokazuju da je glavna briga negdje drugdje:
• latencija sustava, • fleksibilnost infrastrukture i • raspoloživost hardverskog kapaciteta.
AI tek „par lipa” po narudžbi, ali oblaku ponestaje zraka
U Wonderu umjetna inteligencija trenutačno poskupljuje svaku narudžbu za samo nekoliko centi, dok kompletan tehnološki dio usluge stoji 14 centi. No CTO James Chen priznaje da je pravi izazov eksplozija potražnje koja počinje „gušiti” njihovu isključivo cloud-nativnu arhitekturu. Već šest mjeseci dobivaju upozorenja kako bi dio tereta morali prebaciti u drugu regiju jer se postojeći podatkovni centri približavaju plafonu za CPU-e i pohranu.
Tvrtka je očekivala da će o tome razmišljati tek za dvije godine. Sada ubrzano gradi vlastite preporučivačke modele i testira „mikro-modele” skrojene za svakog korisnika, no priznaje da individualni modeli zasad nisu ekonomski isplativi. Chen navodi kako više od 50 %, a ponekad i 80 % ukupnih troškova odlazi samo na ponovno slanje iste kontekstualne građe svakom upitu velikom modelu. Planiranje budžeta stoga postaje „umjetnost, a ne znanost”, posebice u token-skim obračunima koje diktiraju dinamične cijene novih modela.
Recursion: hibridni put donosi deset puta niže troškove
Biotehnološka tvrtka Recursion od početka se odlučila za hibrid: vlastite GPU klastere kombinira s oblakom. Prvu farmu složili su još 2017. od tadašnjih gejming GPU-a (Nvidia 1080), koji su i danas u pogonu. CTO Ben Mabey tvrdi da je time srušio mit o trogodišnjem vijeku grafičkih kartica: „A100-ice su još uvijek radni konj industrije.”
Za goleme trenažne poslove – poput gradnje temeljnog modela na petabajtima slika – idu „on-prem”, gdje je petogodišnji trošak ukupnog vlasništva najmanje dvostruko manji, a prema konzervativnoj procjeni čak deset puta povoljniji od oblaka. Kraće ili neosjetljive poslove prebacuju u cloud i koriste preemptibilne GPU-e i TPU-e koji smiju biti prekinuti kad stigne važniji zadatak.
Mabey poručuje kolegama da prije svega odluče jesu li spremni dugoročno se obvezati na AI: „Tko stalno plaća on-demand, koči vlastitu inovaciju jer se boji prevelikog računa.”
Zaključak
Primjeri Wondera i Recursiona ilustriraju novu računicu umjetne inteligencije. Financije više nisu ključna kočnica; pravi test su brzina isporuke, pouzdanost i elastičnost sustava koji mora pratiti rastući apetit modela i korisnika. Tvrtke koje taj test polože dobit će prednost – ne zbog najniže cijene, nego zbog sposobnosti da AI isporuče upravo tamo i onoliko brzo koliko tržište traži.