Umjetna inteligencija na telefonu upravo je napravila skok koji bi mogao preoblikovati čitavu industriju korisničke podrške. Startup Phonely, platforma za optimizaciju inferencija Maitai i proizvođač čipova Groq udružili su snage i smanjili vrijeme odziva AI agenata za više od 70 %, dok su točnost u četiri iteracije podigli s 81,5 % na nevjerojatnih 99,2 %. Time su nadmašili GPT-4o za 4,5 postotna boda i – što je možda još važnije – uklonili „nelagodni jaz” u kojem su pozivatelji odmah shvaćali da govore s računalom.
„Četiri sekunde stanke na telefonu djeluju kao vječnost – upravo ta latencija otkriva da razgovarate s AI-jem”, istaknuo je osnivač i izvršni direktor Phonelyja Will Bodewes. Zahvaljujući Groqovoj tehnologiji „zero-latency LoRA hotswappinga”, sustav sada prebacuje više specijaliziranih modela bez ikakvog dodatnog kašnjenja, a Maitai ih u pozadini neprestano dotjeruje na temelju stvarnih razgovora.
Brojke govore same za sebe: • vrijeme do prvog tokena palo je s 661 ms na 176 ms (-73,4 %) • prosječno trajanje odgovora skraćeno je s 1 446 ms na 339 ms (-74,6 %) • više od 70 % pozivatelja više ne razlikuje AI od čovjeka
Posljedica je trenutačna: jedan Phonelyjev klijent već ovoga mjeseca zamjenjuje 350 živih operatera umjetnim agentima. „Call centri više ne moraju raspoređivati smjene ni plaćati skupu obuku zaposlenika”, naglašava Bodewes i dodaje da su kvalificirani marketinški leadovi porasli za 32 % u odnosu na prijašnju generaciju modela.
Hardversku podlogu čine Groqovi „Language Processing Units”. „Naša arhitektura omogućuje da se više LoRA prilagodbi drži u istoj SRAM memoriji i aktivira bez ikakvog gubitka brzine”, pojasnila je direktorica marketinga Chelsey Kantor. To drastično snižava trošak po tokenu i uklanja uska grla pri skaliranju u oblaku.
Ključnu ulogu igra i Maitai. „Ponašamo se kao tanki posrednički sloj između klijenta i modela”, kaže osnivač Christian DalSanto. Sustav prikuplja podatke iz svakog razgovora, detektira „slabe točke” i fino ih podešava u hodu, pa se nove, preciznije verzije mogu pustiti u rad već istoga dana – bez mijenjanja postojećih API-ja.
Stručnjaci to vide kao najavu smjene paradigme: umjesto jedne, „sveznajuće” LLM-a, poduzeća će koristiti mnoštvo usko specijaliziranih modela koji se zamjenjuju u djeliću sekunde. Za korisnike to znači brže odgovore, prirodniji govor i – možda po prvi put – iskustvo na telefonu koje je praktički nerazlučivo od ljudskog sugovornika.