Godinu dana poduzeća su birala između dviju tvrdih krajnosti u glasovnom AI-u:
• „Native” sustavi (govor-u-govor) nudili su munjevitu reakciju i prirodniju intonaciju, ali gotovo nikakav uvid u logiku modela.
• „Modularne” arhitekture davale su mogućnost revizije svakog koraka – prijepisa, rezoniranja i sinteze – no uz kašnjenje koje korisnici primijete već nakon djelića sekunde.
Dvije paralelne promjene sada brišu tu povijesnu podjelu.
1. Cjenovni rat na sloju „sirope inteligencije”
Google je s modelima Gemini 2.5 Flash i najnovijim Gemini 3 Flash spustio cijene obrade do točke na kojoj se automatizacija isplati i u jeftinim, masovnim pozivnim scenarijima. OpenAI je ubrzo reagirao 20-postotnim sniženjem Realtime API-ja, čime je jaz u cijeni prepolovljen na otprilike dvostruko, a ne višestruko skuplje rješenje.
2. „Unificirana” modulrna arhitektura skraćuje put do zvučnika
Niz novih ponuđača fizički smješta transkripciju, logiku i sintezu u isti podatkovni centar. Time se brišu milisekunde koje su modularne sustave činile presporima za zahtjevne korisnike, ali se pritom zadržavaju revizijski tragovi potrebni za banke, osiguravatelje i druge regulirane djelatnosti.
Rezultat: više se ne odlučuje samo prema performansama modela, nego prema širini poslovnih ciljeva. Izbor se sada svodi na:
• jeftinu, generičku uslugu u oblaku koju je lako skalirati, ili
• specijalizirani vertikalno integrirani sustav s potpunom usklađenošću i intervencijskim točkama.
U kontekstu korisničkog iskustva, svaki odešen zvuk i svaka milisekunda znače mnogo. Istraživanja pokazuju da dodatna sekunda čekanja može srušiti zadovoljstvo korisnika za 16 %. Nova rješenja stoga ciljaju upravo to: spojiti brzinu prirodnog razgovora s kontrolom koju od IT-a traže pravni i regulatorni timovi.