Glasovni asistenti više nisu samo chatbotovi koji govore. U svega tjedan dana objavljeno je nekoliko tehnoloških iskoraka koji su, čini se, riješili četiri najveća problema glasovnog računalstva: kašnjenje, prekidanje, potrošnju podatkovnog prometa i emocionalnu inteligenciju.
• Kraj dugih pauza
Najvažniji prag u ljudskom razgovoru je oko 200 milisekundi. Inworld je novom verzijom TTS-a 1.5 spustio P90 latenciju na ispod 120 ms, čime je nestala karakteristična „pauza za razmišljanje” između korisnika i asistenta.
• Asistent koji sluša dok govori
Tradicionalni botovi funkcioniraju poput voki-tokija: dok govore, ne mogu slušati. Nvidia je to ukinula modelom PersonaPlex od 7 milijardi parametara. Moshi arhitektura s dvostrukim audiostrujom omogućuje umjetnoj inteligenciji da u realnom vremenu ažurira interni kontekst i pristojno reagira na prekide.
• Manji podatkovni trag
Otvoreni projekt Qwen3-TTS iz Alibabine istraživačke grupe predstavio je kompresiju od samo 12 tokena u sekundi, što višestruko smanjuje troškove prijenosa i pohrane zvuka bez gubitka kvalitete.
• Dodatak koji nedostaje: emocije
Google DeepMind sklopio je licencijski ugovor s tvrtkom Hume AI i zaposlio njezinog direktora Alana Cowena sa ključnim timom. Time je u svoj ekosustav ugradio sloj koji računalnom sugovorniku omogućuje prepoznavanje i generiranje emocionalnih nijansi. Cowen navodi da je interes tržišta ogroman te da je Hume u siječnju potpisao „više ugovora vrijednih osam znamenki”.
Sve četiri inovacije zajedno oblikuju novi „voice stack” za 2026. godinu. Preostaje pitanje koliko će brzo poduzeća nadograditi postojeće sustave i iskoristiti alate koji sada razgovaraju gotovo brže od čovjeka — i pritom razumiju kako se osjećamo.