OpenAI je u sve konkurentnijem tržištu glasovne umjetne inteligencije predstavio gpt-realtime, novi model namijenjen poslovnim korisnicima koji, prema tvrdnjama tvrtke, donosi „najprirodniji i najemotivniji“ strojni glas dosad.
Model je od danas dostupan kroz Realtime API, a prate ga dvije nove sintetičke glasovne personifikacije – Cedar i Marin – te osvježene verzije postojećih glasova. Riječ je o sustavu „speech-to-speech“ koji razumije govorne upite i u istom formatu odgovara, što ga čini pogodnim za primjenu u pozivnim centrima, digitalnim asistentima ili sustavima za simultano prevođenje.
Ključne novosti • Naprednije praćenje uputa – gpt-realtime može izvesti zahtjeve poput „govori naglašeno s francuskim naglaskom“ i pritom prepoznati neverbalne signale poput smijeha ili uzdaha. • Višejezičnost u jednoj rečenici – model može glatko prelaziti s jednog jezika na drugi. • Bolji rezultati na testovima – na Big Bench Audio evaluaciji postiže 82,8 % točnosti (raniji model 65,6 %), dok na MultiChallengeu dostiže 30,5 %. • Niže cijene – OpenAI je cijenu smanjio za 20 %, na 32 USD za milijun ulaznih audio tokena i 64 USD za izlazne.
API dobiva i nove mogućnosti: podršku za MCP, prepoznavanje slike u stvarnom vremenu, Session Initiation Protocol (SIP) za izravno spajanje na telefonske linije te opciju spremanja i ponovne uporabe promptova.
Primjeri iz prakse Tijekom prijenosa uživo demonstrirani su scenariji u kojima T-Mobile koristi asistenta za preporuku novih mobitela, dok Zillow preko glasovnog agenta pomaže korisnicima pronaći idealnu četvrt za kupnju nekretnine.
Reakcije zajednice Rani dojmovi developera ističu „primjetno bolju“ kvalitetu zvuka i „strogo pridržavanje uputa“, ali i žale zbog izostanka mogućnosti kreiranja potpuno prilagođenih glasova. „Još je skupo u usporedbi s lančanim TTS-LLM-STT rješenjima“, komentirao je jedan od testera na X-u.
Tržišna utakmica OpenAI-ju se suprotstavljaju ElevenLabs s Conversation AI 2.0, Soundhound koji opslužuje drive-thru narudžbe u fast-food lancima, Humeov EVI 3 za kloniranje osobnog glasa, francuski Mistral s Voxtralom usmjerenim na prijevod u stvarnom vremenu te Google, koji glasovne značajke širi kroz NotebookLM.
Zašto je važno Pozivni centri, turističke i logističke tvrtke, banke i obrazovne platforme među prvima traže pouzdane, emotivno uvjerljive i sigurnosno certificirane glasovne asistente. U tom segmentu pobjednik će, prema procjenama analitičara, osvojiti milijarde dolara prihoda od licence i infrastrukture.
OpenAI poručuje da je gpt-realtime „najnapredniji produkcijski model“ koji je dosad izradio, no hoće li to biti dovoljno za prevagu nad sve brojnijom konkurencijom – odlučit će brzina, cijena i fleksibilnost u integraciji u postojeće radne tokove.