Francuski startup Mistral AI objavio je Voxtral, novi model za prepoznavanje govora i razumijevanje zvuka koji bi, prema tvrdnjama tvrtke, mogao nadmašiti dosad vodeće komercijalne sustave poput OpenAI-jevog Whispera ili ElevenLabsova Scribea – i to uz višestruko nižu cijenu.
„Voice was humanity’s first interface… Yet today’s systems remain limited—unreliable, proprietary, and too brittle for real-world use”, poručili su iz Mistrala u najavi, ističući da žele „zatvoriti jaz” između skupih zatvorenih i pogreškama sklonih otvorenih rješenja.
Dvije verzije, otvorena licenca
Voxtral se distribuira pod liberalnom licencom Apache 2.0 u dvije inačice:
- 24-milijardni model za rad u oblaku i velike sustave
- 3-milijardni model za lokalne ili rubne (edge) implementacije
Oba modela dostupna su preko Mistralova API-ja, web sučelja za transkripciju te chat-platforme Le Chat.
Funkcije iznad puke transkripcije
• Kontekst do 32 000 tokena omogućuje prijenos i analizu do 40 minuta zvuka u jednom potezu.
• Ugrađeno sažimanje i odgovaranje na pitanja o sadržaju audio zapisa eliminira potrebu za dodatnim modelima.
• Govorne naredbe mogu izravno „okidati” vanjske funkcije ili API pozive.
Model je građen na nadograđenoj verziji Mistral Small 3.1 i automatski prepoznaje više jezika, među njima engleski, španjolski, francuski, njemački, hindi, talijanski, portugalski i nizozemski.
Usmjereno i na poduzeća
Za korporativne korisnike Mistral nudi privatnu implementaciju, domenski specifično dorađivanje modela te prioritetnu inženjersku podršku.
Rezultati mjerenja
Interna usporedba pokazuje da Voxtral proizvodi manje pogrešaka od Whispera, a u zadaćama „audio razumijevanja” manji Voxtral Small drži korak s GPT-4o-mini i Googleovim Gemini 2.5 Flash, pri čemu ostvaruje „state-of-the-art” rezultate u govornom prevođenju.
Cijena korištenja preko API-ja iznosi 0,001 USD po minuti audio zapisa – manje od polovice onoga što, prema Mistralu, naplaćuju konkurentske usluge.
Odjek zajednice
Objavu su na društvenim mrežama pozdravili zagovornici otvorenog koda. Jedan korisnik napisao je da je „ovo upravo ono što nam je trebalo” te da dodatno vraća vjeru u otvorenu AI budućnost.
Iako će stvarna snaga Voxtrala biti jasnija nakon što ga isprobaju razvojni timovi i istraživači, Mistral je, barem prema prvim brojkama, podignuo ljestvicu u sve konkurentnijoj utrci za najbolju govornu umjetnu inteligenciju.