Francuski startup Mistral AI objavio je novu generaciju modela za pretvorbu govora u tekst, pod zajedničkim nazivom Voxtral Transcribe 2, kojima želi potaknuti širu primjenu glasovne umjetne inteligencije u okruženjima s najstrožim zahtjevima za privatnost.
„You'd like your voice and the transcription of your voice to stay close to where you are, meaning you want it to happen on device—on a laptop, a phone, or a smartwatch. We make that possible because the model is only 4 billion parameters. It's small enough to fit almost anywhere”, poručio je Pierre Stock, potpredsjednik za znanstvene operacije.
Dvije verzije, dva scenarija
- Voxtral Mini Transcribe V2 namijenjen je za serijsko prevođenje snimljenih datoteka. Mistral tvrdi da postiže najnižu stopu pogreške u svetu, uz cijenu od 0,003 USD po minuti – oko pet puta jeftinije od vodećih konkurenata. Podržava 13 jezika, od engleskoga i mandarinskoga do arapskoga i hindskoga.
- Voxtral Realtime obrađuje živi zvuk s kašnjenjem od svega 200 milisekundi. Model se distribuira pod otvorenom licencijom Apache 2.0, pa ga tvrtke mogu besplatno preuzeti i prilagoditi, dok korištenje putem API-ja stoji 0,006 USD po minuti.
Otvoren kod i zatvoreni podaci Stock naglašava da su minijaturni modeli odgovor na sve jači otpor slanju osjetljivih audiozapisa u udaljene oblake: „The open-source community is very imaginative when it comes to applications. We're excited to see what they're going to do.” Takav pristup posebno je privlačan sektorima poput zdravstva, financija i obrane, gdje regulativa nerijetko zabranjuje izlazak podataka iz lokalne infrastrukture.
Strateška oklada na učinkovitost Osnovan 2023. godine od bivših inženjera Mete i DeepMinda, Mistral AI je već prikupio više od 2 milijarde dolara, što mu donosi valuaciju oko 13,6 milijardi. Za razliku od američkih „hiperskalera”, tvrtka se kladi na kompaktnost i energetsku štedljivost umjesto gole procesorske sile.
Stock vjeruje da će 2026. biti „the year of note-taking”, kada će transkripcija postati toliko pouzdana da će je korisnici prihvatiti bezrezervno. „You need to trust the model, and the model basically cannot make any mistake, otherwise you would just lose trust in the product and stop using it”, zaključuje.
Ako su tvrdnje opravdane, Voxtral bi mogao natjerati konkurenciju da svoje masivne modele prilagodi istom lokalnom konceptu – i pritom spusti cijene. Za poduzeća koja dnevno bilježe sate i sate osjetljivih razgovora to bi mogla biti prekretnica.