Meta je objavila otvoreni sustav za automatsko prepoznavanje govora (ASR) koji već pri izlasku razumije više od 1 600 jezika, daleko nadmašujući dosadašnje vodeće alate poput Whispera tvrtke OpenAI koji podržava 99 jezika. Ključni adut platforme nazvane Omnilingual ASR jest mogućnost tzv. „zero-shot in-context“ učenja: dovoljno je unijeti nekoliko parova zvuka i pripadajućeg teksta na potpuno novom jeziku i model je sposoban transkribirati daljnje izgovore bez dodatnog treniranja. U praksi to širi potencijalni doseg na oko 5 400 jezika – praktički svaki jezik s poznatim pismom.
Za razliku od prethodnih Llama modela, koji su dolazili s ograničenjima za komercijalnu uporabu, komplet je objavljen pod čistom Apache 2.0 licencijom. To znači da ga istraživači, start-upovi i velike tvrtke mogu odmah slobodno implementirati, čak i u komercijalnim proizvodima.
Objava, datirana 10. studenoga, uključuje:
• obitelj ASR modela spremnih za pretvaranje govora u tekst
• 7-milijardni višekontekstni model zvučnih reprezentacija
• golemu zvučnu korpusu s više od 350 dosad nedovoljno zastupljenih jezika.
Sve je dostupno na GitHubu, uz javni demo i istraživački rad. Iz Mete poručuju: „By open sourcing these models and dataset, we aim to break down language barriers, expand digital access, and empower communities worldwide.”
Analitičari ističu da se prelazak s fiksnih popisa na proširivu arhitekturu može pokazati ključnim u digitalnoj inkluziji zajednica čiji jezici dosad nisu bili obuhvaćeni komercijalnim alatima. Uz potpunu otvorenost i mogućnost prilagodbe, Omnilingual ASR predstavlja najekstenzibilniji sustav prepoznavanja govora dosad objavljen.