Kineski tehnološki div Alibaba lansirao je Qwen3-Omni, veliki jezični model otvorenog koda koji izvorno razumije i obrađuje tekst, slike, zvuk i video. Tvrtka ga opisuje kao „prvi nativni end-to-end omni-modalni AI” koji sve te ulaze ujedinjuje unutar jednog sustava.
Qwen3-Omni u ulaznom obliku prihvaća tekst, slike, audio i video, a odgovara tekstom ili govorom. Dostupan je za besplatno preuzimanje i komercijalnu primjenu pod permisivnom Apache 2.0 licencijom, čime se razlikuje od vlasničkih konkurenata.
Ključni noviteti • Integrirani pristup: za razliku od modela koji su naknadno dobivali vid ili govor, Qwen3-Omni je od početka treniran multimodalno, pa zadržava odziv u stvarnom vremenu. • Tri varijante: Instruct (puni opseg funkcija), Thinking (naglasak na rezoniranje i dugačkim odgovorima) te Captioner (specijaliziran za opis audio zapisa). • Široka jezična pokrivenost: 119 jezika u tekstu, 19 za govorni ulaz i 10 za govorni izlaz. • Dugi kontekst: do 65 536 tokena u načinu Thinking.
Arhitektura „Thinker–Talker” Sustav dijeli zadatke na komponentu Thinker, koja rješava rezoniranje i multimodalno razumijevanje, i Talker, koja generira prirodan govor. Obje koriste Mixture-of-Experts dizajn za brzu izvedbu, dok odvojeni audio podsustav omogućuje latenciju od samo 234 ms za govor i 547 ms za video.
Cijene putem API-ja (za 1 000 tokena) • tekst: 0,00025 USD ulaz / do 0,00178 USD izlaz • slika ili video: 0,00046 USD ulaz • audio: 0,00221 USD ulaz; govoreni izlaz 0,00876 USD (tekst je tada besplatan) Besplatna kvota iznosi milijun tokena u 90 dana.
Rezultati testiranja Na 36 mjerila model drži najbolje rezultate na 22, a među otvorenim modelima na 32. Primjeri: • AIME25 (matematika): 65,0 bodova – višestruko bolje od GPT-4o (26,7) • Wenetspeech (točnost prepoznavanja govora): 4,69 WER naspram 15,30 GPT-4o • MLVU (video razumijevanje): 75,2 bodova – ispred najbližih rivala.
Kako je treniran Ukupno je obrađeno oko dva bilijuna tokena, uključujući 20 milijuna sati nadziranog zvuka. Trening je tekao u tri faze, od odvojene prilagodbe vidnog i audio kodera do proširenja konteksta na 32 768 tokena. Dodatno fino ugađanje smanjilo je „halucinacije” i poboljšalo kvalitetu govora.
Primjene Alibaba ističe transkripciju i prijevod na više jezika, opis audio zapisa, OCR, označavanje glazbe te razumijevanje videa. Model se može postaviti kao interaktivni podrška korisnicima koja u stvarnom vremenu analizira kameru ili ekran korisnika i pruža upute.
Dostupnost Qwen3-Omni već je objavljen na platformama Hugging Face, GitHub i putem Alibaba API-ja (uključujući bržu verziju Flash). Zahvaljujući Apache 2.0 licenci, poduzeća ga mogu prilagoditi bez naknada i bez obveze da otvoreno objave vlastite modifikacije.
Najavljujući model, voditelj tima kratko je poručio: „This might bring some changes to the landscape of opensource Omni models! Hope you enjoy it!”
Objavom Qwen3-Omni Alibaba dodatno pojačava pritisak na zapadne konkurente, nudeći besplatnu i fleksibilnu alternativu za napredne multimodalne sustave.