Tehnologija

22. rujna 2025, 20:05

Alibaba predstavio Qwen3-Omni, prvi otvoreni AI koji prirodno spaja tekst, sliku, zvuk i video

Kineska Alibaba lansirala je Qwen3-Omni, otvoreni AI model koji prirodno kombinira tekst, sliku, zvuk i video, nadmašuje konkurenciju na 22 od 36 testova i dolazi pod slobodnom Apache 2.0 licencom.

min. čitanja

Kineski tehnološki div Alibaba lansirao je Qwen3-Omni, veliki jezični model otvorenog koda koji izvorno razumije i obrađuje tekst, slike, zvuk i video. Tvrtka ga opisuje kao „prvi nativni end-to-end omni-modalni AI” koji sve te ulaze ujedinjuje unutar jednog sustava.

Qwen3-Omni u ulaznom obliku prihvaća tekst, slike, audio i video, a odgovara tekstom ili govorom. Dostupan je za besplatno preuzimanje i komercijalnu primjenu pod permisivnom Apache 2.0 licencijom, čime se razlikuje od vlasničkih konkurenata.

Ključni noviteti • Integrirani pristup: za razliku od modela koji su naknadno dobivali vid ili govor, Qwen3-Omni je od početka treniran multimodalno, pa zadržava odziv u stvarnom vremenu. • Tri varijante: Instruct (puni opseg funkcija), Thinking (naglasak na rezoniranje i dugačkim odgovorima) te Captioner (specijaliziran za opis audio zapisa). • Široka jezična pokrivenost: 119 jezika u tekstu, 19 za govorni ulaz i 10 za govorni izlaz. • Dugi kontekst: do 65 536 tokena u načinu Thinking.

Arhitektura „Thinker–Talker” Sustav dijeli zadatke na komponentu Thinker, koja rješava rezoniranje i multimodalno razumijevanje, i Talker, koja generira prirodan govor. Obje koriste Mixture-of-Experts dizajn za brzu izvedbu, dok odvojeni audio podsustav omogućuje latenciju od samo 234 ms za govor i 547 ms za video.

Cijene putem API-ja (za 1 000 tokena) • tekst: 0,00025 USD ulaz / do 0,00178 USD izlaz • slika ili video: 0,00046 USD ulaz • audio: 0,00221 USD ulaz; govoreni izlaz 0,00876 USD (tekst je tada besplatan) Besplatna kvota iznosi milijun tokena u 90 dana.

Rezultati testiranja Na 36 mjerila model drži najbolje rezultate na 22, a među otvorenim modelima na 32. Primjeri: • AIME25 (matematika): 65,0 bodova – višestruko bolje od GPT-4o (26,7) • Wenetspeech (točnost prepoznavanja govora): 4,69 WER naspram 15,30 GPT-4o • MLVU (video razumijevanje): 75,2 bodova – ispred najbližih rivala.

Kako je treniran Ukupno je obrađeno oko dva bilijuna tokena, uključujući 20 milijuna sati nadziranog zvuka. Trening je tekao u tri faze, od odvojene prilagodbe vidnog i audio kodera do proširenja konteksta na 32 768 tokena. Dodatno fino ugađanje smanjilo je „halucinacije” i poboljšalo kvalitetu govora.

Primjene Alibaba ističe transkripciju i prijevod na više jezika, opis audio zapisa, OCR, označavanje glazbe te razumijevanje videa. Model se može postaviti kao interaktivni podrška korisnicima koja u stvarnom vremenu analizira kameru ili ekran korisnika i pruža upute.

Dostupnost Qwen3-Omni već je objavljen na platformama Hugging Face, GitHub i putem Alibaba API-ja (uključujući bržu verziju Flash). Zahvaljujući Apache 2.0 licenci, poduzeća ga mogu prilagoditi bez naknada i bez obveze da otvoreno objave vlastite modifikacije.

Najavljujući model, voditelj tima kratko je poručio: „This might bring some changes to the landscape of opensource Omni models! Hope you enjoy it!”

Objavom Qwen3-Omni Alibaba dodatno pojačava pritisak na zapadne konkurente, nudeći besplatnu i fleksibilnu alternativu za napredne multimodalne sustave.

#kina #hugging-face #alibaba #github #wenetspeech

View post on X

Slično

Tehnologija

DeepSeek predstavio Terminus: brža i preciznija inačica open-source modela V3.1

Novi Terminus donosi bolje rezultate u korištenju alata, dva radna moda i dulji kontekst, uz zadržavanje otvorene MIT licence.

min čitanja

Više

Tehnologija

U kognitivnu eru ulazimo nespremni: AI bi mogao produbiti nejednakosti, ali i obnoviti srednji sloj

Sve brže usvajanje umjetne inteligencije moglo bi donijeti skraćeni radni tjedan i novu kreativnu renesansu, ali i masovna otpuštanja, rastuću nejednakost te krizu smisla. Stručnjaci nude dva scenarija – od raslojavanja do obnovljenog srednjeg sloja – a ishod će ovisiti o politici i društvenim odlukama.

min čitanja

Više

Tehnologija

Aktivisti pred Berlaymontom traže razbijanje Googlea

Organizacije civilnog društva u Bruxellesu vrše pritisak na Europsku komisiju da, nakon rekordne kazne, podijeli Googleovo oglašivačko carstvo.

min čitanja

Više

Tehnologija

Kaos na europskim aerodromima zbog hakerskog upada u Collins Aerospace

Softverski udar blokirao sustave za prijavu i ukrcaj; Heathrow, Bruxelles i Berlin bilježe odgode, dionice zrakoplovnih tvrtki padaju.

min čitanja

Više

Tehnologija

Palantir lansirao skupu kolekciju majica i torbi: „brendiramo svjetonazor, ne samo softver”

Tvrtka koja razvija softver za Pentagon i ICE lansirala je novu kolekciju odjeće, pritom se otvoreno predstavljajući kao lifestyle brend te naglašavajući „obranu Zapada” kao modni statement.

min čitanja

Više

Tehnologija

Zvona španjolskih sela dobivaju novi digitalni život

Entuzijasti iz Burgosa pokrenuli platformu Tån:talán i digitalizirali gotovo 2 500 crkvenih zvona, vraćajući stara komunikacijska šifriranja u 21. stoljeće.

min čitanja

Više

Tehnologija

Dublje u iOS 26: skrivenim postavkama do pametnijeg iPhonea

iOS 26 skriva korisne opcije za bolju privatnost, dužu bateriju i praktičnije prečace – donosimo vodič kroz najvažnije postavke koje vrijedi uključiti ili prilagoditi.

min čitanja

Više

Tehnologija

Umjetna inteligencija ne mora otupiti kritičko mišljenje stručnjaka za kibernetičku sigurnost

Rastuće oslanjanje na AI u kibernetičkoj sigurnosti potiče strah od slabljenja ljudske prosudbe, ali stručnjaci tvrde da tehnologija može ojačati – a ne ugroziti – kritičko mišljenje.

min čitanja

Više

Tehnologija

Altman, Bezos i Schmidt žele preseliti podatkovne centre u svemir

Rastuće energetske potrebe umjetne inteligencije potiču tehnološke lidere na razmatranje svemira kao nove lokacije za podatkovne centre.

min čitanja

Više

Tehnologija

Zračnim lukama Bruxellesa, Berlina i Heathrowa stao check-in zbog kiber-poremećaja

Softverski kvar povezan s kiber-sigurnošću pogodio je sustave za prijavu putnika i prtljagu u nekoliko najvećih europskih zračnih luka, uz otkazivanja i kašnjenja letova.

min čitanja

Više

Tehnologija

22. rujna 2025, 20:05

Alibaba predstavio Qwen3-Omni, prvi otvoreni AI koji prirodno spaja tekst, sliku, zvuk i video

Kineska Alibaba lansirala je Qwen3-Omni, otvoreni AI model koji prirodno kombinira tekst, sliku, zvuk i video, nadmašuje konkurenciju na 22 od 36 testova i dolazi pod slobodnom Apache 2.0 licencom.

min. čitanja

Najavljujući model, voditelj tima kratko je poručio: „This might bring some changes to the landscape of opensource Omni models! Hope you enjoy it!”

Objavom Qwen3-Omni Alibaba dodatno pojačava pritisak na zapadne konkurente, nudeći besplatnu i fleksibilnu alternativu za napredne multimodalne sustave.

#kina #hugging-face #alibaba #github #wenetspeech

View post on X

Slično

Tehnologija

DeepSeek predstavio Terminus: brža i preciznija inačica open-source modela V3.1

Novi Terminus donosi bolje rezultate u korištenju alata, dva radna moda i dulji kontekst, uz zadržavanje otvorene MIT licence.

min čitanja

Više

Tehnologija

U kognitivnu eru ulazimo nespremni: AI bi mogao produbiti nejednakosti, ali i obnoviti srednji sloj

min čitanja

Više

Tehnologija

Aktivisti pred Berlaymontom traže razbijanje Googlea

Organizacije civilnog društva u Bruxellesu vrše pritisak na Europsku komisiju da, nakon rekordne kazne, podijeli Googleovo oglašivačko carstvo.

min čitanja

Više

Tehnologija

Kaos na europskim aerodromima zbog hakerskog upada u Collins Aerospace

Softverski udar blokirao sustave za prijavu i ukrcaj; Heathrow, Bruxelles i Berlin bilježe odgode, dionice zrakoplovnih tvrtki padaju.

min čitanja

Više

Tehnologija

Palantir lansirao skupu kolekciju majica i torbi: „brendiramo svjetonazor, ne samo softver”

Tvrtka koja razvija softver za Pentagon i ICE lansirala je novu kolekciju odjeće, pritom se otvoreno predstavljajući kao lifestyle brend te naglašavajući „obranu Zapada” kao modni statement.

min čitanja

Više

Tehnologija

Zvona španjolskih sela dobivaju novi digitalni život

Entuzijasti iz Burgosa pokrenuli platformu Tån:talán i digitalizirali gotovo 2 500 crkvenih zvona, vraćajući stara komunikacijska šifriranja u 21. stoljeće.

min čitanja

Više

Tehnologija

Dublje u iOS 26: skrivenim postavkama do pametnijeg iPhonea

iOS 26 skriva korisne opcije za bolju privatnost, dužu bateriju i praktičnije prečace – donosimo vodič kroz najvažnije postavke koje vrijedi uključiti ili prilagoditi.

min čitanja

Više

Tehnologija

Umjetna inteligencija ne mora otupiti kritičko mišljenje stručnjaka za kibernetičku sigurnost

Rastuće oslanjanje na AI u kibernetičkoj sigurnosti potiče strah od slabljenja ljudske prosudbe, ali stručnjaci tvrde da tehnologija može ojačati – a ne ugroziti – kritičko mišljenje.

min čitanja

Više

Tehnologija

Altman, Bezos i Schmidt žele preseliti podatkovne centre u svemir

Rastuće energetske potrebe umjetne inteligencije potiču tehnološke lidere na razmatranje svemira kao nove lokacije za podatkovne centre.

min čitanja

Više

Tehnologija

Zračnim lukama Bruxellesa, Berlina i Heathrowa stao check-in zbog kiber-poremećaja

Softverski kvar povezan s kiber-sigurnošću pogodio je sustave za prijavu putnika i prtljagu u nekoliko najvećih europskih zračnih luka, uz otkazivanja i kašnjenja letova.

min čitanja

Više