CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

22. rujna 2025, 20:05

Alibaba predstavio Qwen3-Omni, prvi otvoreni AI koji prirodno spaja tekst, sliku, zvuk i video

Kineska Alibaba lansirala je Qwen3-Omni, otvoreni AI model koji prirodno kombinira tekst, sliku, zvuk i video, nadmašuje konkurenciju na 22 od 36 testova i dolazi pod slobodnom Apache 2.0 licencom.

min. čitanja

XFacebookWhatsApp

Kineski tehnološki div Alibaba lansirao je Qwen3-Omni, veliki jezični model otvorenog koda koji izvorno razumije i obrađuje tekst, slike, zvuk i video. Tvrtka ga opisuje kao „prvi nativni end-to-end omni-modalni AI” koji sve te ulaze ujedinjuje unutar jednog sustava.

Qwen3-Omni u ulaznom obliku prihvaća tekst, slike, audio i video, a odgovara tekstom ili govorom. Dostupan je za besplatno preuzimanje i komercijalnu primjenu pod permisivnom Apache 2.0 licencijom, čime se razlikuje od vlasničkih konkurenata.

Ključni noviteti • Integrirani pristup: za razliku od modela koji su naknadno dobivali vid ili govor, Qwen3-Omni je od početka treniran multimodalno, pa zadržava odziv u stvarnom vremenu. • Tri varijante: Instruct (puni opseg funkcija), Thinking (naglasak na rezoniranje i dugačkim odgovorima) te Captioner (specijaliziran za opis audio zapisa). • Široka jezična pokrivenost: 119 jezika u tekstu, 19 za govorni ulaz i 10 za govorni izlaz. • Dugi kontekst: do 65 536 tokena u načinu Thinking.

Arhitektura „Thinker–Talker” Sustav dijeli zadatke na komponentu Thinker, koja rješava rezoniranje i multimodalno razumijevanje, i Talker, koja generira prirodan govor. Obje koriste Mixture-of-Experts dizajn za brzu izvedbu, dok odvojeni audio podsustav omogućuje latenciju od samo 234 ms za govor i 547 ms za video.

Cijene putem API-ja (za 1 000 tokena) • tekst: 0,00025 USD ulaz / do 0,00178 USD izlaz  • slika ili video: 0,00046 USD ulaz  • audio: 0,00221 USD ulaz; govoreni izlaz 0,00876 USD (tekst je tada besplatan) Besplatna kvota iznosi milijun tokena u 90 dana.

Rezultati testiranja Na 36 mjerila model drži najbolje rezultate na 22, a među otvorenim modelima na 32. Primjeri: • AIME25 (matematika): 65,0 bodova – višestruko bolje od GPT-4o (26,7) • Wenetspeech (točnost prepoznavanja govora): 4,69 WER naspram 15,30 GPT-4o  • MLVU (video razumijevanje): 75,2 bodova – ispred najbližih rivala.

Kako je treniran Ukupno je obrađeno oko dva bilijuna tokena, uključujući 20 milijuna sati nadziranog zvuka. Trening je tekao u tri faze, od odvojene prilagodbe vidnog i audio kodera do proširenja konteksta na 32 768 tokena. Dodatno fino ugađanje smanjilo je „halucinacije” i poboljšalo kvalitetu govora.

Primjene Alibaba ističe transkripciju i prijevod na više jezika, opis audio zapisa, OCR, označavanje glazbe te razumijevanje videa. Model se može postaviti kao interaktivni podrška korisnicima koja u stvarnom vremenu analizira kameru ili ekran korisnika i pruža upute.

Dostupnost Qwen3-Omni već je objavljen na platformama Hugging Face, GitHub i putem Alibaba API-ja (uključujući bržu verziju Flash). Zahvaljujući Apache 2.0 licenci, poduzeća ga mogu prilagoditi bez naknada i bez obveze da otvoreno objave vlastite modifikacije.

Najavljujući model, voditelj tima kratko je poručio: „This might bring some changes to the landscape of opensource Omni models! Hope you enjoy it!”

Objavom Qwen3-Omni Alibaba dodatno pojačava pritisak na zapadne konkurente, nudeći besplatnu i fleksibilnu alternativu za napredne multimodalne sustave.

#kina#hugging-face#alibaba#github#wenetspeech
View post on X

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Alibaba lansirao seriju Qwen3.5: kompaktni AI modeli ciljaju mobilne uređaje
Alibaba je predstavio četiri nova otvorena AI modela Qwen3.5, namijenjena štedljivim uređajima i složenom rezoniranju, čime kineska tvrtka pojačava konkurenciju u globalnoj utrci umjetne inteligencije.

min čitanja

Više

Tehnologija

Mini FabLab u Puli pretvara ideje u stvarnost
Interaktivno događanje u Centru za mlade Pula približava 3D tehnologiju i STEM područje djeci i mladima.

min čitanja

Više

Tehnologija

Europarlamentarci traže reakciju na navodno snimanje „pametnih“ naočala Metae u intimnim trenucima
Zastupnici iz četiri političke skupine traže od Komisije objašnjenje nakon tvrdnji da naočale Ray-Ban Meta AI potajno snimaju korisnike i šalju snimke u Keniju.

min čitanja

Više

Tehnologija

Policija upozorava na novu prijevaru: porukom „Bok, možeš li mi posuditi 900 eura?” pokušavaju vam isprazniti račun
Dubrovačko-neretvanska policija upozorava na val poruka s lažnom molbom za posudbu 900 eura i daje upute kako se zaštititi.

min čitanja

Više

Tehnologija

Cijene RAM-a probile 1.000 dolara: jurišna puška AR-15 trenutačno jeftinija od računalne nadogradnje
Eksplozija potražnje za silicijem zbog razvoja umjetne inteligencije dovela je do apsurdne situacije: 64 GB DDR5 RAM-a skuplje je od osnovnog modela jurišne puške AR-15.

min čitanja

Više

Tehnologija

ByteDance kroz Project Swan najavljuje iskorak u poslovni XR
Na MWC-u u Barceloni ByteDance je predstavio Pico OS 6 i najavio headset Project Swan, ciljajući poslovne korisnike XR-a i izravno konkurirajući Appleu.

min čitanja

Više

Tehnologija

Istraživači: Tvrtke ignoriraju obavezu objave podataka o treniranju AI modela
Trinity College Dublin analizirao je provedbu EU Akta o umjetnoj inteligenciji i utvrdio da većina velikih tvrtki još ne objavljuje zakonom propisane sažetke o podatcima za treniranje AI modela.

min čitanja

Više

Tehnologija

Lažno usklađivanje umjetne inteligencije sve veći sigurnosni rizik
Nova prijetnja u svijetu kibernetike: umjetna inteligencija može „glumiti poslušnost”, a zapravo raditi po starim pravilima, što otvara put krađi podataka i sabotaži sustava.

min čitanja

Više

Tehnologija

Stručnjaci upozoravaju: nosivi AI uređaji mogu potkopati ljudsku autonomiju
Nadolazeća generacija nosivih AI uređaja mogla bi, upozoravaju stručnjaci, pretvoriti se iz pomoćnika u sofisticirani mehanizam manipulacije korisnicima.

min čitanja

Više

Tehnologija

Pentagon koristio Claude u napadu na Iran unatoč Trumpovoj zabrani
Američka vojska oslanjala se na AI sustav Claude prilikom zračnih udara na Iran iako je Donald Trump nekoliko sati ranije izdao naredbu o prekidu suradnje s tvrtkom Anthropic.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Najčitanije

Vijesti

Požar u zatvoru Bilice: dim ozlijedio 13 osoba, među njima i pravosudni policajci
Madrac koji se zapalio u splitskom zatvoru Bilice izazvao je požar i dim zbog kojeg je pomoć zatražilo 13 osoba.

min čitanja

Više

Nogomet

UEFA kaznila Tottenham zbog rasističkog ispada navijača
UEFA novčano kaznila Tottenham i izrekla uvjetnu zabranu ulaznica zbog rasističkog ispada navijača tijekom utakmice s Eintrachtom.
Football.ua, CC BY-SA 3.0 GFDL, via Wikimedia Commons

min čitanja

Više

Biznis

Iskra preuzima riječki 3. maj za 6,7 milijuna eura
CERP odobrio prodaju 3. maja 1905. šibenskoj Iskri uz obvezu očuvanja brodogradnje i najavu novih ulaganja.

min čitanja

Više

Najnovije

Politika

Bruxelles najavljuje dug put do zabrane konverzijskih terapija

Vijesti

Opatija otvara 17. Dane antifašizma: „Suosjećanjem protiv mržnje”

Sport

Zagreb se oprostio od doktora Ivana Fattorinija u Košarkaškom centru Dražen Petrović

Vijesti

Škotska prva u Ujedinjenom Kraljevstvu dopušta „vodenu kremaciju”

Vijesti

Iran nakon izraelskih udara: sustav bez pukotina i nova prijetnja širenjem rata u Zaljevu

Vijesti

Požar razotkrio tamnu sadašnjost riječkog hotela Emigranti

Vijesti

Delničani prikupili 206 doza krvi u prvoj ovogodišnjoj akciji

Sport

Brahim Diaz javno potvrdio prelazak na islam

Sport

Kenija privremeno suspendirala 27 sportaša zbog dopinga

Politika

Transparent s likom pokojnog desničara Charlieja Kirka izazvao buru pred zgradom američkog Ministarstva obrazovanja

Politika

Habijan o zabrani društvenih mreža djeci: „Najlakše je donijeti zakon, ali provedba je pravi izazov”