CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

22. rujna 2025, 20:05

Alibaba predstavio Qwen3-Omni, prvi otvoreni AI koji prirodno spaja tekst, sliku, zvuk i video

Kineska Alibaba lansirala je Qwen3-Omni, otvoreni AI model koji prirodno kombinira tekst, sliku, zvuk i video, nadmašuje konkurenciju na 22 od 36 testova i dolazi pod slobodnom Apache 2.0 licencom.

min. čitanja

XFacebookWhatsApp

Kineski tehnološki div Alibaba lansirao je Qwen3-Omni, veliki jezični model otvorenog koda koji izvorno razumije i obrađuje tekst, slike, zvuk i video. Tvrtka ga opisuje kao „prvi nativni end-to-end omni-modalni AI” koji sve te ulaze ujedinjuje unutar jednog sustava.

Qwen3-Omni u ulaznom obliku prihvaća tekst, slike, audio i video, a odgovara tekstom ili govorom. Dostupan je za besplatno preuzimanje i komercijalnu primjenu pod permisivnom Apache 2.0 licencijom, čime se razlikuje od vlasničkih konkurenata.

Ključni noviteti • Integrirani pristup: za razliku od modela koji su naknadno dobivali vid ili govor, Qwen3-Omni je od početka treniran multimodalno, pa zadržava odziv u stvarnom vremenu. • Tri varijante: Instruct (puni opseg funkcija), Thinking (naglasak na rezoniranje i dugačkim odgovorima) te Captioner (specijaliziran za opis audio zapisa). • Široka jezična pokrivenost: 119 jezika u tekstu, 19 za govorni ulaz i 10 za govorni izlaz. • Dugi kontekst: do 65 536 tokena u načinu Thinking.

Arhitektura „Thinker–Talker” Sustav dijeli zadatke na komponentu Thinker, koja rješava rezoniranje i multimodalno razumijevanje, i Talker, koja generira prirodan govor. Obje koriste Mixture-of-Experts dizajn za brzu izvedbu, dok odvojeni audio podsustav omogućuje latenciju od samo 234 ms za govor i 547 ms za video.

Cijene putem API-ja (za 1 000 tokena) • tekst: 0,00025 USD ulaz / do 0,00178 USD izlaz  • slika ili video: 0,00046 USD ulaz  • audio: 0,00221 USD ulaz; govoreni izlaz 0,00876 USD (tekst je tada besplatan) Besplatna kvota iznosi milijun tokena u 90 dana.

Rezultati testiranja Na 36 mjerila model drži najbolje rezultate na 22, a među otvorenim modelima na 32. Primjeri: • AIME25 (matematika): 65,0 bodova – višestruko bolje od GPT-4o (26,7) • Wenetspeech (točnost prepoznavanja govora): 4,69 WER naspram 15,30 GPT-4o  • MLVU (video razumijevanje): 75,2 bodova – ispred najbližih rivala.

Kako je treniran Ukupno je obrađeno oko dva bilijuna tokena, uključujući 20 milijuna sati nadziranog zvuka. Trening je tekao u tri faze, od odvojene prilagodbe vidnog i audio kodera do proširenja konteksta na 32 768 tokena. Dodatno fino ugađanje smanjilo je „halucinacije” i poboljšalo kvalitetu govora.

Primjene Alibaba ističe transkripciju i prijevod na više jezika, opis audio zapisa, OCR, označavanje glazbe te razumijevanje videa. Model se može postaviti kao interaktivni podrška korisnicima koja u stvarnom vremenu analizira kameru ili ekran korisnika i pruža upute.

Dostupnost Qwen3-Omni već je objavljen na platformama Hugging Face, GitHub i putem Alibaba API-ja (uključujući bržu verziju Flash). Zahvaljujući Apache 2.0 licenci, poduzeća ga mogu prilagoditi bez naknada i bez obveze da otvoreno objave vlastite modifikacije.

Najavljujući model, voditelj tima kratko je poručio: „This might bring some changes to the landscape of opensource Omni models! Hope you enjoy it!”

Objavom Qwen3-Omni Alibaba dodatno pojačava pritisak na zapadne konkurente, nudeći besplatnu i fleksibilnu alternativu za napredne multimodalne sustave.

#kina#hugging-face#alibaba#github#wenetspeech
View post on X

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Njemački Black Forest Labs lansirao brze AI modele FLUX.2 [klein]
Start-up bivših inženjera Stability AI predstavio otvorene slikovne modele od 4 i 9 milijardi parametara, optimizirane za brzinu i potrošnju resursa.

min čitanja

Više

Tehnologija

Zeekr 7GT stiže u Europu: električni gran turismo za vozače koji žele više
Električni 7GT donosi 800-voltno punjenje, 3,3 sekunde do 100 km/h i kokpit okrenut vozaču, najavljujući Zeekrov ambiciozni ulazak na europsko tržište.

min čitanja

Više

Tehnologija

Američki tech magazin najavio raspravu: „Dobrodošli u kinesko stoljeće”
Online panel 21. siječnja okuplja novinare kako bi raspravili globalni uspon Kine u tehnologiji.

min čitanja

Više

Tehnologija

Godina 2026. najavljuje prekretnicu za električne automobile
CES pokazao manjak novih automobila, a kineski BYD prestigao Teslu; modeli za 2026. obećavaju više od 480 km dosega, 800 V punjenje i visoke cijene.

min čitanja

Više

Politika

Na snazi povijesni UN-ov sporazum: do 2030. pod zaštitom 30 posto oceana
UN-ov sporazum BBNJ stupio je na snagu, obećavajući pravnu zaštitu za trećinu oceana do 2030., no dubokomorsko rudarenje ostaje izvan njegova dosega.

min čitanja

Više

Tehnologija

Tajanstvena Sienna Rose možda je AI iluzija
Viralna pjevačica s više milijuna streamova mogla bi biti djelo umjetne inteligencije, upozorava Deezer; slučaj otvara raspravu o budućnosti glazbene industrije.

min čitanja

Više

Tehnologija

Stručnjaci upozoravaju na 'AI psihozu' dok generativna inteligencija sve dublje ulazi u svakodnevicu
Rastuća interakcija s generativnim chatbotovima potaknula je raspravu o novom fenomenu nazvanom „AI psihoza“, koji bi kod ranjivih osoba mogao potaknuti ili pogoršati psihotične simptome, premda poremećaj nije službeno priznat.

min čitanja

Više

Tehnologija

Kia pokazala električni EV2, Fujifilm lansirao nove Instax kamere
Kia je u Bruxellesu otkrila svoj najmanji električni model EV2, dok je Fujifilm predstavio dva nova Instax uređaja – printer Mini Link+ i hibridnu kameru Mini Evo Cinema.

min čitanja

Više

Tehnologija

Apple upozorio: milijardu iPhonea ranjivo bez hitnog ažuriranja
Apple poziva korisnike da hitno pređu na iOS 26 kako bi zatvorili kritične rupe u Safari WebKitu i spriječili hakiranje i špijunažu.

min čitanja

Više

Tehnologija

Metkovski stručnjak na čelu sigurnosti umjetne inteligencije u Silicijskoj dolini
Nikola Jurković iz Metkovića, alumnij Harvarda, danas u San Franciscu analizira rizike naprednih AI sustava poput GPT-5 i vjeruje da bi pravilno vođena tehnologija ljudima mogla donijeti ‘trajnu mirovinu’.

min čitanja

Više

Najčitanije

Vijesti

Eksplozija u kineskoj čeličani: dvoje poginulih, 66 ozlijeđenih
Snažna eksplozija u čeličani Baogang United u Baotouu usmrtila je dva radnika, 66 ih je ozlijeđeno, a pet se vodi kao nestalo.

min čitanja

Više

Politika

Vlada briše penalizaciju: 127.000 prijevremenih umirovljenika dobit će veće mirovine
Umirovljenici koji su prijevremeno napustili posao dobit će u prosjeku 57 eura veće mirovine, a državu će to 2026. stajati gotovo 80 milijuna eura.

min čitanja

Više

Najnovije

Vijesti

Stare osobne iskaznice vrijede do 3. kolovoza 2026.

Sport

Kreilach i Juričić rasplamsali navijački bal na Krku, aukcija dresova za pomoć Ivani

Lifestyle

Antonja slavila 35. rođendan: rekordan broj uzoraka i dvostruka kruna za OPG Poropat

Lifestyle

Influencer izrezao fanu ime na čelo, prijete mu kazna i zatvor

Politika

Minneapolisku srednjoškolku potresle ICE racije: „Teško je učiti dok se bojiš za obitelj”

Vijesti

Stan se srušio usred zabave u Parizu: 50 osoba izbjeglo tragediju, 15 ozlijeđenih

Sport

Martinez prešutio poruge Scholesa i Butta, na terenu utišao kritičare

Biznis

Francusko tržište automobila potonulo na razinu iz 1970-ih

Sport

STK Pula izborio završnicu Europe trophyja pobjedom nad Englezima

Biznis

Pančevačka rafinerija ponovno u pogonu uz naftu iz Janafa

Lifestyle

Emily Ratajkowski otkrila rutinu iza zavodljivog videa u crvenom donjem rublju