Microsoft je u utorak lansirao Phi-4-reasoning-vision-15B, kompaktni multimodalni AI model s 15 milijardi parametara za koji tvrdi da dostiže, pa i nadmašuje performanse znatno većih sustava – uz višestruko manju potrošnju računalnih resursa.
Model je odmah dostupan kroz Microsoft Foundry, HuggingFace i GitHub pod permisivnom licencom. Riječ je o sustavu koji istodobno obrađuje slike i tekst te:
- rješava složene matematičke i znanstvene zadatke,
- tumači grafikone i dokumente,
- navigira grafičkim sučeljima,
- obavlja svakodnevne vizualne zadaće poput opisivanja fotografija ili čitanja računa.
Objava dolazi u trenutku kada se AI industrija nosi s dilemom: najveći modeli daju najbolje „sirove” rezultate, ali su skupi, spori i energetski zahtjevni, što ih čini nepraktičnima za mnoge stvarne primjene.
„Naš je cilj zajednici ponuditi konkretne uvide u izgradnju manjih, učinkovitih multimodalnih modela za rezoniranje”, poručio je Microsoftov istraživački tim, „i podijeliti otvoreni model koji je konkurentan sličnima po veličini u općim zadacima povezivanja vida i jezika, a posebno se ističe pri korištenju računala te u znanstvenom i matematičkom rezoniranju.”
Microsoft ovim potezom nastavlja jednogodišnju kampanju kojom nastoji dokazati da pažljivo dizajnirani manji modeli mogu parirati, pa i u ključnim područjima nadmašiti, najveće komercijalne AI sustave – pritom štedeći vrijeme, troškove i energiju.