Kineski startup Zhipu AI (Z.ai) lansirao je novu seriju otvorenokodnih vizualno-jezičnih modela pod nazivom GLM-4.6V, namijenjenu složenom multimodalnom rezoniranju, automatizaciji na prednjoj strani i učinkovitom izvođenju na različitim uređajima.
Serija se sastoji od dvije varijante:
- GLM-4.6V (106B) – model sa 106 milijardi parametara optimiziran za rad u oblaku i izvođenje na velikoj skali.
- GLM-4.6V-Flash (9B) – kompaktna verzija s devet milijardi parametara, dizajnirana za nisku latenciju i lokalne implementacije.
Najveća novost je ugrađeni poziv funkcija (native function calling), prvi put primijenjen u vizualno-jezičnom modelu. Ta mogućnost dopušta izravno korištenje alata poput pretraživanja, automatskog izrezivanja slika ili prepoznavanja grafikona na temelju vizualnog ulaza, bez potrebe za dodatnim servisima.
GLM-4.6V može obraditi do 128 000 tokena u jednom kontekstu, podržava slike svih rezolucija i omjera stranica te automatski izdvaja ilustracije iz znanstvenih radova tijekom generiranja odgovora. Prema objavljenim rezultatima, serija postiže vodeće ocjene na više od 20 mjerila i pozicionira se kao ozbiljna konkurencija zatvorenim i otvorenim modelima slične namjene.
Startup ističe da veća verzija donosi snagu za zahtjevne cloud-scenarije, dok je manji model prilagođen aplikacijama na rubu mreže, gdje su brzina i ekonomičnost ključni. Oba modela dostupna su pod otvorenim kodom, čime Zhipu AI želi potaknuti širu primjenu i daljnji razvoj multimodalnih rješenja.