Baidu je objavio novi multimodalni model umjetne inteligencije ERNIE-4.5-VL-28B-A3B-Thinking, tvrdeći da nadmašuje konkurente iz Googlea i OpenAI-ja u razumijevanju dokumenata, tablica i slika – iako tijekom izvođenja aktivira tek tri od ukupno 28 milijardi parametara.
Model koristi arhitekturu Mixture-of-Experts pa za svaki zadatak uključuje samo relevantne podsustave, zahvaljujući čemu može raditi na jednoj GPU kartici s 80 GB memorije. Time se znatno smanjuje cijena implementacije u odnosu na sustave koji traže klaster više skupljih akceleratora.
Ključna novost je značajka „Thinking with Images” koja modelu omogućuje dinamičko zumiranje slike, slično ljudskom pretraživanju detalja. Baidu navodi da time postiže preciznije „vizualno uzemljenje” objekata, što je presudno za industrijske primjene poput robotske navigacije ili kontrole kvalitete.
Tvrtka ističe šest glavnih sposobnosti: više-korakovno vizualno zaključivanje, rješavanje STEM zadataka sa slikovnim ulazom, precizno lociranje objekata, integraciju vanjskih alata (primjerice tražilice slika), razumijevanje video zapisa te spomenuto „razmišljanje slikama”.
Model je objavljen pod liberalnom licencom Apache 2.0, što otvara put komercijalnoj uporabi bez naknada. Baidu u tehničkoj dokumentaciji tvrdi da ERNIE-4.5 u nizu testova nadilazi Googleov Gemini 2.5 Pro i OpenAI-jev GPT-5-High, no neovisne provjere tek slijede.
Za razvoj i proizvodni rad Baidu nudi komplet alata ERNIEKit, a model je kompatibilan s popularnim bibliotekama poput Hugging Face Transformers i vLLM-a. Primjeri pokazuju da je za osnovno pokretanje potrebno tridesetak redaka Pythona.
Iako traži „samo” 80 GB VRAM-a, to je i dalje ozbiljna investicija za tvrtke bez postojećeg GPU okruženja. Dokumentacija također ne otkriva detalje o sigurnosnim mehanizmima ni ponašanju na rubnim slučajevima, što će poduzeća morati sama testirati.
Baidu će cijelu ERNIE 4.5 obitelj – od 424-milijarditog MoE diva do kompaktnog 0,3-milijarditog modela – detaljnije predstaviti 13. studenoga na konferenciji Baidu World 2025. Otvorenost koda i niska hardverska letvica sugeriraju da bi se kineski div mogao nametnuti globalnom tržištu u trenutačno najbrže rastućem AI segmentu: razumijevanju vizualnih podataka uz tekstualno zaključivanje.