Umjetna inteligencija više se ne mjeri po tome koliko točno pogodi kviz-pitanje, nego koliko dobro obavlja posao za koji bi tvrtke platile stvarnu plaću. Takav zaokret donosi Artificial Analysis, neovisna benchmarking organizacija koja je objavila četvrtu verziju svojeg Indeksa inteligencije (v4.0).
Vraćanje „margine za rast” Prethodni testovi toliko su se zasitili da su vodeći modeli rutinski osvajali 90. percentil, čineći rejtinge beskorisnima za poslovne kupce. U novoj ljestvici najbolji modeli jedva prelaze 50 bodova, dok su ranije imali prosjek 73. „Ova promjena odražava širu tranziciju: inteligencija se mjeri manje po pamćenju, a više po ekonomski korisnoj akciji”, napisao je istraživač Aravind Sundar na X-u.
Četiri stupa sposobnosti Indeks sada jednako vrednuje agente, kodiranje, znanstveno zaključivanje i opće znanje. Ključne su tri nove evaluacije:
-
GDPval-AA – procjenjuje može li AI isporučiti dokumente, tablice, prezentacije i multimediju za 44 zanimanja u devet industrija. Modeli dobivaju pristup ljusci sustava i pregledniku, a rezultati se mjere Elo sustavom u slijepim usporedbama. GPT-5.2 s produženim razmišljanjem vodi s 1 442 boda; Claude Opus 4.5 slijedi sa 1 403.
-
CritPT – 71 istraživački zadatak iz suvremene fizike, kreiran od 50 znanstvenika. GPT-5.2 jedva osvaja 11,5 %, što pokazuje koliko su modeli još daleko od pravog znanstvenog otkrića.
-
AA-Omniscience – 6 000 pitanja iz gospodarstva, zdravstva, prava, softvera i drugih područja mjere točnost, ali i sklonost halucinacijama. Gemini 3 Pro Preview ima najbolji Omniscience indeks (13), no pokazuje i visoku stopu halucinacija (88 %).
Top lista modela (ukupni Indeks v4.0)
• GPT-5.2 (OpenAI) – 1. mjesto
• Claude Opus 4.5 (Anthropic) – 2. mjesto
• Gemini 3 Pro (Google) – 3. mjesto
Industrija u „code redu” Googleovo lansiranje Geminija 3 potaknulo je OpenAI na interni „code red”. „Željeli smo usmjeriti sve resurse na jedno područje”, rekla je Fidji Simo, direktorica aplikacija u OpenAI-ju. U međuvremenu je Anthropic izbacio tri velika modela u dva mjeseca i uz potporu Microsofta i Nvidije dosegnuo vrijednost od oko 350 milijardi dolara.
Za poslovne korisnike poruka je jasna: prije odabira modela treba proučiti pojedinačne bodove, osobito kad je riječ o halucinacijama, jer „visoka točnost ne jamči nisku sklonost izmišljanju”. Artificial Analysis tvrdi da su svi testovi neovisni, s 95-postotnim intervalom pouzdanosti manjim od ±1 %.
Nova metodologija konačno prati ono što AI industrija obećava – stvarnu produktivnost, a ne puko rješavanje zagonetki.