CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

8. siječnja 2026, 06:05

Novi indeks inteligencije mijenja pravila: umjetna inteligencija odsad se ocjenjuje kroz stvarni rad

Artificial Analysis objavio je Indeks inteligencije v4.0, drastično promijenio testove i preusmjerio fokus s trivijalnih kvizova na zadatke koji generiraju ekonomsku vrijednost.

min. čitanja

XFacebookWhatsApp

Umjetna inteligencija više se ne mjeri po tome koliko točno pogodi kviz-pitanje, nego koliko dobro obavlja posao za koji bi tvrtke platile stvarnu plaću. Takav zaokret donosi Artificial Analysis, neovisna benchmarking organizacija koja je objavila četvrtu verziju svojeg Indeksa inteligencije (v4.0).

Vraćanje „margine za rast” Prethodni testovi toliko su se zasitili da su vodeći modeli rutinski osvajali 90. percentil, čineći rejtinge beskorisnima za poslovne kupce. U novoj ljestvici najbolji modeli jedva prelaze 50 bodova, dok su ranije imali prosjek 73. „Ova promjena odražava širu tranziciju: inteligencija se mjeri manje po pamćenju, a više po ekonomski korisnoj akciji”, napisao je istraživač Aravind Sundar na X-u.

Četiri stupa sposobnosti Indeks sada jednako vrednuje agente, kodiranje, znanstveno zaključivanje i opće znanje. Ključne su tri nove evaluacije:

  1. GDPval-AA – procjenjuje može li AI isporučiti dokumente, tablice, prezentacije i multimediju za 44 zanimanja u devet industrija. Modeli dobivaju pristup ljusci sustava i pregledniku, a rezultati se mjere Elo sustavom u slijepim usporedbama. GPT-5.2 s produženim razmišljanjem vodi s 1 442 boda; Claude Opus 4.5 slijedi sa 1 403.

  2. CritPT – 71 istraživački zadatak iz suvremene fizike, kreiran od 50 znanstvenika. GPT-5.2 jedva osvaja 11,5 %, što pokazuje koliko su modeli još daleko od pravog znanstvenog otkrića.

  3. AA-Omniscience – 6 000 pitanja iz gospodarstva, zdravstva, prava, softvera i drugih područja mjere točnost, ali i sklonost halucinacijama. Gemini 3 Pro Preview ima najbolji Omniscience indeks (13), no pokazuje i visoku stopu halucinacija (88 %).

Top lista modela (ukupni Indeks v4.0) • GPT-5.2 (OpenAI) – 1. mjesto
• Claude Opus 4.5 (Anthropic) – 2. mjesto
• Gemini 3 Pro (Google) – 3. mjesto

Industrija u „code redu” Googleovo lansiranje Geminija 3 potaknulo je OpenAI na interni „code red”. „Željeli smo usmjeriti sve resurse na jedno područje”, rekla je Fidji Simo, direktorica aplikacija u OpenAI-ju. U međuvremenu je Anthropic izbacio tri velika modela u dva mjeseca i uz potporu Microsofta i Nvidije dosegnuo vrijednost od oko 350 milijardi dolara.

Za poslovne korisnike poruka je jasna: prije odabira modela treba proučiti pojedinačne bodove, osobito kad je riječ o halucinacijama, jer „visoka točnost ne jamči nisku sklonost izmišljanju”. Artificial Analysis tvrdi da su svi testovi neovisni, s 95-postotnim intervalom pouzdanosti manjim od ±1 %.

Nova metodologija konačno prati ono što AI industrija obećava – stvarnu produktivnost, a ne puko rješavanje zagonetki.

#nvidia#google#openai#anthropic#artificial-analysis

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Egzodus iz Thinking Machines Laba: suparništva, ljubavna veza i povratak OpenAI-ju
Odlazak dvojice suosnivača i nekoliko istraživača iz Thinking Machines Laba prema OpenAI-ju otkriva unutarnje nesuglasice, navodnu aferu i utrku za višestruko većom valuacijom.

min čitanja

Više

Tehnologija

Google predstavio internu RL metodu za jasnije zaključivanje AI modela
Nova Googleova tehnika „internal RL” usmjerava interne procese LLM-ova prema korak-po-korak rješenjima, smanjujući halucinacije i otvarajući put autonomnim agentima.

min čitanja

Više

Tehnologija

Godina 2026. najavljuje prekretnicu za električne automobile
CES pokazao manjak novih automobila, a kineski BYD prestigao Teslu; modeli za 2026. obećavaju više od 480 km dosega, 800 V punjenje i visoke cijene.

min čitanja

Više

Tehnologija

Iran priprema trajni prekid s globalnim internetom, pristup bi postao privilegij režima
Teheran, prema upozorenju aktivista, planira dopustiti međunarodni internet samo provjerenim pojedincima, dok bi ostatak populacije bio ograničen na zatvorenu nacionalnu mrežu.

min čitanja

Više

Tehnologija

Robotska premijera u Biogradu: humanoidna Tonka održala govor umjesto gradonačelnika
Na svečanoj sjednici Dana Grada Biograda na Moru debitirala je prva hrvatska humanoidna robotica, hvaleći 19-godišnji mandat gradonačelnika Ivana Kneza.

min čitanja

Više

Tehnologija

Daiwa „Air rotor” i „Mag sealed” mijenjaju pravila igre u ribolovu
Japanski proizvođač predstavio je dvije ključne inovacije koje produžuju vijek role i smanjuju težinu opreme, a već su se proširile s premium modela na širu ponudu.

min čitanja

Više

Tehnologija

Njemački Black Forest Labs lansirao brze AI modele FLUX.2 [klein]
Start-up bivših inženjera Stability AI predstavio otvorene slikovne modele od 4 i 9 milijardi parametara, optimizirane za brzinu i potrošnju resursa.

min čitanja

Više

Tehnologija

AI folk-pop hit izbačen sa službene švedske top-liste
Diskografska udruga IFPI Sweden uklonila je folk-pop hit „Jag vet, du är inte min” s nacionalne ljestvice jer je pjesma, uključujući vokal, stvorena umjetnom inteligencijom.

min čitanja

Više

Tehnologija

Bivši čelnici USDS-a pokreću projekt za obnovu digitalnih servisa nakon „DOGE” eksperimenta
Skupina bivših stručnjaka USDS-a pokrenula je reformni projekt kako bi popravila štetu nastalu nakon Trumpovog „DOGE” preuzimanja državnih digitalnih servisa, zadržavajući pritom potrebnu odlučnost u borbi protiv birokracije.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Tehnologija

Novi prekidi na Muskovoj mreži X pogođeni i korisnici chatbota Grok
Tehničke poteškoće zaustavile su rad društvene mreže X i njezina AI chatbota Grok u više zemalja.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Najčitanije

Nogomet

Preminuo predsjednik Fiorentine Rocco Commisso
Osnivač Mediacoma i omiljeni vlasnik „viole” umro u 76. godini nakon duge bolesti.

min čitanja

Više

Biznis

EU i Mercosur stvaraju golemu zonu slobodne trgovine
Nakon četvrt stoljeća pregovora, EU i Mercosur potpisuju sporazum koji spaja tržišta od 700 milijuna ljudi i 30 % svjetskog BDP-a, no europski poljoprivrednici i dalje strahuju od konkurencije.

min čitanja

Više

Najnovije

Lifestyle

Billie Eilish srušila novi rekord na Spotifyju

Sport

Mlaka pred devetom uzastopnom titulom: riječke kuglačice danas love potvrdu naslova u Zaboku

Sport

Poljud zatvoren, Hajduk protiv Širokog Brijega traži treću pripremnu pobjedu

Sport

Hrvatska protiv Gruzije otvara svoje 17. Europsko prvenstvo

Lifestyle

Jedanaestogodišnja Franka Žužić brani boje Kvarnera u finalu ‘The Voice Kids’

Vijesti

Serijski lopovi ponovno haraju oko Splita: policija poziva Strožanac na oprez

Politika

Soreca upozorava Sarajevo: bez dvaju ključnih zakona nema otvaranja pregovora s EU

Biznis

Građani negoduju zbog besplatnih bankovnih računa: Plenković traži jasnije informiranje

Politika

Minhen otkazao Iranu: nema pozivnica zbog krvavog gušenja prosvjeda

Vijesti

Sud u Beču presudio: bebe smiju plakati i noću, susjedi moraju trpjeti

Vijesti

Nedjeljni reprizni dan za laureate Pulice u kaputu