CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

8. siječnja 2026, 06:05

Novi indeks inteligencije mijenja pravila: umjetna inteligencija odsad se ocjenjuje kroz stvarni rad

Artificial Analysis objavio je Indeks inteligencije v4.0, drastično promijenio testove i preusmjerio fokus s trivijalnih kvizova na zadatke koji generiraju ekonomsku vrijednost.

min. čitanja

XFacebookWhatsApp

Umjetna inteligencija više se ne mjeri po tome koliko točno pogodi kviz-pitanje, nego koliko dobro obavlja posao za koji bi tvrtke platile stvarnu plaću. Takav zaokret donosi Artificial Analysis, neovisna benchmarking organizacija koja je objavila četvrtu verziju svojeg Indeksa inteligencije (v4.0).

Vraćanje „margine za rast” Prethodni testovi toliko su se zasitili da su vodeći modeli rutinski osvajali 90. percentil, čineći rejtinge beskorisnima za poslovne kupce. U novoj ljestvici najbolji modeli jedva prelaze 50 bodova, dok su ranije imali prosjek 73. „Ova promjena odražava širu tranziciju: inteligencija se mjeri manje po pamćenju, a više po ekonomski korisnoj akciji”, napisao je istraživač Aravind Sundar na X-u.

Četiri stupa sposobnosti Indeks sada jednako vrednuje agente, kodiranje, znanstveno zaključivanje i opće znanje. Ključne su tri nove evaluacije:

  1. GDPval-AA – procjenjuje može li AI isporučiti dokumente, tablice, prezentacije i multimediju za 44 zanimanja u devet industrija. Modeli dobivaju pristup ljusci sustava i pregledniku, a rezultati se mjere Elo sustavom u slijepim usporedbama. GPT-5.2 s produženim razmišljanjem vodi s 1 442 boda; Claude Opus 4.5 slijedi sa 1 403.

  2. CritPT – 71 istraživački zadatak iz suvremene fizike, kreiran od 50 znanstvenika. GPT-5.2 jedva osvaja 11,5 %, što pokazuje koliko su modeli još daleko od pravog znanstvenog otkrića.

  3. AA-Omniscience – 6 000 pitanja iz gospodarstva, zdravstva, prava, softvera i drugih područja mjere točnost, ali i sklonost halucinacijama. Gemini 3 Pro Preview ima najbolji Omniscience indeks (13), no pokazuje i visoku stopu halucinacija (88 %).

Top lista modela (ukupni Indeks v4.0) • GPT-5.2 (OpenAI) – 1. mjesto
• Claude Opus 4.5 (Anthropic) – 2. mjesto
• Gemini 3 Pro (Google) – 3. mjesto

Industrija u „code redu” Googleovo lansiranje Geminija 3 potaknulo je OpenAI na interni „code red”. „Željeli smo usmjeriti sve resurse na jedno područje”, rekla je Fidji Simo, direktorica aplikacija u OpenAI-ju. U međuvremenu je Anthropic izbacio tri velika modela u dva mjeseca i uz potporu Microsofta i Nvidije dosegnuo vrijednost od oko 350 milijardi dolara.

Za poslovne korisnike poruka je jasna: prije odabira modela treba proučiti pojedinačne bodove, osobito kad je riječ o halucinacijama, jer „visoka točnost ne jamči nisku sklonost izmišljanju”. Artificial Analysis tvrdi da su svi testovi neovisni, s 95-postotnim intervalom pouzdanosti manjim od ±1 %.

Nova metodologija konačno prati ono što AI industrija obećava – stvarnu produktivnost, a ne puko rješavanje zagonetki.

#nvidia#google#openai#anthropic#artificial-analysis

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Google predstavlja Gemini Embedding 2: jedinstveni vektori za sve medijske sadržaje
Google je pustio u javni pretpregled multimodalni model Gemini Embedding 2 koji spaja tekst, slike, video i zvuk u isti vektorski prostor, ubrzava obradu do 70 % i smanjuje troškove za poduzeća.

min čitanja

Više

Tehnologija

Google ne isključuje oglase u Gemini
Potpredsjednik Googlea Nick Fox kaže da se oglasi zasad neće pojaviti u AI-modelu Gemini, ali kompanija razmatra tu opciju za budućnost.

min čitanja

Više

Tehnologija

Google Mapama stiže „Ask Maps”: razgovorni AI planira rute i vodi kroz 3D navigaciju
Razgovorni alat „Ask Maps” od danas korisnicima u SAD-u i Indiji nudi personalizirano planiranje ruta, dok Immersive Navigation donosi 3D prikaz kretanja u Google Kartama.

min čitanja

Više

Tehnologija

Nvidia lansirala Nemotron 3 Super, hibridni AI od 120 milijardi parametara
Nvidia je predstavila Nemotron 3 Super, hibridni model od 120 milijardi parametara namijenjen jeftinijem pogonu višestrukih AI-agenata u poslovnim okruženjima.

min čitanja

Više

Tehnologija

Googleov tim razvija AI agente koji spontano surađuju bez tvrdokodiranih pravila
Paradigms of Intelligence pokazuje da treniranje AI agenata protiv raznovrsnih protivnika stvara fleksibilne, suradljive sustave prikladne za složene poslovne primjene.

min čitanja

Više

Tehnologija

Anthropic spaja Claude s Excelom i PowerPointom, cilja korporativne korisnike
Nadogradnja Claudea donosi duboke integracije s Excelom i PowerPointom, dijeljeni kontekst između aplikacija i novu funkciju „Skills” za brže, standardizirano obavljanje zadataka.

min čitanja

Više

Tehnologija

Prvi AI plivački mlaz lansiran na Kickstarteru
iGarden na Kickstarteru nudi Swim Jet X Series, prvi prijenosni plivački mlaz kojim upravlja umjetna inteligencija, po početnoj cijeni od 799 USD.

min čitanja

Više

Tehnologija

Umjetna inteligencija ubrzava potragu za lijekovima: nova oružja protiv superbakterija i Parkinsona
Računalni algoritmi ubrzavaju otkrivanje novih antibiotika, potencijalnih terapija za Parkinsonovu bolest te otvaraju mogućnosti ponovne primjene postojećih lijekova, nudeći nadu milijunima pacijenata.

min čitanja

Više

Tehnologija

Iranski hakeri udarili na američku tvrtku Stryker: Handala najavljuje "novo doba kibernetskog rata"
Handala, za koju se vjeruje da je povezana s iranskom obavještajnom službom, tvrdi da je paralizirala Stryker u odmazdi za napade SAD-a i Izraela, upozoravajući na "novo doba kibernetskog rata".

min čitanja

Više

Tehnologija

Autor Government of Ukraine - ДСТУ 4512:2006 — Державний прапор України. Загальні технічні умови; Section 1, Article 20 of the Constitution of Ukraine, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=421234Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Ukrajina otvara bojišne podatke za treniranje savezničkih AI sustava
Ministar obrane Mihajlo Fedorov kaže da Kijev partnerima stavlja na raspolaganje milijune bojišnih snimki kako bi ubrzali razvoj autonomnih sustava protiv Rusije.
President Of Ukraine from Україна, CC0, via Wikimedia Commons

min čitanja

Više

Najčitanije

Politika

Plenković o srbijanskoj hipersoničnoj raketi „Zagrepčanka“: Hrvatska će alarmirati NATO
Premijer u Požegi najavio razgovore s NATO-om o srbijanskom oružju i mogućnost zamrzavanja cijena struje i plina.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986

min čitanja

Više

Biznis

Iva Radić odstupila s čela Journal Media: prijavila sumnje u izvlačenje novca
Osnivačica portala Journal.hr podnijela je ostavku na mjesto direktorice zbog sumnji u višegodišnje nezakonite radnje nad financijama tvrtke, dok je poslovanje portala privremeno zaustavljeno.

min čitanja

Više

Najnovije

Sport

UEFA otvorila istragu protiv Pedra Neta zbog guranja sakupljača lopti

Biznis

Nova EPBD direktiva mijenja pravila igre na hrvatskom tržištu nekretnina

Politika

Strah od širenja rata: Europa se priprema na mogući udar iz Irana

Tehnologija

Prvi AI plivački mlaz lansiran na Kickstarteru

Sport

Mišo Krstičević se vratio kući: preuzeo Jadran Luka Ploče i odmah najavio pohod na vrh

Lifestyle

Festival grintanja opet puni Split: tri teme koje uvijek raspale Dalmatince

Politika

Porast intervencija i gospodarskog kriminala, manje nasilnih djela: PGŽ usvojila izvješće o civilnoj zaštiti

Sport

Meksiko ostao bez prvog vratara uoči Svjetskog prvenstva

Vijesti

Napadač ubijen ispred sinagoge u Michiganu

Politika

Malić i Josipović u facebook dvoboju metaforama

Biznis

Iza buke protiv investicija krije se problem strukture stranog kapitala