Europski istraživači upozorili su da se sadašnja mjerila za procjenu mogućnosti umjetne inteligencije lako mogu zaobići te često mjere pogrešne stvari.
U radu objavljenom prošloga tjedna Zajednički istraživački centar (JRC) Europske komisije zaključuje da komercijalni alati za usporedbu AI modela „obećavaju previše”. Autori ističu kako proizvođači sustava mogu ciljano prilagoditi modele kako bi poboljšali rezultat na uskom testu, umjesto da razvijaju stvarne sposobnosti.
Tvrtke poput OpenAI-a uvelike se oslanjaju na takve brojčane pokazatelje. Primjerice, najnoviji GPT-5 interno je testiran na dosljednom odbijanju neodgovorivih pitanja i, prema navodima tvrtke, nadmašio prethodnu verziju. No JRC poziva regulatore da detaljno preispitaju kako ti testovi funkcioniraju i što zapravo mjere.
Problem je posebno osjetljiv za Europsku uniju jer se novi Zakon o umjetnoj inteligenciji oslanja na procjene sposobnosti modela u različitim kontekstima. Prema propisu, veliki modeli mogu biti svrstani u kategoriju „posebnog rizika” ako se pokaže da posjeduju „visokoučinkovite sposobnosti”. Komisija tu definiciju može precizirati delegiranim aktom – no to još nije učinjeno.
Istodobno, Sjedinjene Države su u petak predstavile vlastiti paket alata za procjenu AI-a za savezne agencije, naglašavajući ambiciju zadržavanja globalnog vodstva na tom području.
Kako bi sustav ocjenjivanja učinili vjerodostojnim, istraživači predlažu: • usmjeravanje testova na stvarne, a ne uske zadatke; • potpunu dokumentaciju i transparentnost; • jasno definiranje ciljeva i metodologije; • uvažavanje različitih kulturnih i jezičnih konteksta, budući da se sadašnja mjerila gotovo isključivo temelje na engleskom jeziku.
„Posebno naglašavamo potrebu za novim načinima označavanja mjerila kojima se može vjerovati”, navodi se u radu, dodajući da bi dobro postavljen sustav mogao stvoriti novi „bruxelleski efekt” i postaviti globalne standarde.
Risto Uuk, voditelj za EU politiku i istraživanje u think tanku Future of Life Institute, podržava nalaze: „Poboljšanja su nužna, ali procjena sposobnosti i rizika od ključne je važnosti – oslanjanje na dojmove i anegdote jednostavno nije dovoljno.” Uuk zato predlaže da EU uvede obvezno testiranje od strane neovisnih tijela i financijski podupre razvoj čitavog ekosustava procjenjivanja.
Istraživači zaključuju da upravo sada postoji prilika da Europa postavi jasna, provjerljiva i sveobuhvatna pravila te tako spriječi da brojke u promidžbenim materijalima postanu važnije od stvarne sigurnosti i pouzdanosti AI sustava.