Tehnologija

18. kolovoza 2025, 11:16

EU stručnjaci upozoravaju na manjkavosti u ocjenjivanju umjetne inteligencije

Rad Zajedničkog istraživačkog centra Europske komisije otkriva da se sadašnja mjerila za umjetnu inteligenciju lako manipuliraju i ne odražavaju stvarne sposobnosti modela, zbog čega istraživači pozivaju na strože, transparentnije i kulturno uključivije standarde.

min. čitanja

Europski istraživači upozorili su da se sadašnja mjerila za procjenu mogućnosti umjetne inteligencije lako mogu zaobići te često mjere pogrešne stvari.

U radu objavljenom prošloga tjedna Zajednički istraživački centar (JRC) Europske komisije zaključuje da komercijalni alati za usporedbu AI modela „obećavaju previše”. Autori ističu kako proizvođači sustava mogu ciljano prilagoditi modele kako bi poboljšali rezultat na uskom testu, umjesto da razvijaju stvarne sposobnosti.

Tvrtke poput OpenAI-a uvelike se oslanjaju na takve brojčane pokazatelje. Primjerice, najnoviji GPT-5 interno je testiran na dosljednom odbijanju neodgovorivih pitanja i, prema navodima tvrtke, nadmašio prethodnu verziju. No JRC poziva regulatore da detaljno preispitaju kako ti testovi funkcioniraju i što zapravo mjere.

Problem je posebno osjetljiv za Europsku uniju jer se novi Zakon o umjetnoj inteligenciji oslanja na procjene sposobnosti modela u različitim kontekstima. Prema propisu, veliki modeli mogu biti svrstani u kategoriju „posebnog rizika” ako se pokaže da posjeduju „visokoučinkovite sposobnosti”. Komisija tu definiciju može precizirati delegiranim aktom – no to još nije učinjeno.

Istodobno, Sjedinjene Države su u petak predstavile vlastiti paket alata za procjenu AI-a za savezne agencije, naglašavajući ambiciju zadržavanja globalnog vodstva na tom području.

Kako bi sustav ocjenjivanja učinili vjerodostojnim, istraživači predlažu: • usmjeravanje testova na stvarne, a ne uske zadatke; • potpunu dokumentaciju i transparentnost; • jasno definiranje ciljeva i metodologije; • uvažavanje različitih kulturnih i jezičnih konteksta, budući da se sadašnja mjerila gotovo isključivo temelje na engleskom jeziku.

„Posebno naglašavamo potrebu za novim načinima označavanja mjerila kojima se može vjerovati”, navodi se u radu, dodajući da bi dobro postavljen sustav mogao stvoriti novi „bruxelleski efekt” i postaviti globalne standarde.

Risto Uuk, voditelj za EU politiku i istraživanje u think tanku Future of Life Institute, podržava nalaze: „Poboljšanja su nužna, ali procjena sposobnosti i rizika od ključne je važnosti – oslanjanje na dojmove i anegdote jednostavno nije dovoljno.” Uuk zato predlaže da EU uvede obvezno testiranje od strane neovisnih tijela i financijski podupre razvoj čitavog ekosustava procjenjivanja.

Istraživači zaključuju da upravo sada postoji prilika da Europa postavi jasna, provjerljiva i sveobuhvatna pravila te tako spriječi da brojke u promidžbenim materijalima postanu važnije od stvarne sigurnosti i pouzdanosti AI sustava.

#europska-unija #openai #zakon-o-umjetnoj-inteligenciji #zajednicki-istrazivacki-centar #future-of-life-institute

Slično

Tehnologija

Mistral AI predstavlja OCR 3 i ruši cijene skeniranja dokumenata

Startup od 11,7 mlrd. € lansirao OCR 3, hvali se 74 % boljom točnošću i cijenom od 2 USD za 1 000 stranica.

min čitanja

Više

Tehnologija

Bruxelles predlaže zajedničku oznaku za duboke laži: nova pravila za otkrivanje AI sadržaja

Komisija predlaže dobrovoljni kodeks uz novu „EU ikonu” koja bi označavala duboke laži te obvezu metapodataka i vodenih žigova za AI sadržaj.

min čitanja

Više

Tehnologija

Ai2 predstavio Molmo 2: otvoreni video model koji izaziva veće konkurente

Allen Institute for AI lansirao je Molmo 2, kompaktni open-source video model koji u ključnim zadaćama nadmašuje i veće konkurente poput Gemini 3 Pro.

min čitanja

Više

Tehnologija

HAC predstavio Crolibertas: cestarine bez kućica od ožujka 2027.

Novi sustav naplate Crolibertas zamijenit će kućice, a od 2027. cestarinu će biti moguće platiti samo ENC-om ili putem kamere koja čita registarske pločice.

min čitanja

Više

Tehnologija

Start-stop sustav: ušteda goriva u gradu, ali trajno gašenje može prazniti novčanik

Kontroverzni start-stop sustav štedi i do 15 % goriva u gradu, ali njegovo trajno isključivanje može rezultirati visokim kaznama i gubitkom prometne dozvole.

min čitanja

Više

Tehnologija

Google upozorava na novi val phishing napada na Gmail

Tehnološki div naglašava da nikada neće tražiti lozinku telefonom te savjetuje korisnicima Gmaila uključivanje dvofaktorske autentifikacije.

min čitanja

Više

Tehnologija

Korisnici bijesni na iOS 26.2: „Ažuriranje je uništilo moje iPhone iskustvo”

Masovne pritužbe na iOS 26.2: spor rad, probleme s baterijom i zbunjujuće promjene izazvale su lavinu kritika na društvenim mrežama.

min čitanja

Više

Tehnologija

Međuzvjezdani komet 3I/ATLAS sutra prolazi najbližu točku Zemlji

Rijetki međuzvjezdani komet 3I/ATLAS 19. prosinca najbliži je Zemlji, nudi astronomima posljednji pogled prije definitivnog napuštanja Sunčevog sustava.

min čitanja

Više

Tehnologija

Krvni test otkriva ALS prije simptoma s 97 posto točnosti

Američki istraživači razvili su test koji ALS detektira i prije simptoma, čime bi se dijagnoza skratila s mjeseci na dane.

min čitanja

Više

Tehnologija

Božićni spektakl u Teksasu: 5 000 dronova iscrtalo Svetu obitelj na noćnom nebu

Spektakularni prizor u Mansfieldu: 5 000 dronova Sky Elementsa oblikovalo je Svetu obitelj, a snimka je postala hit na društvenim mrežama.

min čitanja

Više

EU stručnjaci upozoravaju na manjkavosti u ocjenjivanju umjetne inteligencije

min. čitanja

Europski istraživači upozorili su da se sadašnja mjerila za procjenu mogućnosti umjetne inteligencije lako mogu zaobići te često mjere pogrešne stvari.

Istodobno, Sjedinjene Države su u petak predstavile vlastiti paket alata za procjenu AI-a za savezne agencije, naglašavajući ambiciju zadržavanja globalnog vodstva na tom području.