CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

11. prosinca 2025, 06:15

Google lansirao FACTS: novi test razotkriva granice točnosti najnaprednijih AI modela

Novi Googleov FACTS Benchmark Suite otkriva da nijedan vodeći AI model ne prelazi 70 % faktografske točnosti, s posebno slabim rezultatima u radu sa slikama i grafovima.

min. čitanja

XFacebookWhatsApp

Google je predstavio FACTS Benchmark Suite, sveobuhvatan niz testova koji prvi put sustavno mjere koliko su veliki jezični modeli doista faktografski točni – ne samo koliko dobro izvršavaju zadatke.

Dvije dimenzije istine

Istraživači su pojavu „faktualnosti” podijelili na: • „kontekstualnu faktualnost” – koliko se model drži danog izvora podataka; • „faktualnost svjetskog znanja” – koliko točno iz „vlastite memorije” ili interneta iznosi provjerljive činjenice.

Četiri testa, 3 513 javnih primjera

FACTS se sastoji od:

  1. Parametričkog testa (interna memorija)
  2. Search testa (korištenje web-pretraživača)
  3. Multimodalnog testa (razumijevanje slika i grafova)
  4. Grounding testa v2 (strogo držanje zadanog teksta)

Kaggle čuva dodatni privatni set kako bi spriječio „kontaminaciju” treniranjem na testnim podacima.

Poredak: nitko iznad 70 %

Početni rezultati otkrivaju tzv. „zid faktualnosti”: nijedan model nije prešao 70 % ukupne točnosti.

| Model | FACTS ukupno | Search | Multimodal | | --- | --- | --- | --- | | Gemini 3 Pro | 68,8 % | 83,8 % | 46,1 % | | Gemini 2.5 Pro | 62,1 % | 63,9 % | 46,9 % | | GPT-5 | 61,8 % | 77,7 % | 44,1 % | | Grok 4 | 53,6 % | 75,3 % | 25,7 % | | Claude 4.5 Opus | 51,3 % | 73,2 % | 39,2 % |

Ključne poruke: • Ogroman jaz između „znanja iz memorije” i sposobnosti pronalaska svježih podataka; Gemini 3 Pro, primjerice, ima 83,8 % u Searchu, ali 76,4 % u Parametričkom testu. • Multimodalni zadaci ostaju najslabija točka – svi modeli ispod 50 %.

Što to znači za tvrtke

• Sustavi temeljeni na RAG-u neka prioritet daju Search rezultatu. • Za chatbotove koji citiraju interne priručnike važniji je Grounding; tu je Gemini 2.5 Pro bolji od vodećeg modela (74,2 % naspram 69,0 %). • Automatizirano čitanje faktura ili financijskih grafikona bez ljudske kontrole zasad nosi visoki rizik pogreške.

„Svi testirani modeli ostvarili su manje od 70 % točnosti, što ostavlja velik prostor za napredak”, poručuju autori benchmarka. Ukratko, AI postaje sve sposobniji, ali i dalje griješi u otprilike trećini slučajeva – razvojaši i dalje moraju „provjeravati, a ne slijepo vjerovati”.

#google#facts-benchmark#kaggle#grounding-test#search-test

Slično

Tehnologija

OpenAI predstavio GPT-5.2, najmoćniji model dosad
Novi GPT-5.2 donosi 400 000 tokena konteksta, tri razine rada i znatno višu cijenu API-ja, a OpenAI njime želi vratiti vodstvo u utrci s Googleovim Gemini 3.

min čitanja

Više

Tehnologija

AT&T ponovno ulazi u pametne domove uz Connected Life
Nakon gašenja Digital Lifea, AT&T lansira novu platformu Connected Life u partnerstvu s Googleom i Abodeom, nudeći pakete od 11 i 19 dolara mjesečno uz opcionalni profesionalni nadzor i rezervnu mobilnu vezu.

min čitanja

Više

Tehnologija

Toyota osvježila Corollu za 2026.: dizajn, hibrid i digitalija na prvom mjestu
Nova Toyota Corolla za 2026. donosi osvježen dizajn, napredne hibridne pogone i potpuno digitalno sučelje, uz standardni sigurnosni paket Toyota Safety Sense.

min čitanja

Više

Tehnologija

Hrvatska traži mjesto u svemiru: kolokvij na FER-u najavio novu strategiju i jače partnerstvo s Italijom
Kolokvij „Europska svemirska perspektiva“ na zagrebačkom FER-u otkrio plan izrade nacionalne svemirske strategije, dok Italija i ESA nude potporu hrvatskom ulasku u jače svemirske projekte.

min čitanja

Više

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16
Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Tehnologija

AI Nomos 1 gotovo dosegao vrh na prestižnom Putnamu
Otvoreni AI sustav Nomos 1 iz Nous Researcha osvojio bi drugo mjesto na prestižnom Putnamovom natjecanju, dokazavši se kao gotovo ravnopravan ljudskim genijalcima.

min čitanja

Više

Tehnologija

Nova Gradiška dobiva AI podatkovni centar vrijedan do 450 milijuna eura
Grad i londonski NEOIX potpisali su predugovor: AI podatkovni centar od 50 MW trebao bi početi nicati u Novoj Gradiški za pola godine.

min čitanja

Više

Tehnologija

Muskovi prijetnje nakon kazne X-u unijele nelagodu u Bruxelles
Kazna od 120 milijuna eura za X izazvala je Muskov gnjev, a bruxelleski su dužnosnici zbog prijetnji počeli propitivati sigurnost putovanja u SAD.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Disney ulaže milijardu dolara u OpenAI i otvara svoje likove umjetnoj inteligenciji
Tek nakon niza tužbi Disney se okreće novoj strategiji: licencira likove OpenAI-ju, ulaže milijardu dolara i priprema se za eru AI videa na Disney+-u.

min čitanja

Više

Tehnologija

Virtualna skrb za oboljele od KOPB-a širi se Michiganom
Priority Health sklapa partnerstvo s tvrtkom Kivo Health kako bi pacijentima s KOPB-om omogućio virtualnu, kućnu pulmološku rehabilitaciju u cijelom Michiganu.

min čitanja

Više

Najčitanije

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16
Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Najnovije

Vijesti

Prvašići u suzama nakon sata vjeronauka: učiteljica im rekla da Sveti Nikola ne postoji

Lifestyle

Mario Petreković prepričao trodnevni planinarski pothvat: „Fala nebu što nisam znao u što se upuštam”

Lifestyle

Pulsko kazalište otvorilo natječaj: traži se novi ravnatelj s vizijom i iskustvom

Politika

London priziva „ratni način razmišljanja”: britanski ministar upozorava na sjenu rata s Rusijom

Tehnologija

Toyota osvježila Corollu za 2026.: dizajn, hibrid i digitalija na prvom mjestu

Vijesti

Skupe jurilice zauzele invalidska mjesta u garaži Max Stoje

Politika

Sabor na odmoru, pravosuđe u vakuumu: bez šefa Vrhovnog suda i troje ustavnih sudaca

Politika

Vlada planira ukinuti dvostruke evidencije birača

Lifestyle

Al Pacino u „Sonny Boyu” otkriva neispričanu priču o siromaštvu, odbijenim Oscarima i velikim ulogama

Tehnologija

Hrvatska traži mjesto u svemiru: kolokvij na FER-u najavio novu strategiju i jače partnerstvo s Italijom

Vijesti

Vukovar ulaže 11 milijuna eura u prometnice i javne površine