Tehnologija

11. prosinca 2025, 06:15

Google lansirao FACTS: novi test razotkriva granice točnosti najnaprednijih AI modela

Novi Googleov FACTS Benchmark Suite otkriva da nijedan vodeći AI model ne prelazi 70 % faktografske točnosti, s posebno slabim rezultatima u radu sa slikama i grafovima.

min. čitanja

Google je predstavio FACTS Benchmark Suite, sveobuhvatan niz testova koji prvi put sustavno mjere koliko su veliki jezični modeli doista faktografski točni – ne samo koliko dobro izvršavaju zadatke.

Dvije dimenzije istine

Istraživači su pojavu „faktualnosti” podijelili na: • „kontekstualnu faktualnost” – koliko se model drži danog izvora podataka; • „faktualnost svjetskog znanja” – koliko točno iz „vlastite memorije” ili interneta iznosi provjerljive činjenice.

Četiri testa, 3 513 javnih primjera

FACTS se sastoji od:

Parametričkog testa (interna memorija)
Search testa (korištenje web-pretraživača)
Multimodalnog testa (razumijevanje slika i grafova)
Grounding testa v2 (strogo držanje zadanog teksta)

Kaggle čuva dodatni privatni set kako bi spriječio „kontaminaciju” treniranjem na testnim podacima.

Poredak: nitko iznad 70 %

Početni rezultati otkrivaju tzv. „zid faktualnosti”: nijedan model nije prešao 70 % ukupne točnosti.

| Model | FACTS ukupno | Search | Multimodal | | --- | --- | --- | --- | | Gemini 3 Pro | 68,8 % | 83,8 % | 46,1 % | | Gemini 2.5 Pro | 62,1 % | 63,9 % | 46,9 % | | GPT-5 | 61,8 % | 77,7 % | 44,1 % | | Grok 4 | 53,6 % | 75,3 % | 25,7 % | | Claude 4.5 Opus | 51,3 % | 73,2 % | 39,2 % |

Ključne poruke: • Ogroman jaz između „znanja iz memorije” i sposobnosti pronalaska svježih podataka; Gemini 3 Pro, primjerice, ima 83,8 % u Searchu, ali 76,4 % u Parametričkom testu. • Multimodalni zadaci ostaju najslabija točka – svi modeli ispod 50 %.

Što to znači za tvrtke

• Sustavi temeljeni na RAG-u neka prioritet daju Search rezultatu. • Za chatbotove koji citiraju interne priručnike važniji je Grounding; tu je Gemini 2.5 Pro bolji od vodećeg modela (74,2 % naspram 69,0 %). • Automatizirano čitanje faktura ili financijskih grafikona bez ljudske kontrole zasad nosi visoki rizik pogreške.

„Svi testirani modeli ostvarili su manje od 70 % točnosti, što ostavlja velik prostor za napredak”, poručuju autori benchmarka. Ukratko, AI postaje sve sposobniji, ali i dalje griješi u otprilike trećini slučajeva – razvojaši i dalje moraju „provjeravati, a ne slijepo vjerovati”.

#google #facts-benchmark #kaggle #grounding-test #search-test

Slično

Tehnologija

OpenAI predstavio GPT-5.2, najmoćniji model dosad

Novi GPT-5.2 donosi 400 000 tokena konteksta, tri razine rada i znatno višu cijenu API-ja, a OpenAI njime želi vratiti vodstvo u utrci s Googleovim Gemini 3.

min čitanja

Više

Tehnologija

AT&T ponovno ulazi u pametne domove uz Connected Life

Nakon gašenja Digital Lifea, AT&T lansira novu platformu Connected Life u partnerstvu s Googleom i Abodeom, nudeći pakete od 11 i 19 dolara mjesečno uz opcionalni profesionalni nadzor i rezervnu mobilnu vezu.

min čitanja

Više

Tehnologija

Toyota osvježila Corollu za 2026.: dizajn, hibrid i digitalija na prvom mjestu

Nova Toyota Corolla za 2026. donosi osvježen dizajn, napredne hibridne pogone i potpuno digitalno sučelje, uz standardni sigurnosni paket Toyota Safety Sense.

min čitanja

Više

Tehnologija

Hrvatska traži mjesto u svemiru: kolokvij na FER-u najavio novu strategiju i jače partnerstvo s Italijom

Kolokvij „Europska svemirska perspektiva“ na zagrebačkom FER-u otkrio plan izrade nacionalne svemirske strategije, dok Italija i ESA nude potporu hrvatskom ulasku u jače svemirske projekte.

min čitanja

Više

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16

Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Tehnologija

AI Nomos 1 gotovo dosegao vrh na prestižnom Putnamu

Otvoreni AI sustav Nomos 1 iz Nous Researcha osvojio bi drugo mjesto na prestižnom Putnamovom natjecanju, dokazavši se kao gotovo ravnopravan ljudskim genijalcima.

min čitanja

Više

Tehnologija

Nova Gradiška dobiva AI podatkovni centar vrijedan do 450 milijuna eura

Grad i londonski NEOIX potpisali su predugovor: AI podatkovni centar od 50 MW trebao bi početi nicati u Novoj Gradiški za pola godine.

min čitanja

Više

Tehnologija

Muskovi prijetnje nakon kazne X-u unijele nelagodu u Bruxelles

Kazna od 120 milijuna eura za X izazvala je Muskov gnjev, a bruxelleski su dužnosnici zbog prijetnji počeli propitivati sigurnost putovanja u SAD.

min čitanja

Više

Tehnologija

Disney ulaže milijardu dolara u OpenAI i otvara svoje likove umjetnoj inteligenciji

Tek nakon niza tužbi Disney se okreće novoj strategiji: licencira likove OpenAI-ju, ulaže milijardu dolara i priprema se za eru AI videa na Disney+-u.

min čitanja

Više

Tehnologija

Virtualna skrb za oboljele od KOPB-a širi se Michiganom

Priority Health sklapa partnerstvo s tvrtkom Kivo Health kako bi pacijentima s KOPB-om omogućio virtualnu, kućnu pulmološku rehabilitaciju u cijelom Michiganu.

min čitanja

Više

Tehnologija

11. prosinca 2025, 06:15

Google lansirao FACTS: novi test razotkriva granice točnosti najnaprednijih AI modela

Novi Googleov FACTS Benchmark Suite otkriva da nijedan vodeći AI model ne prelazi 70 % faktografske točnosti, s posebno slabim rezultatima u radu sa slikama i grafovima.

min. čitanja

Dvije dimenzije istine

Četiri testa, 3 513 javnih primjera

FACTS se sastoji od:

Parametričkog testa (interna memorija)
Search testa (korištenje web-pretraživača)
Multimodalnog testa (razumijevanje slika i grafova)
Grounding testa v2 (strogo držanje zadanog teksta)

Kaggle čuva dodatni privatni set kako bi spriječio „kontaminaciju” treniranjem na testnim podacima.

Poredak: nitko iznad 70 %

Početni rezultati otkrivaju tzv. „zid faktualnosti”: nijedan model nije prešao 70 % ukupne točnosti.

Što to znači za tvrtke

#google #facts-benchmark #kaggle #grounding-test #search-test

Slično

Tehnologija

OpenAI predstavio GPT-5.2, najmoćniji model dosad

Novi GPT-5.2 donosi 400 000 tokena konteksta, tri razine rada i znatno višu cijenu API-ja, a OpenAI njime želi vratiti vodstvo u utrci s Googleovim Gemini 3.

min čitanja

Više

Tehnologija

AT&T ponovno ulazi u pametne domove uz Connected Life

min čitanja

Više

Tehnologija

Toyota osvježila Corollu za 2026.: dizajn, hibrid i digitalija na prvom mjestu

Nova Toyota Corolla za 2026. donosi osvježen dizajn, napredne hibridne pogone i potpuno digitalno sučelje, uz standardni sigurnosni paket Toyota Safety Sense.

min čitanja

Više

Tehnologija

Hrvatska traži mjesto u svemiru: kolokvij na FER-u najavio novu strategiju i jače partnerstvo s Italijom

Kolokvij „Europska svemirska perspektiva“ na zagrebačkom FER-u otkrio plan izrade nacionalne svemirske strategije, dok Italija i ESA nude potporu hrvatskom ulasku u jače svemirske projekte.

min čitanja

Više

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16

Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Tehnologija

AI Nomos 1 gotovo dosegao vrh na prestižnom Putnamu

Otvoreni AI sustav Nomos 1 iz Nous Researcha osvojio bi drugo mjesto na prestižnom Putnamovom natjecanju, dokazavši se kao gotovo ravnopravan ljudskim genijalcima.

min čitanja

Više

Tehnologija

Nova Gradiška dobiva AI podatkovni centar vrijedan do 450 milijuna eura

Grad i londonski NEOIX potpisali su predugovor: AI podatkovni centar od 50 MW trebao bi početi nicati u Novoj Gradiški za pola godine.

min čitanja

Više

Tehnologija

Muskovi prijetnje nakon kazne X-u unijele nelagodu u Bruxelles

Kazna od 120 milijuna eura za X izazvala je Muskov gnjev, a bruxelleski su dužnosnici zbog prijetnji počeli propitivati sigurnost putovanja u SAD.

min čitanja

Više

Tehnologija

Disney ulaže milijardu dolara u OpenAI i otvara svoje likove umjetnoj inteligenciji

Tek nakon niza tužbi Disney se okreće novoj strategiji: licencira likove OpenAI-ju, ulaže milijardu dolara i priprema se za eru AI videa na Disney+-u.

min čitanja

Više

Tehnologija

Virtualna skrb za oboljele od KOPB-a širi se Michiganom

Priority Health sklapa partnerstvo s tvrtkom Kivo Health kako bi pacijentima s KOPB-om omogućio virtualnu, kućnu pulmološku rehabilitaciju u cijelom Michiganu.

min čitanja

Više