Google je predstavio FACTS Benchmark Suite, sveobuhvatan niz testova koji prvi put sustavno mjere koliko su veliki jezični modeli doista faktografski točni – ne samo koliko dobro izvršavaju zadatke.
Dvije dimenzije istine
Istraživači su pojavu „faktualnosti” podijelili na: • „kontekstualnu faktualnost” – koliko se model drži danog izvora podataka; • „faktualnost svjetskog znanja” – koliko točno iz „vlastite memorije” ili interneta iznosi provjerljive činjenice.
Četiri testa, 3 513 javnih primjera
FACTS se sastoji od:
- Parametričkog testa (interna memorija)
- Search testa (korištenje web-pretraživača)
- Multimodalnog testa (razumijevanje slika i grafova)
- Grounding testa v2 (strogo držanje zadanog teksta)
Kaggle čuva dodatni privatni set kako bi spriječio „kontaminaciju” treniranjem na testnim podacima.
Poredak: nitko iznad 70 %
Početni rezultati otkrivaju tzv. „zid faktualnosti”: nijedan model nije prešao 70 % ukupne točnosti.
| Model | FACTS ukupno | Search | Multimodal | | --- | --- | --- | --- | | Gemini 3 Pro | 68,8 % | 83,8 % | 46,1 % | | Gemini 2.5 Pro | 62,1 % | 63,9 % | 46,9 % | | GPT-5 | 61,8 % | 77,7 % | 44,1 % | | Grok 4 | 53,6 % | 75,3 % | 25,7 % | | Claude 4.5 Opus | 51,3 % | 73,2 % | 39,2 % |
Ključne poruke: • Ogroman jaz između „znanja iz memorije” i sposobnosti pronalaska svježih podataka; Gemini 3 Pro, primjerice, ima 83,8 % u Searchu, ali 76,4 % u Parametričkom testu. • Multimodalni zadaci ostaju najslabija točka – svi modeli ispod 50 %.
Što to znači za tvrtke
• Sustavi temeljeni na RAG-u neka prioritet daju Search rezultatu. • Za chatbotove koji citiraju interne priručnike važniji je Grounding; tu je Gemini 2.5 Pro bolji od vodećeg modela (74,2 % naspram 69,0 %). • Automatizirano čitanje faktura ili financijskih grafikona bez ljudske kontrole zasad nosi visoki rizik pogreške.
„Svi testirani modeli ostvarili su manje od 70 % točnosti, što ostavlja velik prostor za napredak”, poručuju autori benchmarka. Ukratko, AI postaje sve sposobniji, ali i dalje griješi u otprilike trećini slučajeva – razvojaši i dalje moraju „provjeravati, a ne slijepo vjerovati”.