CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

9. prosinca 2025, 16:22

Novi test otkrio velike rupe: AI agenti još uvijek padaju na stvarnim poslovnim zadacima

Benchmark OfficeQA pokazao je da najnoviji AI agenti i dalje griješe u više od polovice zadataka koji oponašaju stvarne potrebe poduzeća.

min. čitanja

XFacebookWhatsApp

Najnovije istraživanje tvrtke Databricks pokazalo je koliko su trenutačni AI agenti udaljeni od potreba pravih korisnika u tvrtkama. U okviru internog projekta razvijen je OfficeQA, mjerilo (benchmark) koje simulira svakodnevne zadatke u velikim organizacijama – od rada s internim PDF-ovima do kompleksnih tablica i grafikona.

Rezultati su, kako priznaju i istraživači, „otrježnjujući”. Čak i najnapredniji modeli postigli su tek 43 % točnosti na neobrađenim PDF dokumentima, a s pažljivo očišćenim i strukturiranim podacima jedva su dosegli 70 %. Kod najtežih pitanja ukupan rezultat zapeo je na 40 %.

„If we focus our research efforts on getting better at [existing benchmarks], then we're probably not solving the right problems to make Databricks a better platform”, rekao je Erich Elsen, glavni istraživač u Databricksu, objašnjavajući zašto je tvrtka odlučila razviti novo mjerilo prilagođeno realnim potrebama korisnika.

Ključni problemi koje je OfficeQA identificirao:

  • Parsiranje tabelarnih podataka: ugniježđeni naslovi, spajani stupci i nestandardni formati često vode u kriva očitanja vrijednosti.
  • Višestruke verzije dokumenata: financijski i regulatorni izvještaji prolaze revizije, pa valjani odgovor ovisi o datumu izdanja.
  • Vizualno zaključivanje: oko 3 % pitanja zahtijeva tumačenje grafikona ili dijagrama, a AI agenti na tim zadacima redovito podbace.

Za kompanije koje planiraju automatizirati obradu dokumenata ovo je jasna poruka da se oslanjanje na visoke rezultate na akademskim testovima ne može poistovjetiti s uspjehom u praksi. OfficeQA, zaključuju u Databricksu, nudi realniji poligon na kojem se može mjeriti napredak – ali i pokazuje koliko je posla još pred razvojnim timovima.

#databricks#erich-elsen#officeqa#pdf-dokumenti

Slično

Tehnologija

Šefica Slacka prelazi u OpenAI na poziciju direktorice prihoda
Denise Dresser napušta Slack i već idući tjedan preuzima vođenje OpenAI-jeva poslovanja s korporativnim klijentima.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Australija zabranila društvene mreže mlađima od 16: Prvi korak koji bi mogao pokrenuti lavinu
Prva na svijetu, Australija je zabranila društvene mreže djeci mlađoj od 16 godina, a slične mjere najavljuju i druge zemlje.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Istraživanje dr. Parnie dovodi u pitanje konačnost smrti
Američki liječnik tvrdi da moždana aktivnost može potrajati satima, pa i danima nakon što srce stane, što bi moglo preokrenuti medicinske protokole reanimacije.

min čitanja

Više

Tehnologija

Mistral AI predstavio Devstral 2 – novi adut za programere koji stane i na laptop
Francuski Mistral AI lansirao je Devstral 2 – dva nova open-source modela za kodiranje i CLI alat Vibe, dostupne besplatno i spremne za rad čak i na običnom laptopu.

min čitanja

Više

Tehnologija

OpenAI sve oprezniji s objavom studija o negativnim ekonomskim posljedicama umjetne inteligencije
Neutralni ton optimismu zamijenjen oprezom: OpenAI sve rjeđe dijeli studije koje upozoravaju na gubitak radnih mjesta i druge negativne ekonomske posljedice umjetne inteligencije.

min čitanja

Više

Tehnologija

OpenAI, Anthropic i Block udružuju snage oko zajedničkih standarda za AI agente
Tri tehnološka lidera najavila su inicijativu za jedinstvene standarde koji će AI agente učiniti sigurnijima, kompatibilnijima i etički utemeljenima.

min čitanja

Više

Tehnologija

Revolucionarna T-stanična terapija: 64 % teško oboljelih pacijenata u remisiji
Prvi podaci kliničkog ispitivanja pokazuju da nova terapija uređivanjem DNK-a pretvara donorske T stanice u oružje protiv agresivnog raka krvi, donoseći remisiju kod gotovo dvije trećine pacijenata.

min čitanja

Više

Tehnologija

Bez konteksta nema učinka: marketinške ekipe otkrivaju slabosti generativne umjetne inteligencije
Generativna umjetna inteligencija rookie je hit u marketingu, ali bez dubljeg razumijevanja brenda i publike često promašuje suštinu.

min čitanja

Više

Tehnologija

Pebble predstavio pametni prsten za snimanje misli
Kanadski Pebble širi ponudu nosivih uređaja: nakon pametnih satova izbacuje minimalistički prsten Index 01 koji glasovne bilješke sprema lokalno i radi bez punjenja pune dvije godine.

min čitanja

Više

Tehnologija

Oklahoma uz pomoć umjetne inteligencije otkrila 10 milijuna dolara spornih troškova
Prva američka savezna država koja je procesnu inteligenciju ugradila u sustav javne nabave zaustavila je milijune dolara nepravilnih troškova i prepolovila broj zaposlenih u nadzornom timu.

min čitanja

Više

Najčitanije

Nogomet

Olympiakos napokon slavio: Gelson Martins srušio Kairat u Astani
Minimalnim trijumfom u Astani Grci osvojili prve bodove u skupini, a junak susreta bio je Gelson Martins.

min čitanja

Više

Biznis

Porezna uprava izdala vodič za Fiskalizaciju 2.0: e-računi postaju obvezni od 2026.
Novo pravilo o obveznim e-računima stupa na snagu 2026., a Porezna uprava objavila je vodič koji poduzetnicima pomaže u pripremi.

min čitanja

Više

Najnovije

Vijesti

Listerija u uzlaznom trendu: ECDC upozorava na sve češće teške slučajeve

Politika

Šibenik usred verbalnog okršaja: grad ostaje svjetionik demokracije i tolerancije

Vijesti

Krađa vaza na rovinjskom groblju razljutila građane

Politika

Boban položio vijenac Tuđmanu: „Njegov doprinos trajno je upisan u povijest”

Vijesti

Transplant iz pakla: bjesnoća prešla s donora na primatelja bubrega, obojica preminuli

Vijesti

Gomile smeća u Hercegovačkoj već tri mjeseca, građanin prozvao gradonačelnika Šutu

Politika

Rekordan vojni šoping: Hrvatska za 1,8 milijardi eura kupuje Leoparde, Caesare i sustave protiv dronova

Politika

Merz odbacuje dijelove nove američke sigurnosne strategije: „America First da, ali ne i America Alone“

Politika

Trump najavio širenje borbe protiv kartela na Meksiko i Kolumbiju

Sport

Racije u argentinskom nogometu produbljuju sukob Tapije i Mileija

Politika

Srušen mural braniteljima u Novoj Gradiški na sam Dan grada