CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

9. prosinca 2025, 16:22

Novi test otkrio velike rupe: AI agenti još uvijek padaju na stvarnim poslovnim zadacima

Benchmark OfficeQA pokazao je da najnoviji AI agenti i dalje griješe u više od polovice zadataka koji oponašaju stvarne potrebe poduzeća.

min. čitanja

XFacebookWhatsApp

Najnovije istraživanje tvrtke Databricks pokazalo je koliko su trenutačni AI agenti udaljeni od potreba pravih korisnika u tvrtkama. U okviru internog projekta razvijen je OfficeQA, mjerilo (benchmark) koje simulira svakodnevne zadatke u velikim organizacijama – od rada s internim PDF-ovima do kompleksnih tablica i grafikona.

Rezultati su, kako priznaju i istraživači, „otrježnjujući”. Čak i najnapredniji modeli postigli su tek 43 % točnosti na neobrađenim PDF dokumentima, a s pažljivo očišćenim i strukturiranim podacima jedva su dosegli 70 %. Kod najtežih pitanja ukupan rezultat zapeo je na 40 %.

„If we focus our research efforts on getting better at [existing benchmarks], then we're probably not solving the right problems to make Databricks a better platform”, rekao je Erich Elsen, glavni istraživač u Databricksu, objašnjavajući zašto je tvrtka odlučila razviti novo mjerilo prilagođeno realnim potrebama korisnika.

Ključni problemi koje je OfficeQA identificirao:

  • Parsiranje tabelarnih podataka: ugniježđeni naslovi, spajani stupci i nestandardni formati često vode u kriva očitanja vrijednosti.
  • Višestruke verzije dokumenata: financijski i regulatorni izvještaji prolaze revizije, pa valjani odgovor ovisi o datumu izdanja.
  • Vizualno zaključivanje: oko 3 % pitanja zahtijeva tumačenje grafikona ili dijagrama, a AI agenti na tim zadacima redovito podbace.

Za kompanije koje planiraju automatizirati obradu dokumenata ovo je jasna poruka da se oslanjanje na visoke rezultate na akademskim testovima ne može poistovjetiti s uspjehom u praksi. OfficeQA, zaključuju u Databricksu, nudi realniji poligon na kojem se može mjeriti napredak – ali i pokazuje koliko je posla još pred razvojnim timovima.

#databricks#erich-elsen#officeqa#pdf-dokumenti
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Sukob tehnoloških titana: Musk i Altman na sudu zbog misije OpenAI-ja
Sudska bitka između Elona Muska i Sama Altmana mogla bi redefinirati smjer OpenAI-ja i pravila distribucije napredne umjetne inteligencije.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Google uveo „AI način” koji Chrome pretvara u stalni chat na lijevom rubu
Ažuriranje „AI načina” u Chromeu otvara linkove u istoj kartici i ostavlja chat sa strane, smanjujući potrebu za skakanjem među karticama.

min čitanja

Više

Tehnologija

Anthropic širi londonski ured i najavljuje četverostruko veći tim
Američki AI laboratorij Claudea seli u znatno veći londonski ured, pojačava suradnju s britanskim Institutom za sigurnost AI-ja i otvara do 800 radnih mjesta, najavljujući novu rundu lova na vrhunske talente.

min čitanja

Više

Tehnologija

Nissan lansira potpuno električni Juke, stari benzinac ostaje kao povoljnija opcija
Populani crossover dobiva isključivo električnu varijantu, dok ažurirani benzinac ostaje u ponudi zbog znatno niže cijene.

min čitanja

Više

Tehnologija

Start-up Sabi razvija kapu koja pretvara misli u tekst
Silicijskodalinski start-up najavljuje nosivi uređaj koji EEG-om pretvara unutarnji govor u tekst, dok stručnjaci upozoravaju na zaštitu najosjetljivijih osobnih podataka.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

AI ubrzava analizu rizika, ali ne liječi loše upravljanje
Stručnjaci u Zagrebu poručili: AI donosi bržu analizu rizika, ali bez jasnih procesa i kulture odgovornosti ostaje tek „fina šminka“.

min čitanja

Više

Tehnologija

Split dobiva prvi Telemach x HONOR shop-in-shop u Europi
Prva europska Telemach x HONOR poslovnica otvara se 20. travnja u City Centeru One Split, nudeći kombinaciju telekom usluga i najsuvremenijih HONOR uređaja te premijeru serije HONOR 600.

min čitanja

Više

Tehnologija

Europske vlade razvijaju vlastite aplikacije i izbacuju WhatsApp iz službene komunikacije
Francuska, Njemačka i još nekoliko članica EU-a napuštaju komercijalne aplikacije za dopisivanje te uvode vlastite, sigurnije sustave za državne službenike.

min čitanja

Više

Tehnologija

„Dotakni svijet” u Bistri: izložba o tehnologiji koja slijepima otvara horizonte
Međunarodna izložba „Dotakni svijet” u Tehničkom muzeju Slovenije prikazuje evoluciju pomagala za slijepe i slabovidne, potičući raspravu o današnjoj pristupačnosti tehnologije.

min čitanja

Više

Tehnologija

Prijevremeni curenjak pogonske snage: cijeli film „Avatar: Aang, The Last Airbender” osvanuo na mreži
Curenje cijelog filma „Avatar: Aang, The Last Airbender” pola godine prije premijere razveselilo je dio fanova, ali slomilo autore i potencijalno ugrozilo budućnost franšize.

min čitanja

Više

Najčitanije

Politika

Trump slavi dogovoreni prekid vatre i poziva Netanyahua i Aouna u Bijelu kuću
Američki predsjednik objavio je desetodnevno primirje Izraela i Libanona te najavio dolazak obojice čelnika u Washington.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524US Department of State, Public domain, via Wikimedia Commons

min čitanja

Više

Biznis

Keight Hotel Opatija ušao u elitni 1 % Hiltona
Boutique hotel u središtu Opatije primio je Connie Award, najviše Hiltonovo priznanje koje dobiva tek jedan posto objekata u globalnoj mreži.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Sport

Pavlešić dijeli pravdu na maksimirskom derbiju

Tehnologija

Sukob tehnoloških titana: Musk i Altman na sudu zbog misije OpenAI-ja

Sport

Crikvenica unatoč porazu slavila najuspješniju prvoligašku sezonu

Vijesti

Početak svibnja donosi kraj gužvama na brzoj cesti Solin–Klis

Vijesti

Bez poziva vatrogascima nema loženja vatre u Labinu

Vijesti

Lov na krivca: u Požegi zračnom puškom ranjena kućna mačka

Biznis

Europske tvrtke razmatraju kanadski LNG kao skuplju, ali sigurniju opciju

Politika

Plenković: Istri ne pristaje termoelektrana na ugljen, razmatra se nuklearna opcija

Lifestyle

Wine & Walk Veprinac spaja vino, šetnju i pogled na Kvarner

Sport

Messi preuzeo UE Cornellu i najavio dugoročni projekt

Lifestyle

Reddit rasprava ponovno otvorila pitanje raskošnog života mladih u Splitu