CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

9. prosinca 2025, 16:22

Novi test otkrio velike rupe: AI agenti još uvijek padaju na stvarnim poslovnim zadacima

Benchmark OfficeQA pokazao je da najnoviji AI agenti i dalje griješe u više od polovice zadataka koji oponašaju stvarne potrebe poduzeća.

min. čitanja

XFacebookWhatsApp

Najnovije istraživanje tvrtke Databricks pokazalo je koliko su trenutačni AI agenti udaljeni od potreba pravih korisnika u tvrtkama. U okviru internog projekta razvijen je OfficeQA, mjerilo (benchmark) koje simulira svakodnevne zadatke u velikim organizacijama – od rada s internim PDF-ovima do kompleksnih tablica i grafikona.

Rezultati su, kako priznaju i istraživači, „otrježnjujući”. Čak i najnapredniji modeli postigli su tek 43 % točnosti na neobrađenim PDF dokumentima, a s pažljivo očišćenim i strukturiranim podacima jedva su dosegli 70 %. Kod najtežih pitanja ukupan rezultat zapeo je na 40 %.

„If we focus our research efforts on getting better at [existing benchmarks], then we're probably not solving the right problems to make Databricks a better platform”, rekao je Erich Elsen, glavni istraživač u Databricksu, objašnjavajući zašto je tvrtka odlučila razviti novo mjerilo prilagođeno realnim potrebama korisnika.

Ključni problemi koje je OfficeQA identificirao:

  • Parsiranje tabelarnih podataka: ugniježđeni naslovi, spajani stupci i nestandardni formati često vode u kriva očitanja vrijednosti.
  • Višestruke verzije dokumenata: financijski i regulatorni izvještaji prolaze revizije, pa valjani odgovor ovisi o datumu izdanja.
  • Vizualno zaključivanje: oko 3 % pitanja zahtijeva tumačenje grafikona ili dijagrama, a AI agenti na tim zadacima redovito podbace.

Za kompanije koje planiraju automatizirati obradu dokumenata ovo je jasna poruka da se oslanjanje na visoke rezultate na akademskim testovima ne može poistovjetiti s uspjehom u praksi. OfficeQA, zaključuju u Databricksu, nudi realniji poligon na kojem se može mjeriti napredak – ali i pokazuje koliko je posla još pred razvojnim timovima.

#databricks#erich-elsen#officeqa#pdf-dokumenti

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Mini FabLab u Puli pretvara ideje u stvarnost
Interaktivno događanje u Centru za mlade Pula približava 3D tehnologiju i STEM područje djeci i mladima.

min čitanja

Više

Tehnologija

Alibaba lansirao seriju Qwen3.5: kompaktni AI modeli ciljaju mobilne uređaje
Alibaba je predstavio četiri nova otvorena AI modela Qwen3.5, namijenjena štedljivim uređajima i složenom rezoniranju, čime kineska tvrtka pojačava konkurenciju u globalnoj utrci umjetne inteligencije.

min čitanja

Više

Tehnologija

Europarlamentarci traže reakciju na navodno snimanje „pametnih“ naočala Metae u intimnim trenucima
Zastupnici iz četiri političke skupine traže od Komisije objašnjenje nakon tvrdnji da naočale Ray-Ban Meta AI potajno snimaju korisnike i šalju snimke u Keniju.

min čitanja

Više

Tehnologija

Policija upozorava na novu prijevaru: porukom „Bok, možeš li mi posuditi 900 eura?” pokušavaju vam isprazniti račun
Dubrovačko-neretvanska policija upozorava na val poruka s lažnom molbom za posudbu 900 eura i daje upute kako se zaštititi.

min čitanja

Više

Tehnologija

Cijene RAM-a probile 1.000 dolara: jurišna puška AR-15 trenutačno jeftinija od računalne nadogradnje
Eksplozija potražnje za silicijem zbog razvoja umjetne inteligencije dovela je do apsurdne situacije: 64 GB DDR5 RAM-a skuplje je od osnovnog modela jurišne puške AR-15.

min čitanja

Više

Tehnologija

ByteDance kroz Project Swan najavljuje iskorak u poslovni XR
Na MWC-u u Barceloni ByteDance je predstavio Pico OS 6 i najavio headset Project Swan, ciljajući poslovne korisnike XR-a i izravno konkurirajući Appleu.

min čitanja

Više

Tehnologija

Istraživači: Tvrtke ignoriraju obavezu objave podataka o treniranju AI modela
Trinity College Dublin analizirao je provedbu EU Akta o umjetnoj inteligenciji i utvrdio da većina velikih tvrtki još ne objavljuje zakonom propisane sažetke o podatcima za treniranje AI modela.

min čitanja

Više

Tehnologija

Lažno usklađivanje umjetne inteligencije sve veći sigurnosni rizik
Nova prijetnja u svijetu kibernetike: umjetna inteligencija može „glumiti poslušnost”, a zapravo raditi po starim pravilima, što otvara put krađi podataka i sabotaži sustava.

min čitanja

Više

Tehnologija

Stručnjaci upozoravaju: nosivi AI uređaji mogu potkopati ljudsku autonomiju
Nadolazeća generacija nosivih AI uređaja mogla bi, upozoravaju stručnjaci, pretvoriti se iz pomoćnika u sofisticirani mehanizam manipulacije korisnicima.

min čitanja

Više

Tehnologija

Pentagon koristio Claude u napadu na Iran unatoč Trumpovoj zabrani
Američka vojska oslanjala se na AI sustav Claude prilikom zračnih udara na Iran iako je Donald Trump nekoliko sati ranije izdao naredbu o prekidu suradnje s tvrtkom Anthropic.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Najčitanije

Vijesti

Požar u zatvoru Bilice: dim ozlijedio 13 osoba, među njima i pravosudni policajci
Madrac koji se zapalio u splitskom zatvoru Bilice izazvao je požar i dim zbog kojeg je pomoć zatražilo 13 osoba.

min čitanja

Više

Nogomet

UEFA kaznila Tottenham zbog rasističkog ispada navijača
UEFA novčano kaznila Tottenham i izrekla uvjetnu zabranu ulaznica zbog rasističkog ispada navijača tijekom utakmice s Eintrachtom.
Football.ua, CC BY-SA 3.0 GFDL, via Wikimedia Commons

min čitanja

Više

Biznis

Iskra preuzima riječki 3. maj za 6,7 milijuna eura
CERP odobrio prodaju 3. maja 1905. šibenskoj Iskri uz obvezu očuvanja brodogradnje i najavu novih ulaganja.

min čitanja

Više

Najnovije

Politika

Bruxelles najavljuje dug put do zabrane konverzijskih terapija

Vijesti

Opatija otvara 17. Dane antifašizma: „Suosjećanjem protiv mržnje”

Sport

Zagreb se oprostio od doktora Ivana Fattorinija u Košarkaškom centru Dražen Petrović

Vijesti

Škotska prva u Ujedinjenom Kraljevstvu dopušta „vodenu kremaciju”

Vijesti

Iran nakon izraelskih udara: sustav bez pukotina i nova prijetnja širenjem rata u Zaljevu

Vijesti

Požar razotkrio tamnu sadašnjost riječkog hotela Emigranti

Vijesti

Delničani prikupili 206 doza krvi u prvoj ovogodišnjoj akciji

Sport

Brahim Diaz javno potvrdio prelazak na islam

Sport

Kenija privremeno suspendirala 27 sportaša zbog dopinga

Politika

Transparent s likom pokojnog desničara Charlieja Kirka izazvao buru pred zgradom američkog Ministarstva obrazovanja

Politika

Habijan o zabrani društvenih mreža djeci: „Najlakše je donijeti zakon, ali provedba je pravi izazov”