Novi test otkrio velike rupe: AI agenti još uvijek padaju na stvarnim poslovnim zadacima

Najnovije istraživanje tvrtke Databricks pokazalo je koliko su trenutačni AI agenti udaljeni od potreba pravih korisnika u tvrtkama. U okviru internog projekta razvijen je OfficeQA, mjerilo (benchmark) koje simulira svakodnevne zadatke u velikim organizacijama – od rada s internim PDF-ovima do kompleksnih tablica i grafikona.

Rezultati su, kako priznaju i istraživači, „otrježnjujući”. Čak i najnapredniji modeli postigli su tek 43 % točnosti na neobrađenim PDF dokumentima, a s pažljivo očišćenim i strukturiranim podacima jedva su dosegli 70 %. Kod najtežih pitanja ukupan rezultat zapeo je na 40 %.

„If we focus our research efforts on getting better at [existing benchmarks], then we're probably not solving the right problems to make Databricks a better platform”, rekao je Erich Elsen, glavni istraživač u Databricksu, objašnjavajući zašto je tvrtka odlučila razviti novo mjerilo prilagođeno realnim potrebama korisnika.

Ključni problemi koje je OfficeQA identificirao:

Parsiranje tabelarnih podataka: ugniježđeni naslovi, spajani stupci i nestandardni formati često vode u kriva očitanja vrijednosti.
Višestruke verzije dokumenata: financijski i regulatorni izvještaji prolaze revizije, pa valjani odgovor ovisi o datumu izdanja.
Vizualno zaključivanje: oko 3 % pitanja zahtijeva tumačenje grafikona ili dijagrama, a AI agenti na tim zadacima redovito podbace.

Za kompanije koje planiraju automatizirati obradu dokumenata ovo je jasna poruka da se oslanjanje na visoke rezultate na akademskim testovima ne može poistovjetiti s uspjehom u praksi. OfficeQA, zaključuju u Databricksu, nudi realniji poligon na kojem se može mjeriti napredak – ali i pokazuje koliko je posla još pred razvojnim timovima.

Ključni problemi koje je OfficeQA identificirao:

Parsiranje tabelarnih podataka: ugniježđeni naslovi, spajani stupci i nestandardni formati često vode u kriva očitanja vrijednosti.
Višestruke verzije dokumenata: financijski i regulatorni izvještaji prolaze revizije, pa valjani odgovor ovisi o datumu izdanja.
Vizualno zaključivanje: oko 3 % pitanja zahtijeva tumačenje grafikona ili dijagrama, a AI agenti na tim zadacima redovito podbace.

Novi test otkrio velike rupe: AI agenti još uvijek padaju na stvarnim poslovnim zadacima

Komentari ~ 0

Novi test otkrio velike rupe: AI agenti još uvijek padaju na stvarnim poslovnim zadacima

Komentari ~ 0