CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

14. studenog 2025, 20:39

Databricks predstavlja ai_parse_document: nova generacija AI obrade PDF-ova

Databricks je lansirao ai_parse_document, alat koji obećava precizno i višestruko jeftinije izvlačenje strukturiranih podataka iz složenih PDF-ova, izravno unutar svoje platforme.

min. čitanja

XFacebookWhatsApp

Databricks je u svojoj platformi Agent Bricks predstavio ai_parse_document, tehnologiju koja cilja na jedan od najvećih izazova u primjeni umjetne inteligencije u poslovanju – zaključane informacije u PDF-ovima. Tvrtka procjenjuje da se oko 80 % korporativnog znanja još uvijek nalazi u izvještajima, dijagramima i složenim dokumentima koje postojeći alati često pogrešno interpretiraju.

„It's a common assumption that parsing PDFs is a solved problem, but in reality, it isn't”, poručuje Erich Elsen, glavni istraživač u Databricksu. Prema njegovim riječima, klasični OCR sustavi gube ili krivo čitaju tablice s spojenim ćelijama, opise figura i prostorne odnose elemenata, što rezultira nepouzdanim nadograđenim AI analizama i poslovnim izvještajima.

Ključne mogućnosti nove funkcije:

  • očuvanje tablica onako kako izgledaju u izvornom dokumentu, uključujući ugniježđene strukture;
  • automatsko generiranje opisa figura i dijagrama;
  • bilježenje točnih koordinata svakog elementa u dokumentu;
  • opcionalni izlaz u obliku slika za multimodalno pretraživanje.

Rezultati se izravno spremaju u Unity Catalog kao Delta tablice, što omogućuje SQL upite nad podacima bez napuštanja Databricks okruženja. Elsen naglašava da su troškovi inferencije „3–5× niži” uz zadržavanje ili premašivanje kvalitete rješenja poput Textracta, Document AI-ja i Azure Document Intelligencea.

„To compensate, teams have had to stack multiple imperfect tools or build extensive custom pipelines, spending months on data engineering instead of innovation. ai_parse_document solves that by extracting complete, structured data from real-world documents — so organizations can finally trust and query unstructured data directly within Databricks.”

Primjene u praksi

• Rockwell Automation skratio je vrijeme podešavanja okruženja za podatkovne znanstvenike; • TE Connectivity je zamijenio kompleksne skripte jednom SQL funkcijom, čineći napredno parsiranje dostupnim i inženjerima podataka; • Emerson Electric koristi rješenje za brzu izgradnju RAG aplikacija unutar postojećeg Databricks sustava.

Funkcija je duboko integrirana s ostalim komponentama platforme, od Spark deklarativnih cjevovoda za automatsku obradu novih dokumenata, preko vektorskog pretraživanja, do lanca AI funkcija kao što su ai_extract, ai_classify i ai_summarize.

„Parsing is only the beginning and rarely an end unto itself”, zaključuje Elsen, ističući da je cilj pretvoriti korpus dokumenata u upotrebljivu bazu znanja za generativne ili informacijske agente.

Za tvrtke koje tek biraju AI infrastrukturu, ova objava signalizira pomak: inteligentno čitanje dokumenata prelazi iz zasebnih servisa u srž podatkovnih platformi, čime se smanjuje potreba za složenim povezivanjem vanjskih alata i ubrzava put do poslovnih uvida.

#databricks#erich-elsen#rockwell-automation#te-connectivity#emerson-electric

Slično

Tehnologija

Tehnički fakultet u Rijeci slavi 65 godina i gradi najsuvremeniji centar za robotiku
Dekan Lado Kranjčević najavio je preuređenje laboratorijske hale u centar za robotiku te 7,5 milijuna eura vrijednu energetsku obnovu, dok broj studenata i projekata na Tehničkom fakultetu u Rijeci bilježi snažan rast.

min čitanja

Više

Tehnologija

Forrester upozorava: generativna umjetna inteligencija postaje „glavni grabežljivac” korporativnih mreža
Na Forresterovu Summitu o sigurnosti i rizicima 2025. stručnjaci su iznijeli pet ključnih koraka za obranu od sve agresivnijeg djelovanja generativne umjetne inteligencije u poslovnim sustavima.

min čitanja

Više

Tehnologija

Stručnjak za sigurnost upozorio: internetsko glasovanje „jako, jako teško” za zaštititi
Na konferenciji o izbornoj tehnologiji u Washingtonu stručnjak Joe Kiniry upozorio je donatore da je internetsko glasovanje iznimno teško osigurati.

min čitanja

Više

Tehnologija

OpenAI razvija „rijetke” neuronske mreže kako bi AI učinio prozirnijim
OpenAI testira „rijetke” neuronske mreže koje pojednostavljuju unutarnju logiku modela i potencijalno otvaraju put transparentnijoj umjetnoj inteligenciji.

min čitanja

Više

Tehnologija

Bipartizanski val otpora američkim podatkovnim centrima: zajednice blokirale projekte vrijedne 98 milijardi dolara
Izvješće Data Center Watcha otkriva da su američke zajednice u samo tri mjeseca blokirale ili odgodile projekte podatkovnih centara vrijedne 98 milijardi dolara, uz sve snažniji bipartizanski politički pritisak.

min čitanja

Više

Tehnologija

Musk obećava milijun humanoida: Tesla gura robote u središte svoje budućnosti
Elon Musk najavljuje milijun humanoidnih robota Optimus u idućem desetljeću, tvrdeći da će nadmašiti Teslinu automobilsku proizvodnju i postati „najveći proizvod svih vremena“.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

OpenAI pokrenuo grupne razgovore u ChatGPT-u
Grupni chatovi omogućavaju do 20 ljudi da u istoj ChatGPT konverzaciji surađuju u realnom vremenu, zasad samo u Japanu, Novom Zelandu, Južnoj Koreji i Tajvanu.

min čitanja

Više

Tehnologija

Windows Recall donosi računalno pamćenje ekrana korisnicima Copilot+ računala
Nova funkcija u Windowsu 11 snima zaslon u pozadini i omogućuje brzo pretraživanje prošlih aktivnosti, ali dostupna je samo na Copilot+ računalima i uključuje se ručno.

min čitanja

Više

Tehnologija

Porezna uprava gasi e-usluge zbog digitalne preobrazbe
Zbog radova na novom informacijskom sustavu od 21. do 24. studenog neće raditi većina digitalnih servisa Porezne uprave.

min čitanja

Više

Tehnologija

Svemirske krhotine oštetile Shenzhou-20, kineski astronauti vraćeni zamjenskom kapsulom
Oštećenje prozora kapsule Shenzhou-20 zbog svemirskog otpada prisililo je kinesku posadu da se na Zemlju vrati drugim brodom, otvarajući pitanje sigurnosti sve zagušenije orbite.

min čitanja

Više

Najčitanije

Biznis

Investitori upozoravaju na moguće kolaps turizma zbog novog prostornog zakona
Više od 30 domaćih i stranih ulagača tvrdi da bi restriktivno ograničenje etažiranja u turističkim zonama moglo ugasiti investicije od 4,8 milijardi eura i potaknuti odljev kapitala s hrvatske obale.

min čitanja

Više

Vijesti

U Solinskoj ulici poginuo policajac Željko Perišić: promet zatvoren nakon slijetanja motocikla
Prometni policajac Željko Perišić poginuo je u slijetanju motocikla u Solinskoj ulici; cesta je zatvorena, a očevid je u tijeku.

min čitanja

Više

Vijesti

Hrvatski tinejdžeri prednjače u pušenju, posebice e-cigaretama
ESPAD 2024. pokazuje da hrvatski učenici prednjače u pušenju klasičnih i elektroničkih cigareta, dok alkohol i kanabis ostaju široko rasprostranjeni.

min čitanja

Više

Najnovije

Tehnologija

Tehnički fakultet u Rijeci slavi 65 godina i gradi najsuvremeniji centar za robotiku

Vijesti

Sudar na nadvožnjaku u Smokoviku usporio promet prema Lovrincu

Politika

Mailovi otkrili prisno dopisivanje Larryja Summersa s Jeffreyjem Epsteinom

Lifestyle

Sijamske mačke i dalje osvajaju svijet: od tajlandskih rukopisa do modernih domova

Biznis

Đuro Đaković ključan u modernizaciji vojske: 420 Tatra kamiona i novi projekti na vidiku

Vijesti

Županja otvara izravnu liniju s građanima: tridesetak prijava već u prvom mjesecu

Politika

Australija i Turska blokiraju odluku o domaćinu Cop-a 31, Njemačka nevoljko čeka u pričuvi

Politika

Šuta pred mogućim novim izborima: ultimatum o hotelu „Zagreb” i plaćama Prometa potresa splitsku vlast

Vijesti

Vinkovci okupili europske stručnjake: Forest4EU i ResAlliance traže nove modele otpornog šumarstva

Vijesti

Spor upis zgrada u registar prijeti kaznama pred kraj godine