Utrka za primjenom generativne umjetne inteligencije u poslovnim okruženjima donijela je brzu popularizaciju sustava RAG (retrieval-augmented generation) – modela koji na upite korisnika odgovaraju na temelju vlastitih baza dokumenata. No, u sektorima oslonjenima na složenu tehničku dokumentaciju, prva euforija često se pretvara u razočaranje: inženjeri traže konkretne vrijednosti iz priručnika, a chatbot odgovara pogrešno ili slegne ramenima.
Ključni problem nije u samom velikom jezičnom modelu, nego u načinu na koji se podaci pripremaju. Uobičajeni postupak „rezanja” PDF-ova na fiksnih 500 znakova pogodan je za prozu, ali razbija tablice, dijagrame i hijerarhiju naslova koji nose presudne informacije o strojevima, naponima ili sigurnosnim ograničenjima.
-
Od fiksnih do semantičkih isječaka • Umjesto rezanja po broju znakova, alati za analizu izgleda stranice razdvajaju dokument prema stvarnim logičkim cjelinama – poglavljima, podnaslovima, pa čak i cijelim tablicama. Tako u vektorsku bazu ulazi cjelovit odlomak o jednom sklopu, zajedno s pripadajućim vrijednostima. • Interna testiranja pokazuju da je takav pristup bitno povećao točnost pronalaženja tabličnih podataka, jer više nema „odsječenih” zaglavlja bez pripadnih brojki.
-
Rješavanje „slijepe točke” za slike Velik dio intelektualnog vlasništva tvrtki nalazi se u shemama, tehničkim crtežima i tijekovima procesa. Klasični tekstualni uvezi ih ignoriraju. Zato se prije pohrane uvodi multimodalni korak: • OCR prepoznaje tekst unutar slike; • Vizualni model opisuje dijagram prirodnim jezikom („tijek procesa u kojem A prelazi u B pri temperaturi iznad 50 °C”); • Ti se opisi pohranjuju kao metapodaci povezani s izvornom slikom, pa sustav na upit „temperaturni tijek” pronalazi i PNG iz kojeg je opis nastao.
-
Sloj povjerenja u sučelju U ozbiljnim okruženjima nije dovoljno ponuditi odgovor; potrebno je i dokazati njegovo podrijetlo. Budući da je veza između teksta i izvornog objekta sačuvana, korisniku se uz odgovor prikazuje upravo ona tablica ili graf koji su poslužili kao dokaz. Time RAG izlazi iz sfere „vjeruj mi na riječ” i postaje alat čije se zaključke može trenutačno provjeriti.
-
Što dolazi Dok se čekaju jeftiniji LLM-ovi s kontekstom od milijun tokena i nativni multimodalni uvezi koji spajaju tekst i slike bez opisivanja, semantičko parceliranje i „tekstualizacija” vizualnog sadržaja ostaju najisplativiji put za pouzdane, real-time sustave.
Zaključak Bez poštivanja stvarne strukture tehničkih dokumenata, RAG ostaje tek napredna ključna riječ pretraga. Kada se podaci najprije očiste i organiziraju prema njihovu izvornom smislu, AI se iz hvala-lijepoga gadgeta pretvara u pravog „pomoćnika znanja” sposobnog odgovoriti na pitanja od kojih ovisi sigurnost i produktivnost industrije.