Kad su velike jezične mreže (LLM) početkom godine počele izlaziti iz laboratorija, uprave su slavile brzinu, a odjeli usklađenosti počeli tražiti tragove. Najkritičnije pitanje ostalo je jednostavno: možemo li vidjeti što se u sustavu doista događa?
Šest mjeseci tišine u banci
Jedna Fortune 100 banka uvela je LLM za razvrstavanje zahtjeva za kredite. Probna preciznost pokazivala je odlične rezultate, no pola godine poslije interni revizori otkrili su da je 18 % ključnih predmeta završilo u pogrešnoj ladici – bez ikakvog alarma ili zapisa. Problem nije bio ni pristranost ni loši podaci, nego potpuna slijepa zona: sustav nije bilježio što radi.
"Ako ga ne možeš promatrati, ne možeš mu vjerovati", ponavlja se među inženjerima umjetne inteligencije. Upravo zato se sve više poduzeća okreće observabilityju – sloju telemetrije koji u realnom vremenu bilježi svaki prompt, svaku odluku i svaki ishod.
Obrnuti redoslijed: prvo ciljevi, zatim modeli
Uobičajena praksa kreće od izbora modela, pa tek onda definira mjerilo uspjeha. Stručnjaci sada savjetuju obrnutu logiku:
- Postavi poslovni cilj – primjerice, skratiti obradu odštetnog zahtjeva za 60 %.
- Izgradi telemetriju upravo oko tog cilja, a ne oko „BLEU“ ili „accuracy“ postotka.
- Biraj promptove i modele koji izravno pomiču dogovorene KPI-jeve.
Globalni osiguravatelj koji je „minute po obradi“ postavio kao glavni indikator pretvorio je izolirani pilot u korporativnu strategiju, navodi se u analizi.
Tri sloja promatranja
Poput dnevnika, metrika i tragova u mikroservisima, i AI zahtijeva strukturirani nadzor:
- Ulaz (prompts i kontekst) – zapisati svaku varijablu, verziju modela, latenciju i broj tokena.
- Politike i kontrole – evidentirati rezultate sigurnosnih filtera, razloge blokade i rizike.
- Ishodi i povratna informacija – mjeriti koliko je odgovora prihvaćeno, koliko se vremena uštedjelo, koliko je slučajeva zatvoreno.
Sve je povezano jedinstvenim identifikatorom traga, pa se svaka odluka može reproducirati i revidirati.
„Zlatni signali” za svaku kritičnu rutu
Inspirirano praksama SRE-a, tvrtke uvode tri ključna praga pouzdanosti:
| Signal | Ciljani SLO | Postupak pri prekoračenju | | --- | --- | --- | | Činjenična točnost | ≥ 95 % potvrđeno izvorom | Prelazak na provjerene predloške | | Sigurnost | ≥ 99,9 % prolaz kroz filtere | Karantena i ljudska provjera | | Korisnost | ≥ 80 % prihvaćeno u prvom pokušaju | Re-trening ili povratak na stariju verziju |
Ako halucinacije prijeđu zadani budžet, sustav se automatski prebacuje na sigurniji prompt ili ljudsku intervenciju – slično preusmjeravanju prometa tijekom pada mreže.
Sprintom do temelja u šest tjedana
Prema preporuci, tvrtki trebaju samo dva brza ciklusa:
- Sprint 1 (1.–3. tjedan): registri promptova, srednji sloj za anonimizaciju, osnovno logiranje i ručni pregled.
- Sprint 2 (4.–6. tjedan): testni skupovi iz stvarnih slučajeva, policy-gateovi za točnost i sigurnost, lagana nadzorna ploča za troškove i brzinu.
Time se rješava 90 % pitanja uprave i nadzora, pokazuju primjeri iz prakse.
Ljudi ostaju u petlji
Potpuna automatizacija nije ni realna ni poželjna. Sustavi automatski šalju „sumnjive“ ili nejasne odgovore stručnjacima, a svaka ljudska ispravka postaje novi podatak za treniranje i dokaz o sukladnosti. U jednoj zdravstvenoj tvrtki taj je pristup smanjio broj lažnih pozitivnih 22 % u svega nekoliko tjedana.
Trošak pod kontrolom
Promatranje nad tokenima i latencijom pretvara cijenu modela iz nepoznanice u upravljivu varijablu. Ključ je u:
- određivanju determinističkih dijelova prompta prije generativnih,
- sažimanju i rangiranju konteksta,
- keširanju čestih upita,
- praćenju tokena po funkciji.
Od eksperimenta do infrastrukture
Tri mjeseca nakon uvođenja vidljivosti, tipično poduzeće očekuje:
- 1–2 AI asistenta u produkciji s ljudskim nadzorom za rubne slučajeve,
- automatski evaluacijski paket koji se vrti prije svake objave i noću,
- tjedni izvještaj zajednički za SRE, proizvod i rizik,
- revizijski trag koji povezuje prompt, politiku i ishod.
Rezultat: menadžeri dobivaju dokaze, regulatorima je sve reproducibilno, inženjeri brže iteriraju, a korisnici dobivaju pouzdan i objašnjiv AI. Observability, zaključuju stručnjaci, nije „dodatni sloj“, nego temelj povjerenja u doba umjetne inteligencije.