Što se činilo jednostavnim zadatkom – model koji s fotografije laptopa bilježi puknuti zaslon, izbijene tipke ili slomljene šarke – pretvorilo se u višemjesečni eksperiment s halucinacijama modela, lažnim alarmima i slikama na kojima uopće nema laptopa.
Prva verzija koristila je klasičan „monolitni” pristup: velika naredba (prompt) poslana multimodalnom LLM-u trebala je odjednom opisati sve vidljive kvarove. U praksi su se pokazala tri problema: model je izmišljao nepostojeća oštećenja, nije znao odbaciti fotografije koje nisu prikazivale laptop i davao je nestabilne rezultate.
Miješanje visokih i niskih rezolucija donekle je smanjilo osjetljivost na kvalitetu slike, ali halucinacije su ostale. Potom je tim posegnuo za kombinacijom generiranja opisa slike i tekstualnog LLM-a: više mogućih opisa provjeravalo se modelom SigLIP pa se birali najbolji. Ideja je zvučala elegantno, no halucinacije su se samo preslikale u opise, dok su neka oštećenja potpuno izostala.
Preokret je došao kada su klasični agentni okviri – inače namijenjeni automatizaciji poslovnih tokova – preusmjerili na sam problem računalnog vida. Sustav je podijeljen na male, specijalizirane agente:
• orkestrator određuje koji su dijelovi prijenosnika vidljivi; • zasebni agenti provjeravaju zaslon, tipkovnicu, kućište ili portove; • poseban „junk” agent odbacuje fotografije bez laptopa.
Takva je modularnost drastično smanjila halucinacije i jasno pokazala zašto je nešto označeno kao kvar. Međutim, niz agenata usporio je obradu, a svatko je detektirao samo probleme za koje je programiran.
Zato je uveden hibrid: agentni sustav najprije precizno traži poznate kvarove i filtrira krive slike, nakon čega monolitni LLM još jednom pregledava fotografiju kako bi uhvatio sve što je promaknulo agentima. Dodatno fino podešavanje na prioritetnim scenarijima (primjerice čestom lomu zaslona) podiglo je ukupnu pouzdanost.
Ključne pouke projekta:
- Agentni okviri mogu poslužiti i za podizanje kvalitete modela što im nije izvorna namjena.
- Kombiniranje metoda donosi bolje rezultate od ovisnosti o jednoj tehnici.
- Vizualni modeli skloni su „viđenju” onoga čega nema; potrebno je graditi mehanizme za suzbijanje halucinacija.
- Trening na foto-materijalu raznolike rezolucije pomaže otpornosti u stvarnim uvjetima.
- Jednostavan filter za „junk” slike često ima neproporcionalno velik učinak na pouzdanost cijelog sustava.
Naizgled trivijalan zadatak tako je postao demonstracija da pravilno sastavljena kombinacija agentnog, monolitnog i fino podešenog pristupa može pretvoriti nepouzdani model u alat spreman za proizvodnju – i pritom ponuditi jasna, razumljiva objašnjenja svakog rezultata.