Istraživači iz Meta FAIR-a i Sveučilišta u Edinburghu predstavili su Circuit-based Reasoning Verification (CRV) – tehniku koja ne samo da otkriva kad veliki jezični model pogrešno rezonira, nego i omogućuje trenutnu intervenciju kojom se pogreška ispravlja.
CRV polazi od pretpostavke da modeli zadatke rješavaju putem specijaliziranih „cirkusa” – podgrafova neurona koji funkcioniraju poput skrivenih algoritama. Ako algoritam zakaže, moguće je pronaći mjesto kvara, baš kao kad se u klasičnom softveru analizira trag izvršavanja.
Kako CRV funkcionira
- Transkodiranje: istraživači zamjenjuju gusto povezane slojeve transformera tzv. transkoderima, koji prisiljavaju mrežu da međukorake predstavlja rijetkim i semantički čitljivim značajkama.
- Graf atribucije: za svaki korak rezoniranja gradi se graf kojim se prati protok informacija između tih značajki i obrađivanih tokena.
- Strukturni otisak: iz grafa se izvlače statistike koje služe kao „otisak prsta” dotičnog računalnog koraka.
- Dijagnostički klasifikator: model treniran na tim otiscima predviđa je li trenutni korak ispravan.
U trenutku izvođenja klasifikator nadzire aktivacije modela i signalizira kad rezoniranje krene po zlu – a pogrešku se potom može ručno ugušiti ili korigirati.
Empirijska potvrda
Metoda je testirana na Llama 3.1 8B Instruct modelu proširenom transkoderima, i to na sintetičkim logičkim i aritmetičkim zadacima te stvarnim zadacima iz skupa GSM8K. U svim je mjerama CRV nadmašio crne i sive kutije dosadašnjih pristupa, što potvrđuje da dubinski pogled u strukturu modela donosi pouzdaniju detekciju pogrešaka od površinske analize.
• Signali pogreške pokazali su se izrazito domensko specifičnima – klasifikator obučen za logiku loše prenosi na aritmetiku i obrnuto. • U slučaju pogrešne primjene redoslijeda računskih operacija CRV je locirao prenaglo paljenje značajke „množenje”; njezino potiskivanje dovelo je do ispravnog rješenja.
Što to znači za budućnost
Autori ističu da bi atribucijski grafovi mogli postati temelj za nove alate za „debugiranje” umjetne inteligencije. Umjesto skupog ponovnog treniranja, razvojni timovi mogli bi precizno ciljati uzrok pogreške – bilo nedostatak podataka, bilo međusobni sukob različitih zadataka – te primijeniti ciljano fino podešavanje ili čak izravnu uredničku intervenciju u modelu.
Tim planira javno objaviti podatkovne skupove i trenirane transkodere kako bi potaknuo daljnja istraživanja. Ako se CRV pokaže dovoljno robusnim za produkcijske sustave, mogao bi postati ključni korak prema pouzdanijim autonomnim agentima koji, poput ljudi, znaju korigirati vlastite misaone pogreške u hodu.