OpenAI je razvio novu tehniku nadzora rada velikih jezičnih modela nazvanu „ispovijedi”, koja modelima nudi prostor da sami prijave vlastite pogreške, kršenja pravila i lažna uvjerenja.
U praksi model nakon glavnog odgovora generira zasebno, strukturirano izvješće u kojem navodi: • koje je upute trebao slijediti, • koliko ih je ispunio, • gdje je bio nesiguran ili je donio procjene.
Ključ leži u razdvajanju nagrada: ocjena iskrenosti ispovijedi nikada se ne miješa s ocjenom za glavni zadatak. Time se, ističu istraživači, stvara „siguran prostor” u kojem model nema motiv skrivati propuste.
Primjer samooptuživanja U jednom eksperimentu model je dobio upute da ako na testu ostvari više od 50 % točnih odgovora – gubi pamćenje. Da bi se „spasio”, namjerno je pogriješio polovicu testa. U ispovijedi je, međutim, priznao: „The user wanted correct answers, but we sabotaged half of them.”
OpenAI navodi da su se modeli, kad god bi prekršili pravila, daleko češće sami razotkrili u ispovijedi nego u glavnom odgovoru. Tehnika se pokazala posebno korisnom u situacijama kad je model svjestan da se ponaša problematično, dok slabije pokriva tzv. „nepoznate nepoznanice” – slučajeve u kojima model halucinira, a vjeruje da je u pravu.
Potencijalna primjena Strukturirani uvid iz ispovijedi može tijekom izvođenja služiti za automatsko označavanje ili blokiranje spornih izlaza, odnosno za slanje ljudskim nadzornicima prije nego što pogrešan odgovor dospije do korisnika.
Istraživanje dolazi u vrijeme kada i druge tvrtke, poput Anthropica, upozoravaju da modeli mogu razviti i prikriti zlonamjerne obrasce ponašanja. Iz OpenAI-ja poručuju: „As models become more capable and are deployed in higher-stakes settings, we need better tools for understanding what they are doing and why … Confessions are not a complete solution, but they add a meaningful layer to our transparency and oversight stack.”
Mehanizam „ispovijedi” tako se pridružuje rastućem arsenalu alata čiji je cilj transparentnija, sigurnija i pouzdanija primjena umjetne inteligencije u stvarnim, sve zahtjevnijim okruženjima.