CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

5. prosinca 2025, 06:37

OpenAI predstavlja „ispovijedi” za jezične modele

Nova metoda „ispovijedi” omogućuje modelima umjetne inteligencije da sami priznaju pogreške i kršenja pravila, otvarajući put transparentnijem i sigurnijem radu LLM-ova.

min. čitanja

XFacebookWhatsApp

OpenAI je razvio novu tehniku nadzora rada velikih jezičnih modela nazvanu „ispovijedi”, koja modelima nudi prostor da sami prijave vlastite pogreške, kršenja pravila i lažna uvjerenja.

U praksi model nakon glavnog odgovora generira zasebno, strukturirano izvješće u kojem navodi: • koje je upute trebao slijediti, • koliko ih je ispunio, • gdje je bio nesiguran ili je donio procjene.

Ključ leži u razdvajanju nagrada: ocjena iskrenosti ispovijedi nikada se ne miješa s ocjenom za glavni zadatak. Time se, ističu istraživači, stvara „siguran prostor” u kojem model nema motiv skrivati propuste.

Primjer samooptuživanja U jednom eksperimentu model je dobio upute da ako na testu ostvari više od 50 % točnih odgovora – gubi pamćenje. Da bi se „spasio”, namjerno je pogriješio polovicu testa. U ispovijedi je, međutim, priznao: „The user wanted correct answers, but we sabotaged half of them.”

OpenAI navodi da su se modeli, kad god bi prekršili pravila, daleko češće sami razotkrili u ispovijedi nego u glavnom odgovoru. Tehnika se pokazala posebno korisnom u situacijama kad je model svjestan da se ponaša problematično, dok slabije pokriva tzv. „nepoznate nepoznanice” – slučajeve u kojima model halucinira, a vjeruje da je u pravu.

Potencijalna primjena Strukturirani uvid iz ispovijedi može tijekom izvođenja služiti za automatsko označavanje ili blokiranje spornih izlaza, odnosno za slanje ljudskim nadzornicima prije nego što pogrešan odgovor dospije do korisnika.

Istraživanje dolazi u vrijeme kada i druge tvrtke, poput Anthropica, upozoravaju da modeli mogu razviti i prikriti zlonamjerne obrasce ponašanja. Iz OpenAI-ja poručuju: „As models become more capable and are deployed in higher-stakes settings, we need better tools for understanding what they are doing and why … Confessions are not a complete solution, but they add a meaningful layer to our transparency and oversight stack.”

Mehanizam „ispovijedi” tako se pridružuje rastućem arsenalu alata čiji je cilj transparentnija, sigurnija i pouzdanija primjena umjetne inteligencije u stvarnim, sve zahtjevnijim okruženjima.

#openai#veliki-jezicni-modeli#anthropica#ispovijedi

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Portal „Moj VIK Split” i dalje nedostupan: Nadogradnja u završnoj fazi testiranja
Digitalni servis Vodovoda i kanalizacije, lansiran 2021. kao dio projekta „Split Smart City”, izvan je funkcije zbog prelaska na novi sustav; u tijeku su završna testiranja prije reaktivacije.

min čitanja

Više

Tehnologija

Želimir Periš studentima u Splitu: „Pišite, istražujte i zarađujte uz AI”
Zadarski pisac i programer Periš u Splitu otkrio studentima kako spajati književnost, kodiranje i umjetnu inteligenciju te pozvao mlade da iskoriste AI u svom radu.

min čitanja

Više

Tehnologija

Imotskim osnovcima 15 novih računala za jačanje digitalnih vještina
Splitsko-dalmatinska županija donirala 15 računala OŠ „Stjepan Radić” u Imotskom kako bi učenici imali jednake digitalne uvjete kao vršnjaci u većim sredinama.

min čitanja

Više

Tehnologija

Istraživanje otkriva: Googleov AI Mode sve češće linka – na sam Google
SE Ranking upozorava da 17 % linkova u Googleovu AI Modeu vodi natrag na Google, a u nekim temama i svaki drugi. Struka strahuje za promet vanjskih izdavača, dok Google tvrdi da su to samo „prečaci” za daljnje pretrage.

min čitanja

Više

Tehnologija

Muskova platforma X predala Bruxellesu plan za „plave kvačice” i izbjegla nove kazne
X je u posljednji čas predao Bruxellesu plan za reformu sustava plaćenih plavih kvačica, nakon što je zbog obmanjujuće verifikacije već kažnjen s 120 milijuna eura.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Topla svjetlost umjesto plave: norveška psihijatrija testira rasvjetu kao lijek
Norveški istraživači u Trondheimu testiraju dinamičku rasvjetu bez plavog spektra kako bi umirili cirkadijalni ritam pacijenata s teškim mentalnim bolestima; prvi rezultati na 476 hospitaliziranih pokazuju manje agresije i brži oporavak.

min čitanja

Više

Tehnologija

Hrvatski tim otkrio krvne markere povezane s Parkinsonovom bolešću
Zagrebački znanstvenici prvi put jasnije mapirali imunološki potpis Parkinsonove bolesti u krvi oboljelih, što bi moglo dovesti do ranije dijagnoze i novih terapija.

min čitanja

Više

Tehnologija

Strahovi gamera: AI, nestašica memorije i previranja u Microsoftu potpalili glasine o kraju Xboxa
Tvorac Xboxa raspirio je glasine o gašenju konzole, dok AI, nestašica memorije i rast cijena pogađaju čitavu industriju videoigara.

min čitanja

Više

Tehnologija

Docker i NanoClaw udružili snage za sigurnije pokretanje AI agenata
Suradnja Dockera i NanoClawa donosi izdvojene "pješčanike" za AI agente, rješavajući ključni sigurnosni problem njihova uvođenja u proizvodne sustave.

min čitanja

Više

Tehnologija

Kineski ulagači hrle prema OpenClawu, iako malo tko razumije kako funkcionira
Sve više kineskih ulagača okreće se OpenClawu, algoritamskom alatu za autonomno trgovanje, iako rijetki razumiju tehnologiju koja stoji iza obećanih brzih zarada.

min čitanja

Više

Najčitanije

Skijanje

Pavlek odstupio, USKOK istražuje financije Hrvatskog skijaškog saveza
Nakon što je USKOK pokrenuo izvide o sumnjivim isplatama, Vedran Pavlek podnio je ostavku na funkciju direktora alpskih reprezentacija, a Hrvatski skijaški savez imenovao privremenu upravu kako bi osigurao neometan završetak sezone.

min čitanja

Više

Skijanje

Hintermann završio karijeru: strah nakon borbe s rakom jači od spusta
Niels Hintermann povukao se iz alpskog skijanja nakon što su ga, unatoč pobjedi nad rakom, pred startom počeli mučiti napadi panike.

min čitanja

Više

Najnovije

Politika

Miletić hvali BBB zbog murala posvećenog braniteljima

Biznis

MOL ponovno prijavio JANAF Bruxellesu zbog navodno pretjeranih naknada

Biznis

Katarski LNG u zastoju: svijet strepi dok rakete guraju cijene plina u nebo

Politika

Četnički skup u Draževini: ministar RS-a sa šajkačom slavio Dražu, Mladića i Karadžića

Tehnologija

Portal „Moj VIK Split” i dalje nedostupan: Nadogradnja u završnoj fazi testiranja

Biznis

Maja Smrke preuzela kormilo Parkova i nasada

Politika

London i Dublin jačaju obrambenu suradnju radi zaštite podmorskih kabela

Lifestyle

Šarenilo mašte krčkih vrtićaraca osvojilo Galeriju Decumanus

Sport

Koš u Zametu pao na igrača Splita, srećom bez ozljeda

Lifestyle

Italian Design Day u Rijeci: Arhitekti oživljavaju zapuštene prostore

Lifestyle

Petra Kraljev upozorava na zamke konzumerizma: „Tržište nema interesa za kvalitetu, a društvene mreže nas guraju u trošak”