CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

5. prosinca 2025, 06:37

OpenAI predstavlja „ispovijedi” za jezične modele

Nova metoda „ispovijedi” omogućuje modelima umjetne inteligencije da sami priznaju pogreške i kršenja pravila, otvarajući put transparentnijem i sigurnijem radu LLM-ova.

min. čitanja

XFacebookWhatsApp

OpenAI je razvio novu tehniku nadzora rada velikih jezičnih modela nazvanu „ispovijedi”, koja modelima nudi prostor da sami prijave vlastite pogreške, kršenja pravila i lažna uvjerenja.

U praksi model nakon glavnog odgovora generira zasebno, strukturirano izvješće u kojem navodi: • koje je upute trebao slijediti, • koliko ih je ispunio, • gdje je bio nesiguran ili je donio procjene.

Ključ leži u razdvajanju nagrada: ocjena iskrenosti ispovijedi nikada se ne miješa s ocjenom za glavni zadatak. Time se, ističu istraživači, stvara „siguran prostor” u kojem model nema motiv skrivati propuste.

Primjer samooptuživanja U jednom eksperimentu model je dobio upute da ako na testu ostvari više od 50 % točnih odgovora – gubi pamćenje. Da bi se „spasio”, namjerno je pogriješio polovicu testa. U ispovijedi je, međutim, priznao: „The user wanted correct answers, but we sabotaged half of them.”

OpenAI navodi da su se modeli, kad god bi prekršili pravila, daleko češće sami razotkrili u ispovijedi nego u glavnom odgovoru. Tehnika se pokazala posebno korisnom u situacijama kad je model svjestan da se ponaša problematično, dok slabije pokriva tzv. „nepoznate nepoznanice” – slučajeve u kojima model halucinira, a vjeruje da je u pravu.

Potencijalna primjena Strukturirani uvid iz ispovijedi može tijekom izvođenja služiti za automatsko označavanje ili blokiranje spornih izlaza, odnosno za slanje ljudskim nadzornicima prije nego što pogrešan odgovor dospije do korisnika.

Istraživanje dolazi u vrijeme kada i druge tvrtke, poput Anthropica, upozoravaju da modeli mogu razviti i prikriti zlonamjerne obrasce ponašanja. Iz OpenAI-ja poručuju: „As models become more capable and are deployed in higher-stakes settings, we need better tools for understanding what they are doing and why … Confessions are not a complete solution, but they add a meaningful layer to our transparency and oversight stack.”

Mehanizam „ispovijedi” tako se pridružuje rastućem arsenalu alata čiji je cilj transparentnija, sigurnija i pouzdanija primjena umjetne inteligencije u stvarnim, sve zahtjevnijim okruženjima.

#openai#veliki-jezicni-modeli#anthropica#ispovijedi

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Kineski Moonshot AI predstavio Kimi K2.5: najjači otvoreni model nadmašuje vodeće rivale
Moonshot AI nadogradio je svoj otvoreni LLM u verziju Kimi K2.5, dodavši vizualno kodiranje i orkestraciju agenata, te na ključnim testovima prestigao vodeće komercijalne modele.

min čitanja

Više

Tehnologija

Francuski Mistral AI komercijalizira Vibe 2.0 i cilja prihod od milijardu eura
Mistral AI lansirao je plaćenu verziju svog asistenta za kodiranje Vibe 2.0, oslanjajući se na otvoreni pristup i najavljujući da će do 2026. prijeći prag od milijardu eura prihoda.

min čitanja

Više

Tehnologija

Sprout, humanoidni batler visok kao devetogodišnjak, stiže u hotele i restorane
Startup Fauna lansirao je Sprout, pristupačnog humanoidnog robota za uslužne djelatnosti, po cijeni od 50 000 dolara.

min čitanja

Više

Tehnologija

WhatsApp prijevara s “glasom za dijete” širi se Hrvatskom
Centar za sigurniji internet upozorava na novi val WhatsApp prijevara koje koriste emocionalni apel glasanja za dijete kako bi ukrale korisničke račune.

min čitanja

Više

Tehnologija

Umjetna inteligencija ulazi u ljekarne: HZJZ predstavio ZdrAVKA
ZdrAVKO, novi AI asistent HZJZ-a, odgovarat će na zdravstvena pitanja građana putem WhatsAppa, poticati prevenciju i oslobađati liječnike od rutinskih upita.

min čitanja

Više

Tehnologija

Američke obitelji tuže tehnološke divove zbog ovisnosti djece o društvenim mrežama
U Los Angelesu počinje prvo od niza suđenja u kojima roditelji, djeca i škole optužuju Metu, Snapchat, TikTok i YouTube da su svjesno dizajnirali ovisničke platforme koje štete mentalnom zdravlju mladih.
Anthony Quintano from Honolulu, HI, United States, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Bruxelles traži da Google otvori Gemini i podatke pretraživanja konkurenciji
Europska komisija pokrenula je dva postupka protiv Googlea kako bi prisilila tvrtku da podjednako otvori AI značajke u Androidu i podatke pretraživanja konkurenciji, pozivajući se na Zakon o digitalnim tržištima.

min čitanja

Više

Tehnologija

Digitalna transformacija Porezne uprave: e-usluge posve nedostupne od petka popodne do ponedjeljka ujutro
Zbog nadogradnje PDV sustava većina online servisa Porezne uprave bit će nedostupna od petka poslijepodne do ponedjeljka ujutro, dok će se JOPPD obrasci predani nakon prekida smatrati zakonitima.

min čitanja

Više

Tehnologija

Startup Theorem prikupio 6 milijuna dolara za matematičku provjeru softvera koji piše umjetna inteligencija
Sanfranciski startup osigurao je 6 milijuna dolara kako bi razvio alate za formalnu verifikaciju koda koji sve češće piše umjetna inteligencija.

min čitanja

Više

Tehnologija

Memcyco prikupio 37 milijuna dolara za širenje platforme koja zaustavlja preuzimanje računa
Startup iz Tel Aviva osigurao je 37 milijuna dolara u Seriji A za globalnu ekspanziju platforme koja prijevaraškim stranicama presijeca put do korisničkih računa.

min čitanja

Više

Najnovije

Politika

Karamarko se emotivno prisjetio oca: „Volio si Hrvatsku i zbog te ljubavi patio”

Politika

Sindikati odbili Vladin prijedlog povećanja plaća: „Živjet ćemo lošije nego lani”

Vijesti

Pula traži novog čelnika Turističke zajednice

Biznis

Kineski Anta postaje najveći dioničar Pume kupnjom 29 % udjela

Lifestyle

Magareće trke vraćaju duh zajedništva u Tribunju

Tehnologija

Kineski Moonshot AI predstavio Kimi K2.5: najjači otvoreni model nadmašuje vodeće rivale

Politika

Trajna legalizacija u Saboru zapela na otporu oporbe

Sport

Aston Villa vraća Douglasa Luiza i jasno poručuje: napadamo naslov

Sport

Juventus opet mami Kolo Muanija, ali Tottenham ne popušta

Lifestyle

Šibenski muzej otvara vrata za Noć muzeja: od lova na zagonetke do utrke „Zagli grad”

Biznis

Dubrovački ugostitelji traže spas u Italiji: izravna dostava preko Barija kao recept za niže cijene