CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

5. prosinca 2025, 06:37

OpenAI predstavlja „ispovijedi” za jezične modele

Nova metoda „ispovijedi” omogućuje modelima umjetne inteligencije da sami priznaju pogreške i kršenja pravila, otvarajući put transparentnijem i sigurnijem radu LLM-ova.

min. čitanja

XFacebookWhatsApp

OpenAI je razvio novu tehniku nadzora rada velikih jezičnih modela nazvanu „ispovijedi”, koja modelima nudi prostor da sami prijave vlastite pogreške, kršenja pravila i lažna uvjerenja.

U praksi model nakon glavnog odgovora generira zasebno, strukturirano izvješće u kojem navodi: • koje je upute trebao slijediti, • koliko ih je ispunio, • gdje je bio nesiguran ili je donio procjene.

Ključ leži u razdvajanju nagrada: ocjena iskrenosti ispovijedi nikada se ne miješa s ocjenom za glavni zadatak. Time se, ističu istraživači, stvara „siguran prostor” u kojem model nema motiv skrivati propuste.

Primjer samooptuživanja U jednom eksperimentu model je dobio upute da ako na testu ostvari više od 50 % točnih odgovora – gubi pamćenje. Da bi se „spasio”, namjerno je pogriješio polovicu testa. U ispovijedi je, međutim, priznao: „The user wanted correct answers, but we sabotaged half of them.”

OpenAI navodi da su se modeli, kad god bi prekršili pravila, daleko češće sami razotkrili u ispovijedi nego u glavnom odgovoru. Tehnika se pokazala posebno korisnom u situacijama kad je model svjestan da se ponaša problematično, dok slabije pokriva tzv. „nepoznate nepoznanice” – slučajeve u kojima model halucinira, a vjeruje da je u pravu.

Potencijalna primjena Strukturirani uvid iz ispovijedi može tijekom izvođenja služiti za automatsko označavanje ili blokiranje spornih izlaza, odnosno za slanje ljudskim nadzornicima prije nego što pogrešan odgovor dospije do korisnika.

Istraživanje dolazi u vrijeme kada i druge tvrtke, poput Anthropica, upozoravaju da modeli mogu razviti i prikriti zlonamjerne obrasce ponašanja. Iz OpenAI-ja poručuju: „As models become more capable and are deployed in higher-stakes settings, we need better tools for understanding what they are doing and why … Confessions are not a complete solution, but they add a meaningful layer to our transparency and oversight stack.”

Mehanizam „ispovijedi” tako se pridružuje rastućem arsenalu alata čiji je cilj transparentnija, sigurnija i pouzdanija primjena umjetne inteligencije u stvarnim, sve zahtjevnijim okruženjima.

#openai#veliki-jezicni-modeli#anthropica#ispovijedi

Slično

Tehnologija

Lisa Su odbacuje priče o AI balonu i kladi se na rast podatkovnih centara
CEO AMD-a u San Franciscu poručila da će potražnja za čipovima tek eksplodirati, najavila nastavak isporuka Kini i gigantski posao s OpenAI-jem.

min čitanja

Više

Tehnologija

Bivši Muskovi „DOGE” tehnolozi: Sahil Lavingia prešao u Poreznu upravu SAD-a
Poduzetnik i bivši član Muskova „DOGE” tima Sahil Lavingia zaposlio se u američkoj Poreznoj upravi, gdje kani digitalizirati usluge za porezne obveznike.

min čitanja

Više

Tehnologija

Jon M. Chu otkrio kako ga je Bieber naučio moći interneta
Redatelj „Crazy Rich Asians” i novog mjuzikla „Wicked: For Good” opisao je kako su ga društvene mreže, darovi iz Silicijske doline i improvizacija na setu oblikovali u filmaša.

min čitanja

Više

Tehnologija

San Francisco ugostio „The Big Interview”: vodeći inovatori raspravljali o budućnosti tehnologije
Na jednodnevnom skupu „The Big Interview” u San Franciscu vodeći lideri iz svijeta tehnologije i kreativnih industrija raspravljali su o inovacijama, umjetnoj inteligenciji i sigurnosti interneta.

min čitanja

Više

Tehnologija

Šefica Anthropica: sigurnost i etika potiču, a ne guše razvoj umjetne inteligencije
Daniela Amodei tvrdi da stroge sigurnosne norme i etički pristup zapravo pogoduju širenju AI-ja te privlače klijente i talente.

min čitanja

Više

Tehnologija

Meta odvukla dvojicu ključnih Appleovih dizajnera kako bi preuredila svoje sučelje
Nova transfuzija dizajnerske krvi u Reality Labsu pokazuje koliko Meta želi preokrenuti reputaciju lošeg korisničkog sučelja i učvrstiti dominaciju u nosivim AI uređajima.
Anthony Quintano from Honolulu, HI, United States, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Pametni telefoni i djeca: nova studija povezuje rani mobitel s depresijom, debljinom i manjkom sna
Veliko američko istraživanje otkriva da djeca koja do 12. godine dobiju pametni telefon imaju veće izglede za depresiju, pretilost i kratko spavanje.

min čitanja

Više

Tehnologija

Krenuti visoko ili ići široko: DeepSeek i ByteDance biraju suprotne AI strategije
Dva vodeća kineska AI diva slijede dijametralno suprotne razvojne putanje, otvarajući raspravu o najboljem receptu za uspjeh u tehnologiji budućnosti.

min čitanja

Više

Tehnologija

NetSuite Next donosi duboku AI revoluciju u poslovne sustave
NetSuite predstavlja Next, novu generaciju platforme koja duboko integrira umjetnu inteligenciju i autonomno izvršava ključne poslovne procese.

min čitanja

Više

Tehnologija

Aktivist protiv nadzora pokreće Phreeli, anonimni mobilni operater
Nicholas Merrill, nekadašnji tužitelj FBI-ja, lansirao je Phreeli – mobilnog operatera koji prikuplja tek poštanski broj korisnika i obećava gotovo potpunu anonimnost.

min čitanja

Više

Najčitanije

Vijesti

Dvostruko ranjavanje u Murskom Središću: napadač pucao u nevjenčanu suprugu i njezinu sestru
Dvije žene teško su ranjene u pucnjavi u romskom naselju Sitnice, a napadač, koji je pucao na nevjenčanu suprugu i njezinu sestru, još je u bijegu.

min čitanja

Više

Vijesti

Vojni dronovi narušili zabranu letenja tijekom dolaska Zelenskog u Dublin
Četiri vojna drona u ponedjeljak su probila zonu zabrane letenja nad Dublinom neposredno prije slijetanja ukrajinskog predsjednika Volodimira Zelenskog, potaknuvši sumnje na hibridni napad.
President Of Ukraine from Україна, CC0, via Wikimedia Commons

min čitanja

Više

Nogomet

By The logo is from the following website: https://www.realmadrid.com/, Fair use, https://en.wikipedia.org/w/index.php?curid=35239667By http://www.mancity.com/, Fair use, https://en.wikipedia.org/w/index.php?curid=51208953

Mbappe pred vratima Ronaldova rekorda u Realu
Francuski napadač već je na 55 golova za Real Madrid u 2025. te u preostalih pet utakmica može srušiti Ronaldov klupski rekord od 59 pogodaka iz 2013.
By Анна Нэсси - soccer.ru, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=69972366By Helfer Emilio - Own work, CC0, https://commons.wikimedia.org/w/index.php?curid=168449511By Кирилл Венедиктов - soccer.ru, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=93605886

min čitanja

Više

Najnovije

Sport

Hezonja s 22 koša srušio Efes, izraelski dvojac nastavio niz

Vijesti

Galeb udario novozelandsku novinarku usred snimanja u Aucklandu

Tehnologija

Bivši Muskovi „DOGE” tehnolozi: Sahil Lavingia prešao u Poreznu upravu SAD-a

Vijesti

Analitičar o vojnim investicijama: nakon tenkova i Rafalea Hrvatska treba raketnu korvetu

Biznis

Južnokorejski ministar trgovine kritizira stalne izmjene propisa Europske unije

Tehnologija

Jon M. Chu otkrio kako ga je Bieber naučio moći interneta

Politika

New York uvodi zabranu BDS-a pred dolazak prvog muslimanskog gradonačelnika

Politika

Pavel će 9. prosinca imenovati Babiša premijerom unatoč otvorenim aferama

Politika

Izbori u Hondurasa opet pod lupom: nagli skok glasova izazvao priče o prijevari

Vijesti

Policija u Aucklandu šest dana čekala dokaz: Fabergé privjesak pronađen u crijevima osumnjičenika

Sport

Zamet izborio finale regionalnog kupa