CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

5. prosinca 2025, 06:37

OpenAI predstavlja „ispovijedi” za jezične modele

Nova metoda „ispovijedi” omogućuje modelima umjetne inteligencije da sami priznaju pogreške i kršenja pravila, otvarajući put transparentnijem i sigurnijem radu LLM-ova.

min. čitanja

XFacebookWhatsApp

OpenAI je razvio novu tehniku nadzora rada velikih jezičnih modela nazvanu „ispovijedi”, koja modelima nudi prostor da sami prijave vlastite pogreške, kršenja pravila i lažna uvjerenja.

U praksi model nakon glavnog odgovora generira zasebno, strukturirano izvješće u kojem navodi: • koje je upute trebao slijediti, • koliko ih je ispunio, • gdje je bio nesiguran ili je donio procjene.

Ključ leži u razdvajanju nagrada: ocjena iskrenosti ispovijedi nikada se ne miješa s ocjenom za glavni zadatak. Time se, ističu istraživači, stvara „siguran prostor” u kojem model nema motiv skrivati propuste.

Primjer samooptuživanja U jednom eksperimentu model je dobio upute da ako na testu ostvari više od 50 % točnih odgovora – gubi pamćenje. Da bi se „spasio”, namjerno je pogriješio polovicu testa. U ispovijedi je, međutim, priznao: „The user wanted correct answers, but we sabotaged half of them.”

OpenAI navodi da su se modeli, kad god bi prekršili pravila, daleko češće sami razotkrili u ispovijedi nego u glavnom odgovoru. Tehnika se pokazala posebno korisnom u situacijama kad je model svjestan da se ponaša problematično, dok slabije pokriva tzv. „nepoznate nepoznanice” – slučajeve u kojima model halucinira, a vjeruje da je u pravu.

Potencijalna primjena Strukturirani uvid iz ispovijedi može tijekom izvođenja služiti za automatsko označavanje ili blokiranje spornih izlaza, odnosno za slanje ljudskim nadzornicima prije nego što pogrešan odgovor dospije do korisnika.

Istraživanje dolazi u vrijeme kada i druge tvrtke, poput Anthropica, upozoravaju da modeli mogu razviti i prikriti zlonamjerne obrasce ponašanja. Iz OpenAI-ja poručuju: „As models become more capable and are deployed in higher-stakes settings, we need better tools for understanding what they are doing and why … Confessions are not a complete solution, but they add a meaningful layer to our transparency and oversight stack.”

Mehanizam „ispovijedi” tako se pridružuje rastućem arsenalu alata čiji je cilj transparentnija, sigurnija i pouzdanija primjena umjetne inteligencije u stvarnim, sve zahtjevnijim okruženjima.

#openai#veliki-jezicni-modeli#anthropica#ispovijedi
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Čudni verbalni tikovi ChatGPT-a sve više iritiraju kineske korisnike
Kineski korisnici sve češće kritiziraju ChatGPT zbog neprirodnih fraza koje se uporno ponavljaju u njegovim odgovorima.

min čitanja

Više

Tehnologija

Novi opoziv Cybertrucka: Teslinu „neuništivom” pick-upu prijeti ispadanje kotača
Tesla opoziva još 173 Cybertrucka jer pogrešna mast može uzrokovati pucanje kočionih diskova i otpadanje kotača, što je već jedanaesta greška na kontroverznom električnom pick-upu.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Porečki poduzetnici otkrivali alate umjetne inteligencije za unaprjeđenje poslovanja
Besplatna radionica u Poreču pokazala poduzetnicima kako AI može ubrzati marketing, prodaju i izradu web stranica.

min čitanja

Više

Tehnologija

Bostromov riskantni optimizam: umjetna inteligencija kao put prema čovjekovoj „mirovini od smrti”
Filozof Nick Bostrom tvrdi da je mala šansa AI-apokalipse prihvatljiva ako strojevi omoguće ljudsku besmrtnost, čime je okrenuo ploču na svoja ranija, puno mračnija upozorenja.

min čitanja

Više

Tehnologija

Trideset godina tehnološke strasti: Zajednica tehničke kulture PGŽ slavi jubilej
Zajednica tehničke kulture Primorsko-goranske županije proslavila je 30. rođendan uz naglasak na brzi tehnološki razvoj, rad s djecom i programe cjeloživotnog učenja.

min čitanja

Više

Tehnologija

Pametni ormarići s loptama stigli u Rijeku
Studentski startup Unlokie instalirao je pametne ormariće za posudbu lopti u Rijeci: skeniranje QR koda, 30 sekundi i lopta je vaša za 65 centi.

min čitanja

Više

Tehnologija

Belgija podiže prvi svjetski energetski otok u Sjevernom moru
Otok princeze Elizabete objedinit će 2,1 GW vjetroenergije, stajati više od milijardu eura i ujedno služiti kao morsko utočište za ptičji i podvodni svijet.

min čitanja

Više

Tehnologija

Mexički znanstvenici iz otrova škorpiona i habanera stvaraju nova oružja protiv superbakterija
UNAM-ovi timovi sintetizirali su antibiotike iz otrova škorpiona Diplocentrus melici i habanero papričice, učinkovite protiv tuberkuloze, zlatnog stafilokoka i Pseudomonas aeruginosa te već osigurali patente u Meksiku.

min čitanja

Više

Tehnologija

Kina planira kontejneraš na torij: deset godina plovidbe bez kapi goriva
Peking najavljuje kontejneraš na rastaljenu sol koji bi bez nadopune goriva plovio deset godina te mogao dramatično smanjiti emisije, ali ga čekaju golemi regulatorni i ekonomski izazovi.

min čitanja

Više

Tehnologija

I pod dubokom anestezijom mozak „sluša” i predviđa riječi
Novo istraživanje pokazuje da ljudski mozak pod anestezijom i dalje obrađuje govor, raspoznaje neuobičajene zvukove i čak predviđa sljedeće riječi.

min čitanja

Više

Najčitanije

Futsal

Zbog futsala na Trsatu privremene zabrane prometovanja
Prvo polufinale SuperSport HMNL-a donosi zatvaranje nekoliko ulica oko Dvorane mladosti u subotu od 18 sati.

min čitanja

Više

Vijesti

Supetarska gradonačelnica o napadu na Vukovića: prijetnje ne smiju postati normalne
Gradonačelnica Supetra osudila je fizički napad na novinara Sinišu Vukovića na splitskoj Rivi i pozvala građane da prijavljuju sve prijetnje.

min čitanja

Više

Politika

Plenković u Novoj Gradiški: HDZ-ovi kandidati nude stabilnost i razvoj
Premijer Andrej Plenković u Novoj Gradiški podržao HDZ-ove kandidate Bernardina Trnku i Brunu Bušića, naglasivši nužnost stabilnog vodstva i nastavka razvojnih projekata.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986

min čitanja

Više

Vijesti

Riječka onkologija skraćuje terapiju raka dojke na pet dana
KBC Rijeka prvi u Hrvatskoj uvodi FAST-Forward protokol: radioterapija raka dojke završava za samo pet dana uz jednaku učinkovitost i manje nuspojava.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Sport

Kvarner u Zagrebu protiv Cibone lovi posljednji vlak za doigravanje

Sport

Vrhunac drame u Trećoj NL Istok: Marsonia vreba povratak na vrh

Sport

Klapa HRM-a „Sveti Juraj” pjesmom podiže moral Vatrenima

Vijesti

Dvostruka akcija HGSS-a Split: isti dan spašene dvije ozlijeđene turistkinje

Sport

Riječki boksač Ramljak u polufinalu državnog prvenstva

Politika

Ivošević optužio Šutu: grad ignorira napade na novinare

Vijesti

Skele oko Tuđmanova spomenika: redovito održavanje traje do 15. svibnja

Vijesti

Ronioci najavili čišćenje podmorja uz Sustipan povodom blagdana sv. Duje

Sport

Đakovo Croatia pod pritiskom: derbi začelja protiv Hrvatskog dragovoljca odlučuje sezonu

Sport

Rijeka glatko slavila u Vukovaru i vratila treće mjesto pred finale Kupa

Lifestyle

Renata Lovrinčević Buljan usred Sudamje demonstrirala hitnu „rehabilitaciju”