CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

30. listopada 2025, 06:20

OpenAI nudi nove modele „safeguard”: fleksibilnije i transparentnije čuvanje AI sigurnosti

OpenAI je pustio u opticaj dva otvoreno-težinska LLM-a koja sigurnosne politike primjenjuju u stvarnom vremenu, a stručnjaci raspravljaju hoće li to standardizirati ili suziti poimanje AI sigurnosti.

min. čitanja

OpenAI je objavio dva otvorena LLM-a – gpt-oss-safeguard-120b i gpt-oss-safeguard-20b – namijenjena tvrtkama koje žele vlastitim pravilima kontrolirati što njihov sustav umjetne inteligencije smije, a što ne smije odgovoriti. Oba modela dostupna su pod permisivnom licencom Apache 2.0 i predstavljaju prvu nadogradnju obitelji gpt-oss od kolovoza.

Za razliku od klasičnih sigurnosnih klasifikatora, koji se treniraju na velikim količinama označenih primjera, „safeguard” u trenutku izvođenja prima dva ulaza – sadržaj korisničkog upita te sigurnosnu politiku koju je definirala sama tvrtka – i potom rezonira o eventualnom kršenju pravila. OpenAI u blog-zapisu naglašava da model koristi chain-of-thought pa „razvojnim timovima pruža objašnjenja svojih odluka i time olakšava revizije”. Budući da se politika ne ugrađuje tijekom treniranja, nego se prosljeđuje pri svakom pozivu, pravila se mogu mijenjati bez ponovnog treniranja modela.

Tvrtkama to, prema OpenAI-ju, donosi prednosti kada: • prijetnje brzo evoluiraju i politika se mora često prilagođavati; • područje je vrlo nijansirano i manji klasifikatori griješe; • nema dovoljno podataka za treniranje vlastitog klasifikatora; • kvaliteta i objašnjivost važniji su od vrlo niske latencije.

U internim testovima modeli su premašili dosadašnje gpt-oss inačice na višepolitičkim mjerilima točnosti, a solidno su prošli i na javnom skupu ToxicChat. Ipak, OpenAI priznaje da su njegov interni Safety Reasoner i eksperimentalni „GPT-5-thinking” na istom testu bili još malo bolji.

Novi pristup, međutim, otvara širu raspravu. „Sigurnost nije jednoznačno definiran pojam. Standard će uvijek odražavati vrijednosti i ograničenja organizacije koja ga stvara”, upozorava John Thickstun, izvanredni profesor računarstva na Sveučilištu Cornell, dodajući da bi masovno prihvaćanje OpenAI-jevih pravila moglo "institucionalizirati jedan pogled na sigurnost".

Dio zajednice zamjera i to što baza gpt-oss nije objavljena pa se ne može u potpunosti dorađivati. OpenAI pak računa na doprinos developera: 8. prosinca u San Franciscu organizira hackathon posvećen upravo „safeguard” modelima.

#openai#san-francisco#sveuciliste-cornell#john-thickstun#toxicchat

Slično

Tehnologija

ZET privremeno zatvorio informatički sustav zbog sumnje na kibernetički napad
ZET je zbog sumnje na kibernetički napad isključio informacijski sustav; javni prijevoz vozi normalno, ali digitalna prodaja karata je privremeno obustavljena.

min čitanja

Više

Tehnologija

Google i Microsoft slavili pomak GHGP-a, Amazon i Meta tvrde da su izgurani
GHGP je otvorio savjetovanje o novim pravilima za praćenje emisija struje, dajući vjetar u leđa satnom modelu koji guraju Google i Microsoft, dok Amazon, Meta i Salesforce prozivaju proces zbog pristranosti.

min čitanja

Više

Tehnologija

Prvi hrvatski internetski dnevnik prošao četiri velike transformacije
Istarski dnevnik, prvi hrvatski tiskani medij na internetu, prošao je četiri ključne digitalne nadogradnje od 1997. do danas.

min čitanja

Više

Tehnologija

Kina u petak šalje najmlađeg astronauta i četiri miša na postaju Tiangong
Misija Shenzhou-21 kreće u petak navečer; 32-godišnji Wu Fei bit će najmlađi Kinez u svemiru, a na Tiangong stižu i prvi kineski orbitalni pokusi na miševima.

min čitanja

Više

Tehnologija

Split otvara besplatnu akademiju za e-Građane
Grad i Tehnološki park Split pokreću besplatan program koji građane uči korištenju sustava e-Građani.

min čitanja

Više

Tehnologija

Seat dotjeruje Ibizu i Aronu: diskretni facelift za 2025.
Blagi redizajn donosi sitne estetske dorade, poboljšanu opremu i iste motore uoči dolaska osvježenih modela 2025.

min čitanja

Više

Tehnologija

Opatija predstavila nadograđeni GIS i 3D registar imovine
Nadograđeni Geografski informacijski sustav omogućuje 3D registar imovine, LiDAR podatke i prikaz nadzornih kamera, a uskoro stiže i karta solarnog potencijala.

min čitanja

Više

Tehnologija

Nvidia predstavila NVFP4: četverobitno treniranje velikih jezičnih modela bez gubitka preciznosti
Nvidijin NVFP4 demonstrirao je da se veliki jezični modeli mogu trenirati u 4 bita bez pada točnosti, što bi moglo prepoloviti troškove memorije i ubrzati razvoj prilagođenih AI sustava.

min čitanja

Više

Tehnologija

Nova Honda Prelude e:HEV donosi 184 KS i tehnologiju iz Civica Type R
Hibridni coupe vraća kultno ime, kombinira 184 KS, adaptivni ovjes i napredni Honda SENSING.

min čitanja

Više

Tehnologija

Extropicov p-bit čip izaziva status quo podatkovnih centara
Start-up iz Kalifornije razvio je čip s vjerojatnosnim bitovima i najavljuje tisućerostruku uštedu energije za umjetnu inteligenciju.

min čitanja

Više

Najčitanije

Politika

KoHOM: Fuchsovo ograničenje ispričnica vraća lošu praksu i puni čekaonice
Obiteljski liječnici odbacuju najave ministra Fuchsa o ograničavanju roditeljskog opravdavanja izostanaka, upozoravajući na dodatno administrativno opterećenje i veći rizik zaraza u čekaonicama.

min čitanja

Više

Politika

Zbog jednog glasa pada ključni zakon: oporba proziva HDZ za „pokušaj prevare”, vladajući uvjereni u većinu
ZKP nije prošao jer je vladajućima nedostajao jedan glas. Oporba govori o kršenju Ustava, dok HDZ-ovi partneri tvrde da većina nije ugrožena.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986European People's Party, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Politika

Trump naredio hitan nastavak nuklearnih pokusa
Američki predsjednik nalaže Pentagonu hitan povratak podzemnim nuklearnim detonacijama, navodeći konkurenciju Rusije i Kine kao glavni motiv.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524By Пресс-служба Президента РФ - https://www.thetimes.com/world/europe/article/emmanuel-macron-rebrands-himself-as-anti-russia-hawk-to-german-fury-dlplhbbzs (indirectly, this is identical in framing, slightly different color, higher res), CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=155844791

min čitanja

Više

Najnovije

Vijesti

Godinu dana prijetio zbog izmišljenog duga: 41-godišnjak završio iza rešetaka

Sport

NBA potresa najveći skandal u povijesti: istraga tereti Chaunceyja Billupsa i Terryja Roziera

Vijesti

Trogirska knjižnica nabavila raritetno londonsko izdanje Fortisova „Puta po Dalmaciji”

Vijesti

Sanacija opasne dionice između Makarske i Vrgorca kreće čim istekne rok za žalbe

Lifestyle

Imotska krajina dobila prvu feratu: „Imotica” vodi 285 metara iznad tirkiza Zelenog jezera

Politika

Pula na dnu ljestvice plaća za pomoćnike u nastavi

Lifestyle

Damiano David i Dove Cameron viđeni s prstenom: glasine o zarukama talijanskog rockera i američke pjevačice

Vijesti

Preminuo Floyd Roger Myers Jr., nekadašnji dječji zvijezda „Princa s Bel-Aira”

Biznis

Blagi oporavak eurozone: rast od 0,2 % unatoč zastojima u Njemačkoj i Italiji

Lifestyle

Kineska teretana nudi rabljeni Porsche onima koji skinu 50 kg za 90 dana

Lifestyle

Lovorov list u grahu izazvao buru: restoran viralno odgovorom utišao trostruku zvjezdicu