Tehnologija

30. listopada 2025, 06:20

OpenAI nudi nove modele „safeguard”: fleksibilnije i transparentnije čuvanje AI sigurnosti

OpenAI je pustio u opticaj dva otvoreno-težinska LLM-a koja sigurnosne politike primjenjuju u stvarnom vremenu, a stručnjaci raspravljaju hoće li to standardizirati ili suziti poimanje AI sigurnosti.

min. čitanja

OpenAI je objavio dva otvorena LLM-a – gpt-oss-safeguard-120b i gpt-oss-safeguard-20b – namijenjena tvrtkama koje žele vlastitim pravilima kontrolirati što njihov sustav umjetne inteligencije smije, a što ne smije odgovoriti. Oba modela dostupna su pod permisivnom licencom Apache 2.0 i predstavljaju prvu nadogradnju obitelji gpt-oss od kolovoza.

Za razliku od klasičnih sigurnosnih klasifikatora, koji se treniraju na velikim količinama označenih primjera, „safeguard” u trenutku izvođenja prima dva ulaza – sadržaj korisničkog upita te sigurnosnu politiku koju je definirala sama tvrtka – i potom rezonira o eventualnom kršenju pravila. OpenAI u blog-zapisu naglašava da model koristi chain-of-thought pa „razvojnim timovima pruža objašnjenja svojih odluka i time olakšava revizije”. Budući da se politika ne ugrađuje tijekom treniranja, nego se prosljeđuje pri svakom pozivu, pravila se mogu mijenjati bez ponovnog treniranja modela.

Tvrtkama to, prema OpenAI-ju, donosi prednosti kada: • prijetnje brzo evoluiraju i politika se mora često prilagođavati; • područje je vrlo nijansirano i manji klasifikatori griješe; • nema dovoljno podataka za treniranje vlastitog klasifikatora; • kvaliteta i objašnjivost važniji su od vrlo niske latencije.

U internim testovima modeli su premašili dosadašnje gpt-oss inačice na višepolitičkim mjerilima točnosti, a solidno su prošli i na javnom skupu ToxicChat. Ipak, OpenAI priznaje da su njegov interni Safety Reasoner i eksperimentalni „GPT-5-thinking” na istom testu bili još malo bolji.

Novi pristup, međutim, otvara širu raspravu. „Sigurnost nije jednoznačno definiran pojam. Standard će uvijek odražavati vrijednosti i ograničenja organizacije koja ga stvara”, upozorava John Thickstun, izvanredni profesor računarstva na Sveučilištu Cornell, dodajući da bi masovno prihvaćanje OpenAI-jevih pravila moglo "institucionalizirati jedan pogled na sigurnost".

Dio zajednice zamjera i to što baza gpt-oss nije objavljena pa se ne može u potpunosti dorađivati. OpenAI pak računa na doprinos developera: 8. prosinca u San Franciscu organizira hackathon posvećen upravo „safeguard” modelima.

#openai #san-francisco #sveuciliste-cornell #john-thickstun #toxicchat

Slično

Tehnologija

ZET privremeno zatvorio informatički sustav zbog sumnje na kibernetički napad

ZET je zbog sumnje na kibernetički napad isključio informacijski sustav; javni prijevoz vozi normalno, ali digitalna prodaja karata je privremeno obustavljena.

min čitanja

Više

Tehnologija

Google i Microsoft slavili pomak GHGP-a, Amazon i Meta tvrde da su izgurani

GHGP je otvorio savjetovanje o novim pravilima za praćenje emisija struje, dajući vjetar u leđa satnom modelu koji guraju Google i Microsoft, dok Amazon, Meta i Salesforce prozivaju proces zbog pristranosti.

min čitanja

Više

Tehnologija

Prvi hrvatski internetski dnevnik prošao četiri velike transformacije

Istarski dnevnik, prvi hrvatski tiskani medij na internetu, prošao je četiri ključne digitalne nadogradnje od 1997. do danas.

min čitanja

Više

Tehnologija

Kina u petak šalje najmlađeg astronauta i četiri miša na postaju Tiangong

Misija Shenzhou-21 kreće u petak navečer; 32-godišnji Wu Fei bit će najmlađi Kinez u svemiru, a na Tiangong stižu i prvi kineski orbitalni pokusi na miševima.

min čitanja

Više

Tehnologija

Split otvara besplatnu akademiju za e-Građane

Grad i Tehnološki park Split pokreću besplatan program koji građane uči korištenju sustava e-Građani.

min čitanja

Više

Tehnologija

Seat dotjeruje Ibizu i Aronu: diskretni facelift za 2025.

Blagi redizajn donosi sitne estetske dorade, poboljšanu opremu i iste motore uoči dolaska osvježenih modela 2025.

min čitanja

Više

Tehnologija

Opatija predstavila nadograđeni GIS i 3D registar imovine

Nadograđeni Geografski informacijski sustav omogućuje 3D registar imovine, LiDAR podatke i prikaz nadzornih kamera, a uskoro stiže i karta solarnog potencijala.

min čitanja

Više

Tehnologija

Nvidia predstavila NVFP4: četverobitno treniranje velikih jezičnih modela bez gubitka preciznosti

Nvidijin NVFP4 demonstrirao je da se veliki jezični modeli mogu trenirati u 4 bita bez pada točnosti, što bi moglo prepoloviti troškove memorije i ubrzati razvoj prilagođenih AI sustava.

min čitanja

Više

Tehnologija

Nova Honda Prelude e:HEV donosi 184 KS i tehnologiju iz Civica Type R

Hibridni coupe vraća kultno ime, kombinira 184 KS, adaptivni ovjes i napredni Honda SENSING.

min čitanja

Više

Tehnologija

Extropicov p-bit čip izaziva status quo podatkovnih centara

Start-up iz Kalifornije razvio je čip s vjerojatnosnim bitovima i najavljuje tisućerostruku uštedu energije za umjetnu inteligenciju.

min čitanja

Više

Najčitanije

Politika

KoHOM: Fuchsovo ograničenje ispričnica vraća lošu praksu i puni čekaonice

Obiteljski liječnici odbacuju najave ministra Fuchsa o ograničavanju roditeljskog opravdavanja izostanaka, upozoravajući na dodatno administrativno opterećenje i veći rizik zaraza u čekaonicama.

min čitanja

Više

Politika

Zbog jednog glasa pada ključni zakon: oporba proziva HDZ za „pokušaj prevare”, vladajući uvjereni u većinu

ZKP nije prošao jer je vladajućima nedostajao jedan glas. Oporba govori o kršenju Ustava, dok HDZ-ovi partneri tvrde da većina nije ugrožena.

min čitanja

Više

Politika

Trump naredio hitan nastavak nuklearnih pokusa

Američki predsjednik nalaže Pentagonu hitan povratak podzemnim nuklearnim detonacijama, navodeći konkurenciju Rusije i Kine kao glavni motiv.

min čitanja

Više

Tehnologija

30. listopada 2025, 06:20

OpenAI nudi nove modele „safeguard”: fleksibilnije i transparentnije čuvanje AI sigurnosti

min. čitanja

#openai #san-francisco #sveuciliste-cornell #john-thickstun #toxicchat

Slično

Tehnologija

ZET privremeno zatvorio informatički sustav zbog sumnje na kibernetički napad

ZET je zbog sumnje na kibernetički napad isključio informacijski sustav; javni prijevoz vozi normalno, ali digitalna prodaja karata je privremeno obustavljena.

min čitanja

Više

Tehnologija

Google i Microsoft slavili pomak GHGP-a, Amazon i Meta tvrde da su izgurani

min čitanja

Više

Tehnologija

Prvi hrvatski internetski dnevnik prošao četiri velike transformacije

Istarski dnevnik, prvi hrvatski tiskani medij na internetu, prošao je četiri ključne digitalne nadogradnje od 1997. do danas.

min čitanja

Više

Tehnologija

Kina u petak šalje najmlađeg astronauta i četiri miša na postaju Tiangong

Misija Shenzhou-21 kreće u petak navečer; 32-godišnji Wu Fei bit će najmlađi Kinez u svemiru, a na Tiangong stižu i prvi kineski orbitalni pokusi na miševima.

min čitanja

Više

Tehnologija

Split otvara besplatnu akademiju za e-Građane

Grad i Tehnološki park Split pokreću besplatan program koji građane uči korištenju sustava e-Građani.

min čitanja

Više

Tehnologija

Seat dotjeruje Ibizu i Aronu: diskretni facelift za 2025.

Blagi redizajn donosi sitne estetske dorade, poboljšanu opremu i iste motore uoči dolaska osvježenih modela 2025.

min čitanja

Više

Tehnologija

Opatija predstavila nadograđeni GIS i 3D registar imovine

Nadograđeni Geografski informacijski sustav omogućuje 3D registar imovine, LiDAR podatke i prikaz nadzornih kamera, a uskoro stiže i karta solarnog potencijala.

min čitanja

Više

Tehnologija

Nvidia predstavila NVFP4: četverobitno treniranje velikih jezičnih modela bez gubitka preciznosti

Nvidijin NVFP4 demonstrirao je da se veliki jezični modeli mogu trenirati u 4 bita bez pada točnosti, što bi moglo prepoloviti troškove memorije i ubrzati razvoj prilagođenih AI sustava.

min čitanja

Više

Tehnologija

Nova Honda Prelude e:HEV donosi 184 KS i tehnologiju iz Civica Type R

Hibridni coupe vraća kultno ime, kombinira 184 KS, adaptivni ovjes i napredni Honda SENSING.

min čitanja

Više

Tehnologija

Extropicov p-bit čip izaziva status quo podatkovnih centara

Start-up iz Kalifornije razvio je čip s vjerojatnosnim bitovima i najavljuje tisućerostruku uštedu energije za umjetnu inteligenciju.

min čitanja

Više

Najčitanije

Politika

KoHOM: Fuchsovo ograničenje ispričnica vraća lošu praksu i puni čekaonice

min čitanja

Više

Politika

Zbog jednog glasa pada ključni zakon: oporba proziva HDZ za „pokušaj prevare”, vladajući uvjereni u većinu

ZKP nije prošao jer je vladajućima nedostajao jedan glas. Oporba govori o kršenju Ustava, dok HDZ-ovi partneri tvrde da većina nije ugrožena.

min čitanja

Više

Politika

Trump naredio hitan nastavak nuklearnih pokusa

Američki predsjednik nalaže Pentagonu hitan povratak podzemnim nuklearnim detonacijama, navodeći konkurenciju Rusije i Kine kao glavni motiv.

min čitanja

Više