CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

30. listopada 2025, 06:20

OpenAI nudi nove modele „safeguard”: fleksibilnije i transparentnije čuvanje AI sigurnosti

OpenAI je pustio u opticaj dva otvoreno-težinska LLM-a koja sigurnosne politike primjenjuju u stvarnom vremenu, a stručnjaci raspravljaju hoće li to standardizirati ili suziti poimanje AI sigurnosti.

min. čitanja

XFacebookWhatsApp

OpenAI je objavio dva otvorena LLM-a – gpt-oss-safeguard-120b i gpt-oss-safeguard-20b – namijenjena tvrtkama koje žele vlastitim pravilima kontrolirati što njihov sustav umjetne inteligencije smije, a što ne smije odgovoriti. Oba modela dostupna su pod permisivnom licencom Apache 2.0 i predstavljaju prvu nadogradnju obitelji gpt-oss od kolovoza.

Za razliku od klasičnih sigurnosnih klasifikatora, koji se treniraju na velikim količinama označenih primjera, „safeguard” u trenutku izvođenja prima dva ulaza – sadržaj korisničkog upita te sigurnosnu politiku koju je definirala sama tvrtka – i potom rezonira o eventualnom kršenju pravila. OpenAI u blog-zapisu naglašava da model koristi chain-of-thought pa „razvojnim timovima pruža objašnjenja svojih odluka i time olakšava revizije”. Budući da se politika ne ugrađuje tijekom treniranja, nego se prosljeđuje pri svakom pozivu, pravila se mogu mijenjati bez ponovnog treniranja modela.

Tvrtkama to, prema OpenAI-ju, donosi prednosti kada: • prijetnje brzo evoluiraju i politika se mora često prilagođavati; • područje je vrlo nijansirano i manji klasifikatori griješe; • nema dovoljno podataka za treniranje vlastitog klasifikatora; • kvaliteta i objašnjivost važniji su od vrlo niske latencije.

U internim testovima modeli su premašili dosadašnje gpt-oss inačice na višepolitičkim mjerilima točnosti, a solidno su prošli i na javnom skupu ToxicChat. Ipak, OpenAI priznaje da su njegov interni Safety Reasoner i eksperimentalni „GPT-5-thinking” na istom testu bili još malo bolji.

Novi pristup, međutim, otvara širu raspravu. „Sigurnost nije jednoznačno definiran pojam. Standard će uvijek odražavati vrijednosti i ograničenja organizacije koja ga stvara”, upozorava John Thickstun, izvanredni profesor računarstva na Sveučilištu Cornell, dodajući da bi masovno prihvaćanje OpenAI-jevih pravila moglo "institucionalizirati jedan pogled na sigurnost".

Dio zajednice zamjera i to što baza gpt-oss nije objavljena pa se ne može u potpunosti dorađivati. OpenAI pak računa na doprinos developera: 8. prosinca u San Franciscu organizira hackathon posvećen upravo „safeguard” modelima.

#openai#san-francisco#sveuciliste-cornell#john-thickstun#toxicchat
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

OpenAI lansirao GPT-5.4-Cyber nakon upozorenja konkurenta
Nakon što je Anthropic odlučio zadržati svoj novi AI model pod ključem zbog straha od zlouporabe, OpenAI predstavlja GPT-5.4-Cyber, alat namijenjen kibernetičkim stručnjacima.

min čitanja

Više

Tehnologija

Anthropic i OpenAI u klinču zbog kontroverznog prijedloga zakona o odgovornosti AI-a u Illinoisu
Tvrtke su se razišle oko SB 3444, koji bi laboratorije oslobodio odgovornosti za masovne štete izazvane umjetnom inteligencijom.

min čitanja

Više

Tehnologija

Građani u obrani Jadrana: u Splitu predstavljene aplikacije koje svakome otvaraju vrata znanosti
Citizen Science Day u Splitu okupio je pedesetak sudionika i predstavio niz aplikacija koje građanima omogućuju aktivno sudjelovanje u praćenju i zaštiti Jadrana.

min čitanja

Više

Tehnologija

Poljičica prelazi u digitalno doba
U Srinjinama se 17. travnja predstavlja digitalni font Poljičice, staroga pisma proglašenog nematerijalnim kulturnim dobrom 2023. godine.

min čitanja

Više

Tehnologija

Iva Tolić: Stanice nas uče da je obnova srž života
Hrvatska znanstvenica Iva Tolić objašnjava kako neprekidna obnova na staničnoj razini može biti nadahnuće za suočavanje s globalnim krizama.

min čitanja

Više

Tehnologija

Prvi riječki bankomat zaškripio zbog prašine, ali najavio novu eru plaćanja
Podsjetnik na 1986.: riječki bankomat pokvarila je obična prašina, ali je unatoč tome označio početak digitalnog upravljanja novcem.

min čitanja

Više

Tehnologija

NASA-ino superračunalo: sav život na Zemlji nestaje za milijardu godina
Superračunalo NASA-e, analizirajući 400 000 scenarija, prognozira da će širenje Sunca uništiti sav život na Zemlji za otprilike milijardu godina.

min čitanja

Više

Tehnologija

Projektni dan u Splitu otkrio snagu mladih inovatora
Učenici Splitsko-dalmatinske županije na Projektnom danu Centra izvrsnosti predstavili su inovativne projekte, a najavljene su i nove prijave te velike investicije u školsku infrastrukturu.

min čitanja

Više

Tehnologija

Rijeka 28. travnja postaje središte razgovora o kibernetičkoj sigurnosti
Interaktivna izložba na Korzu i praktična radionica u Proizvodnom parku Torpedo približit će suvremene prijetnje i rješenja kibernetičke zaštite građanima i malim poduzetnicima.

min čitanja

Više

Tehnologija

Infobip slavi 20 godina i najavljuje eru osobnih AI agenata
Tvrtka iz Vodnjana obilježila je 20. rođendan predstavljanjem platforme AgentOS i smjelim prognozama o dominaciji osobnih AI agenata u korisničkoj komunikaciji do 2030.

min čitanja

Više

Najčitanije

Vijesti

Veliki požar progutao skladište HŽ-a u Osijeku
Skladište Hrvatskih željeznica u Donjem gradu planulo je usred dana; vatrogasci su plamen gasili satima, a uzrok se još istražuje.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Vijesti

Spaljivanje otpada izmaklo nadzoru: 47-godišnjak izazvao šumski požar u Dubravicama

Biznis

Željko Mihelić preuzeo čelo HPK-a uz upozorenje na loše brojke hrvatske poljoprivrede

Lifestyle

Opatijska knjižnica u travnju slavi knjigu: dječji tjedan, noć čitanja i šetnja Gervaisovim stihovima

Biznis

Blokada Hormuza prijeti globalnom lancu hrane: gnojiva nema, urod pada

Vijesti

Crikvenica pokreće obnovu Parka palih za domovinu vrijednu više od milijun eura

Lifestyle

Riječka Filodrammatica besplatno prikazuje dokumentarac o Luli

Vijesti

Istarska županija financira „Karijerni kompas” za srednjoškolce

Lifestyle

Rijeka sutra predstavlja dvojezičnu „Ispredenu priču“ Melite Adany

Biznis

Roko Vuletić preuzeo kormilo riječkog „3. maja”, slijedi rezanje troškova i novi vizualni identitet

Politika

Iran tajno koristio kineski satelit za nadzor američkih baza

Vijesti

Riječki maturanti srušili rekord: gotovo 140 doza krvi u dvodnevnoj MatuRijadi