CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

30. listopada 2025, 06:20

OpenAI nudi nove modele „safeguard”: fleksibilnije i transparentnije čuvanje AI sigurnosti

OpenAI je pustio u opticaj dva otvoreno-težinska LLM-a koja sigurnosne politike primjenjuju u stvarnom vremenu, a stručnjaci raspravljaju hoće li to standardizirati ili suziti poimanje AI sigurnosti.

min. čitanja

XFacebookWhatsApp

OpenAI je objavio dva otvorena LLM-a – gpt-oss-safeguard-120b i gpt-oss-safeguard-20b – namijenjena tvrtkama koje žele vlastitim pravilima kontrolirati što njihov sustav umjetne inteligencije smije, a što ne smije odgovoriti. Oba modela dostupna su pod permisivnom licencom Apache 2.0 i predstavljaju prvu nadogradnju obitelji gpt-oss od kolovoza.

Za razliku od klasičnih sigurnosnih klasifikatora, koji se treniraju na velikim količinama označenih primjera, „safeguard” u trenutku izvođenja prima dva ulaza – sadržaj korisničkog upita te sigurnosnu politiku koju je definirala sama tvrtka – i potom rezonira o eventualnom kršenju pravila. OpenAI u blog-zapisu naglašava da model koristi chain-of-thought pa „razvojnim timovima pruža objašnjenja svojih odluka i time olakšava revizije”. Budući da se politika ne ugrađuje tijekom treniranja, nego se prosljeđuje pri svakom pozivu, pravila se mogu mijenjati bez ponovnog treniranja modela.

Tvrtkama to, prema OpenAI-ju, donosi prednosti kada: • prijetnje brzo evoluiraju i politika se mora često prilagođavati; • područje je vrlo nijansirano i manji klasifikatori griješe; • nema dovoljno podataka za treniranje vlastitog klasifikatora; • kvaliteta i objašnjivost važniji su od vrlo niske latencije.

U internim testovima modeli su premašili dosadašnje gpt-oss inačice na višepolitičkim mjerilima točnosti, a solidno su prošli i na javnom skupu ToxicChat. Ipak, OpenAI priznaje da su njegov interni Safety Reasoner i eksperimentalni „GPT-5-thinking” na istom testu bili još malo bolji.

Novi pristup, međutim, otvara širu raspravu. „Sigurnost nije jednoznačno definiran pojam. Standard će uvijek odražavati vrijednosti i ograničenja organizacije koja ga stvara”, upozorava John Thickstun, izvanredni profesor računarstva na Sveučilištu Cornell, dodajući da bi masovno prihvaćanje OpenAI-jevih pravila moglo "institucionalizirati jedan pogled na sigurnost".

Dio zajednice zamjera i to što baza gpt-oss nije objavljena pa se ne može u potpunosti dorađivati. OpenAI pak računa na doprinos developera: 8. prosinca u San Franciscu organizira hackathon posvećen upravo „safeguard” modelima.

#openai#san-francisco#sveuciliste-cornell#john-thickstun#toxicchat

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Groq i DeepSeek najavljuju novu stepenicu u AI utrci: Nvidia pred ključnom odlukom
Brza inferencija Groqovih LPU čipova i štedljivi MoE pristup DeepSeeka nagovješćuju novi skok u umjetnoj inteligenciji, a potez Nvidije mogao bi presuditi tko će vladati idućom fazom tržišta.

min čitanja

Više

Tehnologija

Splitski start-upovi oduševili Amsterdam i pokazali europski potencijal
Sedam start-upova okupljenih oko „Digitalne Dalmacije” impresioniralo je investitore u Amsterdamu i otvorilo vrata širenju na europsko tržište.

min čitanja

Više

Tehnologija

Kijin prototip EV2 oduševio na ekstremnom norveškom minusu
Prototip Kia EV2 prešao je 310 km na –21 °C i najavio serijsku proizvodnju, dok je brat EV4 potvrdio Kijinu dominaciju na najhladnijem El Prix testu ikad.

min čitanja

Više

Tehnologija

Znanstvenici otkrili dva ključna „skoka” u ljudskom starenju
Stanfordova studija pokazala je da tijelo prolazi kroz dva izražena vala ubrzanog starenja – prvi sredinom četrdesetih, a drugi oko šezdesete godine.

min čitanja

Više

Tehnologija

Spermiji prkose klasičnoj fizici zahvaljujući „čudnoj elastičnosti”
Istraživači sa Sveučilišta u Kyotu otkrili su da se spermiji i alge kreću kroz guste tekućine mehanizmom koji zaobilazi klasični Newtonov zakon djelovanja i reakcije.

min čitanja

Više

Tehnologija

Lažni brojevi telefona probijaju se u Googleove AI sažetke
Lažni brojevi korisničke podrške pojavljuju se u Googleovim AI Sažecima, a prevaranti tako dolaze do podataka žrtava. Stručnjaci savjetuju dvostruku provjeru kontakata.

min čitanja

Više

Tehnologija

Pentagon navodno koristio AI Claude u tajnoj akciji uhićenja Madura
Tvrdnje da je Pentagon pri uhićenju Nicolása Madura koristio umjetnu inteligenciju Claude pokrenule su raspravu o granicama vojne primjene naprednih AI sustava.

min čitanja

Više

Tehnologija

Musk i Bezos ubrzavaju lunarne planove uoči kineskog roka
SpaceX i Blue Origin preusmjeravaju resurse na lunarne projekte kako bi prestigli Kinu i osigurali dominaciju u svemirskom sektoru.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Nova posada Crew 12 pristala na ISS nakon zdravstvenog incidenta prethodnika
SpaceX-ova kapsula dovela četiri astronauta na orbitalni laboratorij, gdje će zamijeniti ekipu koja se ranije vratila zbog zdravstvenog problema.

min čitanja

Više

Tehnologija

Toyota predstavlja troredni električni Highlander: prvi BEV marke sastavljen u SAD-u
Električni Highlander za 2027. stiže kao prvi Toyotin troredni BEV sastavljen u SAD-u, s 338 KS, proširenim dimenzijama i kabinom za sedam osoba.

min čitanja

Više

Najčitanije

Nogomet

Autor autorsko pravo: HNK Hajduk Split - The logo may be obtained from HNK Hajduk Split., Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=693556

Hajduk rutinski svladao Osijek i produbio slavonsku krizu
Rani jedanaesterac i treća ovosezonska pobjeda 2:0: Splićani potvrđuju vrh, Osijek tone u brige oko ostanka.

min čitanja

Više

Vaterpolo

Otišao je vaterpolski velikan: preminuo Goran Sukno u 66. godini
Sportska javnost oprašta se od Gorana Sukna, kapetana Juga i olimpijskog prvaka koji je preminuo nakon duge bolesti.
European People's Party, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Nogomet

Autor autorsko pravo: GNK Dinamo Zagreb - https://gnkdinamo.hr/, Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=790542Autor autorsko pravo: HNK Hajduk Split - The logo may be obtained from HNK Hajduk Split., Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=693556

Treći remi Gorice i Vukovara bez golova produbio borbu za ostanak
Gorica i Vukovar 1991 odigrali su novu nulu, treći remi u sezoni, ostavivši oba kluba u neizvjesnoj borbi za prvoligaški ostanak.

min čitanja

Više

Vijesti

Pucnjevi iz svadbene kolone u Krapini završili uhićenjima
Četvorica mladića iz svadbene kolone pucali su iz plinskih pištolja i divljom vožnjom ugrozili pješaka; svi završavaju pred sudom

min čitanja

Više

Najnovije

Politika

Izrael pokreće upis zemljišta na Zapadnoj obali, Palestinci upozoravaju na „de facto aneksiju”

Sport

Zadar i Samobor dominantni u 21. kolu: Cedeviti Junior samo 58 poena, Dinamu stotka u mreži

Biznis

Beograd i Baku udružuju snage: plinska elektrana od 500 MW stiže u Niš

Sport

Lindsey Vonn s teškom frakturom napušta Italiju: „Vožnja je vrijedila pada”

Vijesti

Zadar i dalje žali za pedijatricom koja je obilježila djetinjstva

Sport

Femke Kok ruši olimpijski rekord i donosi drugo nizozemsko zlato

Lifestyle

Splitski krnjeval eksplodirao šarenilom, a gradonačelnik ostao „u odijelu“

Vijesti

Mučićevi zvončari poveli završni karnevalski pohod kroz Liburniju

Sport

Livajin pogodak iz penala, pa emotivna poruka njegove supruge

Lifestyle

Zoi, dvogodišnja stafordica na dijalizi u Beču bori se za život

Lifestyle

Burna povijest Pićna: od rimskih vinograda do legende o petoj biskupiji