OpenAI je objavio dva otvorena LLM-a – gpt-oss-safeguard-120b i gpt-oss-safeguard-20b – namijenjena tvrtkama koje žele vlastitim pravilima kontrolirati što njihov sustav umjetne inteligencije smije, a što ne smije odgovoriti. Oba modela dostupna su pod permisivnom licencom Apache 2.0 i predstavljaju prvu nadogradnju obitelji gpt-oss od kolovoza.
Za razliku od klasičnih sigurnosnih klasifikatora, koji se treniraju na velikim količinama označenih primjera, „safeguard” u trenutku izvođenja prima dva ulaza – sadržaj korisničkog upita te sigurnosnu politiku koju je definirala sama tvrtka – i potom rezonira o eventualnom kršenju pravila. OpenAI u blog-zapisu naglašava da model koristi chain-of-thought pa „razvojnim timovima pruža objašnjenja svojih odluka i time olakšava revizije”. Budući da se politika ne ugrađuje tijekom treniranja, nego se prosljeđuje pri svakom pozivu, pravila se mogu mijenjati bez ponovnog treniranja modela.
Tvrtkama to, prema OpenAI-ju, donosi prednosti kada: • prijetnje brzo evoluiraju i politika se mora često prilagođavati; • područje je vrlo nijansirano i manji klasifikatori griješe; • nema dovoljno podataka za treniranje vlastitog klasifikatora; • kvaliteta i objašnjivost važniji su od vrlo niske latencije.
U internim testovima modeli su premašili dosadašnje gpt-oss inačice na višepolitičkim mjerilima točnosti, a solidno su prošli i na javnom skupu ToxicChat. Ipak, OpenAI priznaje da su njegov interni Safety Reasoner i eksperimentalni „GPT-5-thinking” na istom testu bili još malo bolji.
Novi pristup, međutim, otvara širu raspravu. „Sigurnost nije jednoznačno definiran pojam. Standard će uvijek odražavati vrijednosti i ograničenja organizacije koja ga stvara”, upozorava John Thickstun, izvanredni profesor računarstva na Sveučilištu Cornell, dodajući da bi masovno prihvaćanje OpenAI-jevih pravila moglo "institucionalizirati jedan pogled na sigurnost".
Dio zajednice zamjera i to što baza gpt-oss nije objavljena pa se ne može u potpunosti dorađivati. OpenAI pak računa na doprinos developera: 8. prosinca u San Franciscu organizira hackathon posvećen upravo „safeguard” modelima.