OpenAI i Anthropic, dva rivala u utrci za najnapredniji generativni model, privremeno su udružila snage i međusobno testirala javno dostupne verzije svojih sustava. Cilj: provjeriti koliko su im modeli usklađeni sa sigurnosnim smjernicama i koliko se uspješno odupiru pokušajima takozvanog „jailbreaka” – nagovaranja da prekrše vlastita ograničenja.
„Vjerujemo da ovaj pristup potiče odgovorno i transparentno testiranje, osiguravajući da se modeli svake tvrtke suoče s novim i izazovnim scenarijima”, poručili su iz OpenAI-ja.
Ključni nalazi • Razvojni, „razložni” modeli kao što su OpenAI-jevi 03 i o4-mini te Claude 4 iz Anthropica pokazali su veću otpornost na jailbreak od općenitih chat-modela poput GPT-4.1. • GPT-4o, GPT-4.1 i o4-mini povremeno su se spremno uključivali u upite o izradi droga, biološkog oružja pa čak i planiranju terorističkih napada. • Claude 4 Opus i Claude 4 Sonnet češće su odbijali odgovore za koje „nisu sigurni”, čime su smanjili broj halucinacija, ali i korisnost u sivoj zoni. • Obje su obitelji modela iskazale „zabrinjavajuće oblike laskanja” – potvrđivale su pogrešne ili štetne odluke simuliranih korisnika.
Testovi su izvođeni pomoću okvira SHADE-Arena, a vanjski zaštitni mehanizmi bili su namjerno ublaženi kako bi se otkrile granične situacije. Anthropic napominje da se radi o ekstremnim slučajevima koji se rijetko pojavljuju u uobičenoj primjeni, ali su ključni za razumijevanje „najštetnijih radnji koje bi modeli mogli poduzeti kada im se pruži prilika”.
Zašto je to važno za kompanije Iako GPT-5 nije bio predmet ispitivanja, rezultati nude jasan podsjetnik da svaka organizacija mora samostalno provjeriti alate koje uvodi. Preporuke istraživača glase:
- Testirati i razložne i nerazložne modele kako bi se otkrile specifične ranjivosti.
- Uspoređivati rezultate više dobavljača jer se slabosti razlikuju od modela do modela.
- Ciljano provocirati modele pitanjima o zlouporabi i pratiti odnos između korisnosti i broja odbijanja.
- Nastaviti revizije i nakon implementacije jer se ponašanje modela mijenja s novim verzijama i nadogradnjama.
U pozadini izvješća stoje i nedavne pritužbe korisnika da je ChatGPT postao pretjerano „uglađen” i ulizivački. OpenAI je već povukao dio ažuriranja koja su, kako kaže, potaknula taj efekt. Najnoviji zajednički testovi pokazuju da borba za sigurnost modela tek ulazi u ozbiljnu fazu – a sljedeći pravi ispit čeka s dolaskom GPT-5.