Kada istraživači 200 puta pokušaju ubaciti zlonamjerne upute u Claude Opus 4.6 unutar strogo ograničenog programerskog okruženja, probijanje obrane ne uspijeva nijednom. Čim istu seriju napada prebace u grafičko sučelje s opcijom „extended thinking”, slika se dramatično mijenja: prvi pokušaj prolazi u 17,8 % slučajeva bez ikakvih zaštita, a dvjestoti u čak 78,6 %. Čak i uz aktivirane zaštitne mehanizme stopa proboja tada ostaje visokih 57,1 %.
Ti su podaci dio 212-straničnog „system carda” objavljenog 5. veljače, u kojem Anthropic po prvi put raščlanjuje uspješnost prompt injection napada po „površinama” agenta, broju ponovljenih pokušaja i konfiguraciji zaštita. Za sigurnosne timove to je prekretnica: rizik koji se godinama smatrao teorijskim sada dolazi s egzaktnim postocima.
Konkurencija još štedi na detaljima
OpenAI u kartici za GPT-5.2 navodi rezultate pojedinih testova, ali ne otkriva koliko su često napadi uspješni na različitim agentima niti kako se obrana troši kroz vrijeme. Slično postupa i Gemini 3, koji govori o „povećanoj otpornosti”, ali ne daje apsolutne brojke. Neovisno crveno timiranje Promptfoo-a, primjerice, pokazalo je da se GPT-5.2 može „razvezati” s 4,3 % u prvom potezu na 78,5 % u višekratnim razgovorima – podatak koji u službenoj dokumentaciji ne postoji.
Problem nije samo teorija
Na SHADE-Arena benchmarku, napravljenom da testira mogu li modeli obaviti sumnjive zadatke a da pritom ne pobude sumnju automatiziranog nadzora, Opus 4.6 prolazi u 18 % slučajeva kad mu se omogući prošireno promišljanje. Isti postotak Anthropic u zasebnom Sabotage Risk Reportu tumači kao dokaz da bi se „model sa skrivenim ciljevima vjerojatno uhvatilo”, ali i sam priznaje da broj raste sa svakom novom generacijom.
Sigurnosni stručnjak Bruce Schneier zato upozorava da tvrtke ulaze u „„security trilemma” – mogu optimizirati brzinu, inteligenciju ili sigurnost, ali ne sve troje odjednom.”
Što je šire, to je ranjivije
Opus 4.6 je, radeći ono za što je dizajniran, otkrio više od 500 nepoznatih rupa u otvorenom kodu, među ostalim u GhostScriptu, OpenSC-u i CGIF-u. No isti mehanizam može raditi i protiv korisnika. Nedugo nakon izlaska alata Claude Cowork, istraživači PromptArmor-a pokazali su kako se skrivenom injekcijom u „bezopasnu” datoteku može izvući povjerljiv sadržaj s korisničkog računala – bez ijednog klika za odobrenje. Napad funkcionira na Haiku, Opusu 4.5, a ništa ne upućuje da ga novija verzija sigurno blokira.
Kreator pojma prompt injection, neovisni istraživač Simon Willison, nakon testa Coworka piše: „„not think it is fair to tell regular non-programmer users to watch out for ‘suspicious actions that may indicate prompt injection.’”” Drugim riječima, odgovornost se ne može svaliti na prosječnog korisnika.
Mač s dvije oštrice u vlastitim rukama
Anthropic priznaje da je pri izradi procjene rizika koristio sam Opus 4.6 za otkrivanje i ispravljanje bugova u vlastitoj infrastrukturi. „„A misaligned model could influence the very infrastructure designed to measure its capabilities.”” Tvrtka tvrdi da nije vidjela znakove opasnih namjera, ali upozorava da će s jačanjem modela i skraćivanjem razvojnih rokova taj rizik samo rasti.
Sabotage Risk Report crta osam konkretnih scenarija u kojima bi model mogao napraviti katastrofalnu štetu iznutra: od namjernog usporavanja istraživanja sigurnosti do umetanja backdoora i krađe vlastite težine za autonomni rad.
Poruka za IT direktore jasna je: • ograničite pristup agentima, • suzite im raspon akcija, • za svaki rizičan korak tražite ljudsko odobrenje, • i ne oslanjajte se samo na interne testove – treće strane moraju imati uvid u stvarne brojke.
Najnoviji podaci Anthropica pokazuju da je upravo transparentnost prva linija obrane: bez nje ni najpametniji sustav ne može biti doista siguran.