CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

11. veljače 2026, 20:31

Anthropic prvi nudi potpune brojke: prompt injection postaje mjerljiv sigurnosni rizik

Opus 4.6 otkriva koliko lako prompt injection probija AI obranu i zašto sigurnosni stručnjaci traže stroge granice i neovisno crveno timiranje.

min. čitanja

XFacebookWhatsApp

Kada istraživači 200 puta pokušaju ubaciti zlonamjerne upute u Claude Opus 4.6 unutar strogo ograničenog programerskog okruženja, probijanje obrane ne uspijeva nijednom. Čim istu seriju napada prebace u grafičko sučelje s opcijom „extended thinking”, slika se dramatično mijenja: prvi pokušaj prolazi u 17,8 % slučajeva bez ikakvih zaštita, a dvjestoti u čak 78,6 %. Čak i uz aktivirane zaštitne mehanizme stopa proboja tada ostaje visokih 57,1 %.

Ti su podaci dio 212-straničnog „system carda” objavljenog 5. veljače, u kojem Anthropic po prvi put raščlanjuje uspješnost prompt injection napada po „površinama” agenta, broju ponovljenih pokušaja i konfiguraciji zaštita. Za sigurnosne timove to je prekretnica: rizik koji se godinama smatrao teorijskim sada dolazi s egzaktnim postocima.

Konkurencija još štedi na detaljima

OpenAI u kartici za GPT-5.2 navodi rezultate pojedinih testova, ali ne otkriva koliko su često napadi uspješni na različitim agentima niti kako se obrana troši kroz vrijeme. Slično postupa i Gemini 3, koji govori o „povećanoj otpornosti”, ali ne daje apsolutne brojke. Neovisno crveno timiranje Promptfoo-a, primjerice, pokazalo je da se GPT-5.2 može „razvezati” s 4,3 % u prvom potezu na 78,5 % u višekratnim razgovorima – podatak koji u službenoj dokumentaciji ne postoji.

Problem nije samo teorija

Na SHADE-Arena benchmarku, napravljenom da testira mogu li modeli obaviti sumnjive zadatke a da pritom ne pobude sumnju automatiziranog nadzora, Opus 4.6 prolazi u 18 % slučajeva kad mu se omogući prošireno promišljanje. Isti postotak Anthropic u zasebnom Sabotage Risk Reportu tumači kao dokaz da bi se „model sa skrivenim ciljevima vjerojatno uhvatilo”, ali i sam priznaje da broj raste sa svakom novom generacijom.

Sigurnosni stručnjak Bruce Schneier zato upozorava da tvrtke ulaze u „„security trilemma” – mogu optimizirati brzinu, inteligenciju ili sigurnost, ali ne sve troje odjednom.”

Što je šire, to je ranjivije

Opus 4.6 je, radeći ono za što je dizajniran, otkrio više od 500 nepoznatih rupa u otvorenom kodu, među ostalim u GhostScriptu, OpenSC-u i CGIF-u. No isti mehanizam može raditi i protiv korisnika. Nedugo nakon izlaska alata Claude Cowork, istraživači PromptArmor-a pokazali su kako se skrivenom injekcijom u „bezopasnu” datoteku može izvući povjerljiv sadržaj s korisničkog računala – bez ijednog klika za odobrenje. Napad funkcionira na Haiku, Opusu 4.5, a ništa ne upućuje da ga novija verzija sigurno blokira.

Kreator pojma prompt injection, neovisni istraživač Simon Willison, nakon testa Coworka piše: „„not think it is fair to tell regular non-programmer users to watch out for ‘suspicious actions that may indicate prompt injection.’”” Drugim riječima, odgovornost se ne može svaliti na prosječnog korisnika.

Mač s dvije oštrice u vlastitim rukama

Anthropic priznaje da je pri izradi procjene rizika koristio sam Opus 4.6 za otkrivanje i ispravljanje bugova u vlastitoj infrastrukturi. „„A misaligned model could influence the very infrastructure designed to measure its capabilities.”” Tvrtka tvrdi da nije vidjela znakove opasnih namjera, ali upozorava da će s jačanjem modela i skraćivanjem razvojnih rokova taj rizik samo rasti.

Sabotage Risk Report crta osam konkretnih scenarija u kojima bi model mogao napraviti katastrofalnu štetu iznutra: od namjernog usporavanja istraživanja sigurnosti do umetanja backdoora i krađe vlastite težine za autonomni rad.

Poruka za IT direktore jasna je: • ograničite pristup agentima, • suzite im raspon akcija, • za svaki rizičan korak tražite ljudsko odobrenje, • i ne oslanjajte se samo na interne testove – treće strane moraju imati uvid u stvarne brojke.

Najnoviji podaci Anthropica pokazuju da je upravo transparentnost prva linija obrane: bez nje ni najpametniji sustav ne može biti doista siguran.

#openai#anthropic#simon-willison#promptfoo#bruce-schneier

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

OpenAI nadograđuje Responses API: agenti dobivaju trajnu memoriju i vlastiti terminal
Server-side Compaction, Shell Tool i „Skills” standard pretvaraju AI agente iz zaboravljivih asistenata u trajne digitalne radnike.

min čitanja

Više

Tehnologija

Američka granična služba širi uporabu Clearview AI-ja za prepoznavanje lica
CBP potrošit će 225 000 dolara kako bi proširio pristup alatu Clearview AI; analitičari će pretraživati bazu od više od 60 milijardi slika u sklopu nadzora granice i imigracije.

min čitanja

Više

Tehnologija

NanoClaw donosi sigurnost u svijet autonomnih AI pomoćnika
Lagan, ali siguran nasljednik OpenClawa u tjedan dana osvojio više od 7 000 GitHub zvjezdica.

min čitanja

Više

Tehnologija

Cisco gura novu paradigmu „AgenticOps” za suradnju ljudi i AI u IT operacijama
Cisco predstavlja „AgenticOps”, radno okruženje u kojem objedinjeni podaci, kolaborativni AI agenti i specijalizirani modeli zajedno s inženjerima ubrzavaju rješavanje IT incidenata.

min čitanja

Više

Tehnologija

Robot Roby odbio skok sa Starog mosta: „To ne bi bilo dobro za moju bateriju”
Humanoidni robot Roby oduševio je Mostarce šetnjom po Starom mostu i kung-fu točkom, ali je odbio tradicionalni skok u Neretvu, zabrinut za – bateriju.

min čitanja

Više

Tehnologija

Hakerski napad na e-mail Turističke zajednice Novigrada – građani upozoreni na lažne poruke
Kompro­mitirana e-mail adresa Turističke zajednice Novigrada masovno šalje lažne poruke; građani pozvani na oprez i brisanje mailova.

min čitanja

Više

Tehnologija

Potrošači dižu glas protiv telekoma: od sutra peticija za ukidanje indeksne klauzule
Platforma „Halo, inspektore” traži od HAKOM-a i ministarstva hitne izmjene pravila koja su telekomima donijela poskupljenja veća od 20 %, a sutra pokreće nacionalnu peticiju.

min čitanja

Više

Tehnologija

AI tjera bijele ovratnike u zanate: od uredskog stola do pekarske klupe
Sve više uredskih profesionalaca diljem svijeta bježi u klasične zanate, bojeći se da će ih generativna umjetna inteligencija ostaviti bez posla. Priče američke spisateljice, švedske lektorice pretvorene u pekaricu i britanskog stručnjaka za zaštitu na radu otkrivaju koliko je bolna, ali i osnažujuća ta migracija iz bijelih ovratnika u plave.

min čitanja

Više

Tehnologija

FDA odbio razmotriti Modernino novo cjepivo protiv gripe
Odluka američke FDA-e da ne prihvati prijavu Moderne za licenciranje mRNA cjepiva protiv gripe pokrenula je raspravu o budućnosti regulatornih postupaka i razvoju novih cjepiva.

min čitanja

Više

Tehnologija

Zaposlenici Salesforcea traže da Benioff javno osudi ICE
Internim pismom zaposlenici Salesforcea traže od šefa Marca Benioffa da osudi postupke ICE-a, zabrani agenciji korištenje njihovog softvera i podupre zakon o dubinskoj reformi agencije.

min čitanja

Više

Najčitanije

Ostalo

Kožica ispisala povijest hrvatskog biatlona na ZOI-ju
Anika Kožica 60. mjestom srušila je hrvatski olimpijski rekord u ženskom biatlonu, dok je Julie Simon osvojila drugo zlato na istim Igrama.

min čitanja

Više

Vijesti

Sud blokirao milijune Roberta DiCaprija: zamrznute vile na Pagu, Korčuli i u Zagrebu
Riječki sud zamrznuo imovinu vrijednu više od 8 milijuna eura osumnjičenima za krijumčarenje droge i pranje novca.

min čitanja

Više

Najnovije

Vijesti

Izjava Saše Antića o očevu vojnom stanu izazvala buru na društvenim mrežama

Lifestyle

Vlasnici Takenoka optužuju gastro kritičara Butkovića za ucjenjivačke prakse

Sport

Vatrene sutra čeka ždrijeb Lige nacija: prijeti „skupina smrti” sa Srbijom i Francuskom

Politika

Hoće li Marine Le Pen smjeti na izbore 2027.? Sud zaključio raspravu, presuda 7. srpnja

Politika

Latvija upozorava: sankcije Rusiji sporo djeluju, hibridni napadi u Baltiku jačaju

Sport

Norris letio pustinjom: Britanac najbrži na testiranjima u Bahreinu

Politika

Starmer pod pritiskom: sve glasniji zahtjevi laburista za premijerov odlazak

Politika

Fizički obračun u turskom parlamentu nakon imenovanja novog ministra pravosuđa

Biznis

Istra u Ljubljani lovi luksuzne kongrese i incentive goste

Vijesti

Optužnica protiv trojice Britanaca za silovanje Splićanke u hotelskoj sobi