Istraživanje razotkrilo neučinkovitost 12 popularnih AI obrana

Sigurnosni timovi diljem svijeta ulažu milijune u alate za zaštitu velikih jezičnih modela, no najnovije zajedničko istraživanje OpenAI-ja, Anthropica i Google DeepMinda pokazuje da ti sustavi pucaju pod pritiskom stvarnih napada.

U radu naslovljenom „The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections” istraživači su podvrgnuli 12 javno objavljenih obrana prilagodljivim napadima i srušili sve – s uspješnošću izbjegavanja između 90 % i 100 %.

Ključni nalazi • Obrane temeljene na promptovima, dodatnom treniranju i filtriranju propuštale su 95 % do 100 % napada kada su se napadači prilagođavali njihovim pravilima. • Ekipa od 14 autora organizirala je natjecanje s nagradnim fondom od 20 000 USD kako bi stres-testirala tvrdnje proizvođača o „gotovo nultoj” uspješnosti napada. • Najčešće korištene tehnike probijanja bile su Crescendo (razbijanje zlonamjernih uputa u niz „nedužnih” poruka) i GCG (automatizirano stvaranje jailbreak sufiksa optimizacijom gradijenta).

„Fraza jednostavna poput ‘ignore previous instructions’ ili Base64-kodiran teret može biti pogubna za AI aplikaciju poput buffer overflowa za klasični softver”, upozorava Carter Rees, potpredsjednik za AI u tvrtki Reputation. „Razlika je što AI napadi djeluju na semantičkoj razini koju detekcija temeljena na potpisima ne može protumačiti.”

Utrka implementacije i sigurnosti Dok obrane posrću, usvajanje agentičkog AI-ja eksplodira. Gartner predviđa da će do kraja 2026. čak 40 % poslovnih aplikacija imati ugrađene AI agente, u odnosu na manje od 5 % u 2025. godini. Adam Meyers iz CrowdStrikea upozorava da je najbrže zabilježeno „probijanje” napadača trajalo svega 51 sekundu te da se 79 % detekcija dogodi bez ijednog komada zlonamjernog koda.

U rujnu 2025. Anthropic je osujetio prvu dokumentiranu kibernetičku operaciju kojom je koordinirao AI; tisuće zahtjeva izvršavane su gotovo u realnom vremenu, uz ljudsku intervenciju od tek 10 do 20 % ukupnog napora. Organizacije koje su pretrpjele AI-povezane proboje u 97 % slučajeva nisu imale kontrole pristupa, pokazuje IBM-ovo izvješće o troškovima proboja podataka za 2025.

Jerry Geisler, glavni direktor informacijske sigurnosti Walmarta, ističe dodatni sloj rizika: „Uvođenje agentičkog AI-ja otvara potpuno nove prijetnje koje zaobilaze tradicionalne kontrole. Riječ je o krađi podataka, autonomnoj zlouporabi API-ja i prikrivenoj suradnji među agentima koja može poremetiti poslovanje ili prekršiti regulativu.”

Tipologija napadača Istraživači su identificirali četiri profila koji već koriste propuste na sloju inferencije:

Vanjski napadači primjenjuju javno dostupne metodologije (Crescendo, GCG, ArtPrompt) i prilagođavaju ih svakoj obrani.
Zlonamjerni B2B klijenti s legitimnim API ključevima izvlače podatke iz modela ili rekreiraju trening skupove.
Kompromitirani korisnici API-ja koriste stečene ovlasti za eksfiltraciju osjetljivih izlaza ili trovanje sustava.
Nemarni insajderi – fenomen „shadow AI” – i dalje su najčešći i najskuplji vektor, s prosječnim dodatnim troškom od 670 000 USD po incidentu.

Zašto stateless filtri gube bitku Najveći problem današnjih rješenja jest to što su bezustavni – ne prate kontekst više poruka, ne normaliziraju kodirane unose i filtriraju samo ulaz, a ne i izlaz modela. Istraživački tim stoga preporučuje: • normalizaciju prije semantičke analize, • praćenje konteksta kroz čitav razgovor te • dvosmjerno filtriranje.

Jamie Norton iz australske Komisije za vrijednosne papire i investicije sažima izazov za rukovoditelje sigurnosti: „Ne želimo zakočiti inovacije, ali moramo postaviti ograde kako nam podaci ne bi odlazili u nepovrat.”

Sedam pitanja za dobavljače AI sigurnosti Prije potpisivanja bilo kakvog ugovora, CISO-i bi trebali tražiti jasne odgovore na sljedeće:

Kolika je stopa probijanja pod adaptivnim napadom?
Kako detektirate višekoratne napade?
Prepoznajete li kodirane terete i obavljate li normalizaciju?
Filtrirate li i izlaze, ne samo ulaze?
Kako pratite kontekst tijekom cijelog razgovora?
Testirate li protiv napadača upoznatih s vašom obranom?
Koliko vam treba da ažurirate modele nakon pojave nove tehnike?

Zaključak Poruka istraživanja je jasna: većina današnjih AI obrana dizajnirana je za napadača koji se ne prilagođava, a takav u stvarnosti ne postoji. Poduzeća koja već koriste LLM-ove moraju hitno revidirati svoje kontrole mjereći ih prema metodama opisanima u ovom radu – jer krivulja implementacije strmo raste, dok sigurnosna gotovo da ne mrda.

Tipologija napadača Istraživači su identificirali četiri profila koji već koriste propuste na sloju inferencije:

Vanjski napadači primjenjuju javno dostupne metodologije (Crescendo, GCG, ArtPrompt) i prilagođavaju ih svakoj obrani.
Zlonamjerni B2B klijenti s legitimnim API ključevima izvlače podatke iz modela ili rekreiraju trening skupove.
Kompromitirani korisnici API-ja koriste stečene ovlasti za eksfiltraciju osjetljivih izlaza ili trovanje sustava.
Nemarni insajderi – fenomen „shadow AI” – i dalje su najčešći i najskuplji vektor, s prosječnim dodatnim troškom od 670 000 USD po incidentu.

Sedam pitanja za dobavljače AI sigurnosti Prije potpisivanja bilo kakvog ugovora, CISO-i bi trebali tražiti jasne odgovore na sljedeće:

Kolika je stopa probijanja pod adaptivnim napadom?
Kako detektirate višekoratne napade?
Prepoznajete li kodirane terete i obavljate li normalizaciju?
Filtrirate li i izlaze, ne samo ulaze?
Kako pratite kontekst tijekom cijelog razgovora?
Testirate li protiv napadača upoznatih s vašom obranom?
Koliko vam treba da ažurirate modele nakon pojave nove tehnike?

Istraživanje razotkrilo neučinkovitost 12 popularnih AI obrana

Komentari ~ 0

Istraživanje razotkrilo neučinkovitost 12 popularnih AI obrana

Komentari ~ 0