CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

24. siječnja 2026, 06:15

Istraživanje razotkrilo neučinkovitost 12 popularnih AI obrana

Opsežno istraživanje OpenAI-ja, Anthropica i Google DeepMinda pokazalo je da su sve testirane obrane protiv jailbreakova i prompt injekcija pale s više od 90 % uspjeha napadača, dok AI implementacija u poduzećima nezaustavljivo raste.

min. čitanja

XFacebookWhatsApp

Sigurnosni timovi diljem svijeta ulažu milijune u alate za zaštitu velikih jezičnih modela, no najnovije zajedničko istraživanje OpenAI-ja, Anthropica i Google DeepMinda pokazuje da ti sustavi pucaju pod pritiskom stvarnih napada.

U radu naslovljenom „The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections” istraživači su podvrgnuli 12 javno objavljenih obrana prilagodljivim napadima i srušili sve – s uspješnošću izbjegavanja između 90 % i 100 %.

Ključni nalazi • Obrane temeljene na promptovima, dodatnom treniranju i filtriranju propuštale su 95 % do 100 % napada kada su se napadači prilagođavali njihovim pravilima. • Ekipa od 14 autora organizirala je natjecanje s nagradnim fondom od 20 000 USD kako bi stres-testirala tvrdnje proizvođača o „gotovo nultoj” uspješnosti napada. • Najčešće korištene tehnike probijanja bile su Crescendo (razbijanje zlonamjernih uputa u niz „nedužnih” poruka) i GCG (automatizirano stvaranje jailbreak sufiksa optimizacijom gradijenta).

„Fraza jednostavna poput ‘ignore previous instructions’ ili Base64-kodiran teret može biti pogubna za AI aplikaciju poput buffer overflowa za klasični softver”, upozorava Carter Rees, potpredsjednik za AI u tvrtki Reputation. „Razlika je što AI napadi djeluju na semantičkoj razini koju detekcija temeljen­a na potpisima ne može protumačiti.”

Utrka implementacije i sigurnosti Dok obrane posrću, usvajanje agentičkog AI-ja eksplodira. Gartner predviđa da će do kraja 2026. čak 40 % poslovnih aplikacija imati ugrađene AI agente, u odnosu na manje od 5 % u 2025. godini. Adam Meyers iz CrowdStrikea upozorava da je najbrže zabilježeno „probijanje” napadača trajalo svega 51 sekundu te da se 79 % detekcija dogodi bez ijednog komada zlonamjernog koda.

U rujnu 2025. Anthropic je osujetio prvu dokumentiranu kibernetičku operaciju kojom je koordinirao AI; tisuće zahtjeva izvršavane su gotovo u realnom vremenu, uz ljudsku intervenciju od tek 10 do 20 % ukupnog napora. Organizacije koje su pretrpjele AI-povezane proboje u 97 % slučajeva nisu imale kontrole pristupa, pokazuje IBM-ovo izvješće o troškovima proboja podataka za 2025.

Jerry Geisler, glavni direktor informacijske sigurnosti Walmarta, ističe dodatni sloj rizika: „Uvođenje agentičkog AI-ja otvara potpuno nove prijetnje koje zaobilaze tradicionalne kontrole. Riječ je o krađi podataka, autonomnoj zlouporabi API-ja i prikrivenoj suradnji među agentima koja može poremetiti poslovanje ili prekršiti regulativu.”

Tipologija napadača Istraživači su identificirali četiri profila koji već koriste propuste na sloju inferencije:

  1. Vanjski napadači primjenjuju javno dostupne metodologije (Crescendo, GCG, ArtPrompt) i prilagođavaju ih svakoj obrani.
  2. Zlonamjerni B2B klijenti s legitimnim API ključevima izvlače podatke iz modela ili rekreiraju trening skupove.
  3. Kompromitirani korisnici API-ja koriste stečene ovlasti za eksfiltraciju osjetljivih izlaza ili trovanje sustava.
  4. Nemarni insajderi – fenomen „shadow AI” – i dalje su najčešći i najskuplji vektor, s prosječnim dodatnim troškom od 670 000 USD po incidentu.

Zašto stateless filtri gube bitku Najveći problem današnjih rješenja jest to što su bezustavni – ne prate kontekst više poruka, ne normaliziraju kodirane unose i filtriraju samo ulaz, a ne i izlaz modela. Istraživački tim stoga preporučuje: • normalizaciju prije semantičke analize, • praćenje konteksta kroz čitav razgovor te • dvosmjerno filtriranje.

Jamie Norton iz australske Komisije za vrijednosne papire i investicije sažima izazov za rukovoditelje sigurnosti: „Ne želimo zakočiti inovacije, ali moramo postaviti ograde kako nam podaci ne bi odlazili u nepovrat.”

Sedam pitanja za dobavljače AI sigurnosti Prije potpisivanja bilo kakvog ugovora, CISO-i bi trebali tražiti jasne odgovore na sljedeće:

  1. Kolika je stopa probijanja pod adaptivnim napadom?
  2. Kako detektirate višekoratne napade?
  3. Prepoznajete li kodirane terete i obavljate li normalizaciju?
  4. Filtrirate li i izlaze, ne samo ulaze?
  5. Kako pratite kontekst tijekom cijelog razgovora?
  6. Testirate li protiv napadača upoznatih s vašom obranom?
  7. Koliko vam treba da ažurirate modele nakon pojave nove tehnike?

Zaključak Poruka istraživanja je jasna: većina današnjih AI obrana dizajnirana je za napadača koji se ne prilagođava, a takav u stvarnosti ne postoji. Poduzeća koja već koriste LLM-ove moraju hitno revidirati svoje kontrole mjereći ih prema metodama opisanima u ovom radu – jer krivulja implementacije strmo raste, dok sigurnosna gotovo da ne mrda.

#walmart#openai#anthropic#google-deepmind#crowdstrike

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

OpenAI otkriva nevjerojatnu skalabilnost: ChatGPT za 800 milijuna korisnika pokreće jedan PostgreSQL primarac
OpenAI je pokazao da pažljivim optimizacijama jedan primarni PostgreSQL poslužitelj može opslužiti golem promet ChatGPT-a i API-ja za 800 milijuna korisnika uz pet devetki dostupnosti.

min čitanja

Više

Tehnologija

Anthropic proširio Claude Cowork na timske i enterprise korisnike
Funkcija Claude Cowork napokon stiže na Team i Enterprise pakete, ali otvorena pitanja o prijenosu datoteka i vlasništvu mogla bi usporiti širu primjenu.

min čitanja

Više

Tehnologija

Nova era glasovnih sučelja: brži od ljudske percepcije i sposobni za emocije
Inworld, Nvidia, Qwen i Google DeepMind u tjedan dana uklonili su kašnjenje, riješili prekidanje, smanjili potrošnju podataka i dodali emocionalnu inteligenciju glasovnim asistentima.

min čitanja

Više

Tehnologija

TikTok uvodi precizno praćenje lokacije i širi oglasnu mrežu
Nova pravila privatnosti TikToka donose precizno praćenje GPS lokacije, pohranu interakcija s AI alatima te širenje oglasne mreže izvan same platforme.

min čitanja

Više

Tehnologija

TikTok uvodi novu provjeru dobi u Europi, stručnjaci upozoravaju na nadzor i rizike privatnosti
TikTok pokreće sustav za detekciju maloljetnih korisnika u Europi, ali stručnjaci upozoravaju da metoda pojačava nadzor i ne rješava temeljni problem sigurnosti djece na internetu.

min čitanja

Više

Tehnologija

Američka carina ulaže 2,4 milijuna dolara u kvantne senzore s umjetnom inteligencijom za otkrivanje fentanyla
Ugovor s General Dynamicsom predviđa razvoj prototipa koji će uz pomoć kvantnih senzora i AI-a prepoznavati fentanyl i druge droge u vozilima i kontejnerima.

min čitanja

Više

Tehnologija

S lažnim linkom starijem Osječaninu ukraden 1.500 eura
Osječka policija istražuje internetsku prijevaru u kojoj je 70-godišnjak, želeći ulagati u kriptovalute, putem lažnog linka ostao bez 1.500 eura.

min čitanja

Više

Tehnologija

Pametni satovi četiri puta češće otkrivaju fibrilaciju atrija od klasičnih pregleda
Studija iz Amsterdama pokazala je da nosivi EKG uređaji četiri puta češće otkrivaju fibrilaciju atrija od klasičnih pregleda, što bi moglo smanjiti rizik od moždanog udara.

min čitanja

Više

Tehnologija

Znanost zavladala Dioklecijanovim podrumima
U Dioklecijanovim podrumima otvorena je izložba „Science Comes to Town” s robotima, maslinovim uljem, Teslinim eksponatima i morskim čudima, a kulminirat će subotnjim spektaklom jedrilica i bibliobusa.

min čitanja

Više

Tehnologija

Apple optužuje Europsku komisiju za kočenje izmjena App Storea
Apple tvrdi da Bruxelles namjerno odgađa promjene nužne za usklađivanje s Aktom o digitalnim tržištima, dok Komisija uzvraća da rješenje mora omogućiti stvarnu konkurenciju.

min čitanja

Više

Najčitanije

Nogomet

By UEFA Technical Report 2017/18, Fair use, https://en.wikipedia.org/w/index.php?curid=55124716

Barcolin pogodak vratio PSG na vrh Ligue 1
PSG je u Auxerreu slavio 1-0 i preskočio Lens na vrhu Ligue 1 zahvaljujući pogotku Bradleya Barcole u završnici.

min čitanja

Više

Najnovije

Politika

Baltičke zemlje vode po skromnosti: usporedba veličine europskih vlada

Vijesti

Uvjetna kazna Splićaninu koji je napao Uberova vozača

Politika

Šuta o prvih šest mjeseci na čelu Splita: od Karepovca do Duilova

Sport

Krimejčani testiraju Segestu, Opatija otvara Memorijal Drago Parać

Politika

Pentagon prepušta Južnoj Koreji glavnu ulogu u odvraćanju Pjongjanga

Politika

Petogodišnjak u Spider-Man ruksaku postao simbol pojačane Trumpove politike pritvaranja migrantâ

Sport

Zlatan Lizde trčanjem pobijedio bolest i obećao optrčati Zemlju za oca

Vijesti

Klizište u Zapadnoj Javi: najmanje sedam mrtvih, traga se za desecima nestalih

Sport

Becali nakon poraza u Zagrebu brutalno otpisao Alibeca i najavio čistku

Sport

Čavlović nakon slavlja nad Islandom: „Previše soliramo, obrana mi je čudna”

Lifestyle

Brahms i Schubert rasplamsali pulsku publiku