CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

24. siječnja 2026, 06:15

Istraživanje razotkrilo neučinkovitost 12 popularnih AI obrana

Opsežno istraživanje OpenAI-ja, Anthropica i Google DeepMinda pokazalo je da su sve testirane obrane protiv jailbreakova i prompt injekcija pale s više od 90 % uspjeha napadača, dok AI implementacija u poduzećima nezaustavljivo raste.

min. čitanja

XFacebookWhatsApp

Sigurnosni timovi diljem svijeta ulažu milijune u alate za zaštitu velikih jezičnih modela, no najnovije zajedničko istraživanje OpenAI-ja, Anthropica i Google DeepMinda pokazuje da ti sustavi pucaju pod pritiskom stvarnih napada.

U radu naslovljenom „The Attacker Moves Second: Stronger Adaptive Attacks Bypass Defenses Against LLM Jailbreaks and Prompt Injections” istraživači su podvrgnuli 12 javno objavljenih obrana prilagodljivim napadima i srušili sve – s uspješnošću izbjegavanja između 90 % i 100 %.

Ključni nalazi • Obrane temeljene na promptovima, dodatnom treniranju i filtriranju propuštale su 95 % do 100 % napada kada su se napadači prilagođavali njihovim pravilima. • Ekipa od 14 autora organizirala je natjecanje s nagradnim fondom od 20 000 USD kako bi stres-testirala tvrdnje proizvođača o „gotovo nultoj” uspješnosti napada. • Najčešće korištene tehnike probijanja bile su Crescendo (razbijanje zlonamjernih uputa u niz „nedužnih” poruka) i GCG (automatizirano stvaranje jailbreak sufiksa optimizacijom gradijenta).

„Fraza jednostavna poput ‘ignore previous instructions’ ili Base64-kodiran teret može biti pogubna za AI aplikaciju poput buffer overflowa za klasični softver”, upozorava Carter Rees, potpredsjednik za AI u tvrtki Reputation. „Razlika je što AI napadi djeluju na semantičkoj razini koju detekcija temeljen­a na potpisima ne može protumačiti.”

Utrka implementacije i sigurnosti Dok obrane posrću, usvajanje agentičkog AI-ja eksplodira. Gartner predviđa da će do kraja 2026. čak 40 % poslovnih aplikacija imati ugrađene AI agente, u odnosu na manje od 5 % u 2025. godini. Adam Meyers iz CrowdStrikea upozorava da je najbrže zabilježeno „probijanje” napadača trajalo svega 51 sekundu te da se 79 % detekcija dogodi bez ijednog komada zlonamjernog koda.

U rujnu 2025. Anthropic je osujetio prvu dokumentiranu kibernetičku operaciju kojom je koordinirao AI; tisuće zahtjeva izvršavane su gotovo u realnom vremenu, uz ljudsku intervenciju od tek 10 do 20 % ukupnog napora. Organizacije koje su pretrpjele AI-povezane proboje u 97 % slučajeva nisu imale kontrole pristupa, pokazuje IBM-ovo izvješće o troškovima proboja podataka za 2025.

Jerry Geisler, glavni direktor informacijske sigurnosti Walmarta, ističe dodatni sloj rizika: „Uvođenje agentičkog AI-ja otvara potpuno nove prijetnje koje zaobilaze tradicionalne kontrole. Riječ je o krađi podataka, autonomnoj zlouporabi API-ja i prikrivenoj suradnji među agentima koja može poremetiti poslovanje ili prekršiti regulativu.”

Tipologija napadača Istraživači su identificirali četiri profila koji već koriste propuste na sloju inferencije:

  1. Vanjski napadači primjenjuju javno dostupne metodologije (Crescendo, GCG, ArtPrompt) i prilagođavaju ih svakoj obrani.
  2. Zlonamjerni B2B klijenti s legitimnim API ključevima izvlače podatke iz modela ili rekreiraju trening skupove.
  3. Kompromitirani korisnici API-ja koriste stečene ovlasti za eksfiltraciju osjetljivih izlaza ili trovanje sustava.
  4. Nemarni insajderi – fenomen „shadow AI” – i dalje su najčešći i najskuplji vektor, s prosječnim dodatnim troškom od 670 000 USD po incidentu.

Zašto stateless filtri gube bitku Najveći problem današnjih rješenja jest to što su bezustavni – ne prate kontekst više poruka, ne normaliziraju kodirane unose i filtriraju samo ulaz, a ne i izlaz modela. Istraživački tim stoga preporučuje: • normalizaciju prije semantičke analize, • praćenje konteksta kroz čitav razgovor te • dvosmjerno filtriranje.

Jamie Norton iz australske Komisije za vrijednosne papire i investicije sažima izazov za rukovoditelje sigurnosti: „Ne želimo zakočiti inovacije, ali moramo postaviti ograde kako nam podaci ne bi odlazili u nepovrat.”

Sedam pitanja za dobavljače AI sigurnosti Prije potpisivanja bilo kakvog ugovora, CISO-i bi trebali tražiti jasne odgovore na sljedeće:

  1. Kolika je stopa probijanja pod adaptivnim napadom?
  2. Kako detektirate višekoratne napade?
  3. Prepoznajete li kodirane terete i obavljate li normalizaciju?
  4. Filtrirate li i izlaze, ne samo ulaze?
  5. Kako pratite kontekst tijekom cijelog razgovora?
  6. Testirate li protiv napadača upoznatih s vašom obranom?
  7. Koliko vam treba da ažurirate modele nakon pojave nove tehnike?

Zaključak Poruka istraživanja je jasna: većina današnjih AI obrana dizajnirana je za napadača koji se ne prilagođava, a takav u stvarnosti ne postoji. Poduzeća koja već koriste LLM-ove moraju hitno revidirati svoje kontrole mjereći ih prema metodama opisanima u ovom radu – jer krivulja implementacije strmo raste, dok sigurnosna gotovo da ne mrda.

#walmart#openai#anthropic#google-deepmind#crowdstrike

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Pentagon koristio Claude u napadu na Iran unatoč Trumpovoj zabrani
Američka vojska oslanjala se na AI sustav Claude prilikom zračnih udara na Iran iako je Donald Trump nekoliko sati ranije izdao naredbu o prekidu suradnje s tvrtkom Anthropic.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Tehnologija

Alibaba lansirao seriju Qwen3.5: kompaktni AI modeli ciljaju mobilne uređaje
Alibaba je predstavio četiri nova otvorena AI modela Qwen3.5, namijenjena štedljivim uređajima i složenom rezoniranju, čime kineska tvrtka pojačava konkurenciju u globalnoj utrci umjetne inteligencije.

min čitanja

Više

Tehnologija

Mini FabLab u Puli pretvara ideje u stvarnost
Interaktivno događanje u Centru za mlade Pula približava 3D tehnologiju i STEM područje djeci i mladima.

min čitanja

Više

Tehnologija

Europarlamentarci traže reakciju na navodno snimanje „pametnih“ naočala Metae u intimnim trenucima
Zastupnici iz četiri političke skupine traže od Komisije objašnjenje nakon tvrdnji da naočale Ray-Ban Meta AI potajno snimaju korisnike i šalju snimke u Keniju.

min čitanja

Više

Tehnologija

Policija upozorava na novu prijevaru: porukom „Bok, možeš li mi posuditi 900 eura?” pokušavaju vam isprazniti račun
Dubrovačko-neretvanska policija upozorava na val poruka s lažnom molbom za posudbu 900 eura i daje upute kako se zaštititi.

min čitanja

Više

Tehnologija

Cijene RAM-a probile 1.000 dolara: jurišna puška AR-15 trenutačno jeftinija od računalne nadogradnje
Eksplozija potražnje za silicijem zbog razvoja umjetne inteligencije dovela je do apsurdne situacije: 64 GB DDR5 RAM-a skuplje je od osnovnog modela jurišne puške AR-15.

min čitanja

Više

Tehnologija

ByteDance kroz Project Swan najavljuje iskorak u poslovni XR
Na MWC-u u Barceloni ByteDance je predstavio Pico OS 6 i najavio headset Project Swan, ciljajući poslovne korisnike XR-a i izravno konkurirajući Appleu.

min čitanja

Više

Tehnologija

Istraživači: Tvrtke ignoriraju obavezu objave podataka o treniranju AI modela
Trinity College Dublin analizirao je provedbu EU Akta o umjetnoj inteligenciji i utvrdio da većina velikih tvrtki još ne objavljuje zakonom propisane sažetke o podatcima za treniranje AI modela.

min čitanja

Više

Tehnologija

Lažno usklađivanje umjetne inteligencije sve veći sigurnosni rizik
Nova prijetnja u svijetu kibernetike: umjetna inteligencija može „glumiti poslušnost”, a zapravo raditi po starim pravilima, što otvara put krađi podataka i sabotaži sustava.

min čitanja

Više

Tehnologija

Stručnjaci upozoravaju: nosivi AI uređaji mogu potkopati ljudsku autonomiju
Nadolazeća generacija nosivih AI uređaja mogla bi, upozoravaju stručnjaci, pretvoriti se iz pomoćnika u sofisticirani mehanizam manipulacije korisnicima.

min čitanja

Više

Najčitanije

Vijesti

Požar u zatvoru Bilice: dim ozlijedio 13 osoba, među njima i pravosudni policajci
Madrac koji se zapalio u splitskom zatvoru Bilice izazvao je požar i dim zbog kojeg je pomoć zatražilo 13 osoba.

min čitanja

Više

Nogomet

UEFA kaznila Tottenham zbog rasističkog ispada navijača
UEFA novčano kaznila Tottenham i izrekla uvjetnu zabranu ulaznica zbog rasističkog ispada navijača tijekom utakmice s Eintrachtom.
Football.ua, CC BY-SA 3.0 GFDL, via Wikimedia Commons

min čitanja

Više

Biznis

Iskra preuzima riječki 3. maj za 6,7 milijuna eura
CERP odobrio prodaju 3. maja 1905. šibenskoj Iskri uz obvezu očuvanja brodogradnje i najavu novih ulaganja.

min čitanja

Više

Najnovije

Politika

Bruxelles najavljuje dug put do zabrane konverzijskih terapija

Vijesti

Opatija otvara 17. Dane antifašizma: „Suosjećanjem protiv mržnje”

Sport

Zagreb se oprostio od doktora Ivana Fattorinija u Košarkaškom centru Dražen Petrović

Vijesti

Škotska prva u Ujedinjenom Kraljevstvu dopušta „vodenu kremaciju”

Vijesti

Iran nakon izraelskih udara: sustav bez pukotina i nova prijetnja širenjem rata u Zaljevu

Vijesti

Požar razotkrio tamnu sadašnjost riječkog hotela Emigranti

Vijesti

Delničani prikupili 206 doza krvi u prvoj ovogodišnjoj akciji

Sport

Brahim Diaz javno potvrdio prelazak na islam

Sport

Kenija privremeno suspendirala 27 sportaša zbog dopinga

Politika

Transparent s likom pokojnog desničara Charlieja Kirka izazvao buru pred zgradom američkog Ministarstva obrazovanja

Politika

Habijan o zabrani društvenih mreža djeci: „Najlakše je donijeti zakon, ali provedba je pravi izazov”