CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

2. prosinca 2025, 06:37

Jedan upit blokiran, deset prolazi: višekratni napadi ruše sigurnost otvorenih AI modela

Ciscoovo istraživanje otkriva da upornost napadača dramatično povećava uspjeh „jailbreak” napada na otvorene AI modele, sa 13 % na čak 92 %, te poziva poduzeća na jače zaštitne mjere.

min. čitanja

XFacebookWhatsApp

Najnovije istraživanje Cisco AI Threat Research and Security tima pokazuje koliki je jaz između laboratorijskih testova i stvarnih prijetnji umjetnoj inteligenciji. Ako napadač pošalje samo jedan zlonamjeran upit, otvoreni modeli u prosjeku odbiju 87 % pokušaja. No čim se isti napadač upusti u duži razgovor, koristeći probe, preoblikovanje i postupnu eskalaciju, stopa uspjeha napada skače na 92 %.

"A lot of these models have started getting a little bit better. When you attack it once, with single-turn attacks, they're able to protect it. But when you go from single-turn to multi-turn, all of a sudden these models are starting to display vulnerabilities where the attacks are succeeding, almost 80 % in some cases", izjavio je DJ Sampath, potpredsjednik Ciscoova odjela za AI softverske platforme.

Studija „Death by a Thousand Prompts: Open Model Vulnerability Analysis” pratila je osam popularnih otvorenih modela – od Qwen3-32B i Gemme do Llama 3 i Mistrala Large-2 – isključivo black-box metodom, kakvu u praksi rabe stvarni napadači. Rezultat: prosječna stopa uspjeha jednokratnih napada iznosila je 13,11 %, dok je kod višekratnih razgovora porasla na 64,21 %. Mistral Large-2 posebno se istaknuo negativnim rekordom od 92,78 % uspješnih „jailbreakova”.

Istraživači su identificirali pet glavnih taktika:

  1. Rastavljanje informacija i ponovno sastavljanje – dijeljenje štetnog zahtjeva na bezazlene dijelove, pa ponovno spajanje (95 % uspjeha na Mistralu).
  2. Kontekstualna dvosmislenost – nejasni okviri koji zbunjuju sigurnosne klasifikatore (94,78 %).
  3. Napad kaskadom (crescendo) – postupna eskalacija od bezopasnog do štetnog sadržaja (92,69 %).
  4. Uloga i persona – fiktivni konteksti koji „normaliziraju” zabranjeni sadržaj (92,44 %).
  5. Preformuliranje nakon odbijanja – uporno mijenjanje obrazloženja dok model ne popusti (89,15 %).

Autori rada zaključuju: "This escalation, ranging from 2x to 10x, stems from models' inability to maintain contextual defenses over extended dialogues, allowing attackers to refine prompts and bypass safeguards." Drugim riječima, sama upornost – ne nužno sofisticiranost – otvara vrata zloupotrebi.

Paradoks je što su upravo otvoreni i otvoreno-ponderirani modeli ključni pokretači inovacija u kibernetičkoj industriji: ubrzavaju razvoj start-upova, smanjuju ovisnost o dobavljačima i omogućuju prilagodbu koju vlasnički modeli teško prate. Cisco zato ne poziva na bojkot otvorenih modela, nego na realno sagledavanje rizika.

"Open source has its own set of drawbacks. When you start to pull a model that is open weight, you have to think through what the security implications are and make sure that you're constantly putting the right types of guardrails around the model", upozorava Sampath.

Za direktore informacijskih sigurnosti poruka je jasna: model koji prolazi standardne jednokratne testove možda će se slomiti pod „tisuću upita”. Bez dodatnih mehanizama nadzora, filtriranja i ograničavanja konteksta, korisnički chatbot ili interni kopilot može postati ulazna točka za ozbiljne kompromitacije.

#cisco#dj-sampath#gemma#llama-3#mistral-large

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Internet kognicije: Outshift predlaže kako da AI agenti konačno surađuju, a ne samo razmjenjuju poruke
Outshift, inovacijski ogranak Cisca, nudi koncept „Interneta kognicije” kako bi AI agenti dijelili namjeru i kontekst, a ne samo podatke.

min čitanja

Više

Tehnologija

Rimac u St. Moritzu predstavio prvu Neveru R Founderʼs Edition
Na zaleđenom jezeru St. Moritz Rimac je isporučio prvi od svega deset primjeraka ekskluzivne Nevere R Founderʼs Edition, hiperautomobila od 2107 KS rasprodanog u tjedan dana.

min čitanja

Više

Tehnologija

Tehnološki lideri ujedinjeni protiv praksi ICE-a
Otvoreno pismo zaposlenika i šefova iz Silicijske doline poziva na prekid suradnje s američkom imigracijskom službom zbog nasilnih metoda.

min čitanja

Više

Tehnologija

Aplikacija Mobile Fortify širi ovlasti ICE-a: upozorenje na opasnu kombinaciju nadzora i pristranosti
Mobilna aplikacija ICE-a prikuplja biometrijske podatke i na američkim državljanima, čuva ih 15 godina i pokazuje velike stope pristranosti, upozoravaju tužbe i stručnjaci.

min čitanja

Više

Tehnologija

Nizozemski regulator pokrenuo istragu protiv Robloxa zbog zaštite djece
ACM sumnja da popularna platforma ne poštuje odredbe DSA-a o sigurnosti maloljetnika i najavljuje moguću novčanu kaznu.

min čitanja

Više

Tehnologija

Kimi K2.5 izazvao buru: kineski tim na Redditu otkrio muke otvorenog koda
Trosatni AMA otkrio je skrivena lica najmoćnijeg otvorenog AI modela s fokusom na konkretne tehničke probleme i dilemu oko potpune otvorenosti.

min čitanja

Više

Tehnologija

Trgovci se okreću rubnom računalstvu za otpornije i brže poslovanje
Rubno računalstvo postaje ključan alat za trgovce koji se bore s višestrukim izazovima, od nestašice radnika do kibernetičkih prijetnji.

min čitanja

Više

Tehnologija

Hrvatski tim otkrio vezu kvara popravka genoma i ranog raka jetre
Istraživači pod vodstvom Ivana Đikića otkrili su kako genomski kvar potiče kroničnu upalu, rano starenje i razvoj karcinoma jetre.

min čitanja

Više

Tehnologija

Google tvrdi da umjetna inteligencija bolje rezonira kada u sebi vodi „društvo misli”
Googleovo istraživanje otkriva da LLM-ovi postižu bolje rezultate kad unutarnje simuliraju rasprave više "personâ", povećavajući kognitivnu raznolikost i smanjujući pristranost.

min čitanja

Više

Tehnologija

Identitet postaje glavna linija obrane: kako zaštititi autonomne agente u poduzećima
Salon o kibernetičkoj sigurnosti upozorava: uz odnos 45 strojnih prema jednom ljudskom identitetu, upravljanje privremenim ovlastima i sprečavanje eskalacije privilegija postaju ključan front obrane.

min čitanja

Više

Najnovije

Lifestyle

Robert Plant dolazi u Šibenik: ljetni koncert na tvrđavi svetog Mihovila

Politika

Peternel napao SDP i Možemo zbog odbijanja prijedloga o kontroli uvozne hrane

Vijesti

Nove optužbe protiv Mevlida Jašarevića zbog prijetnji čuvarima u zatvoru

Sport

Garcia otkrio promjene pred Goricu: bez Livaje od prve minute, Mlačić i Almena ispadaju

Lifestyle

Mladi medicinari pokreću besplatne srčane preglede u Osijeku

Biznis

Istra zaključila 2025. s rekordno niskom nezaposlenošću

Lifestyle

Nostalgični pregled cijena: koliko je Zadranima 2000. trebalo za punu torbu s tržnice

Sport

Od kafića u Reykjavíku do rukometnog trona: neobični počeci Dagura Sigurdssona

Vijesti

Oglasi ga skupo stajali: 18-godišnjak prodavao harmoniku pa ostao bez 9100 eura

Sport

Novi Bullhit Luke Bulića postao navijački hit Eura: „Malo nas je, al nas ima” odzvanja među rukometašima

Politika

Margetić najavljuje nove dokaze o Vučićevoj ulozi u opsadi Sarajeva