Tehnologija

2. prosinca 2025, 06:37

Jedan upit blokiran, deset prolazi: višekratni napadi ruše sigurnost otvorenih AI modela

Ciscoovo istraživanje otkriva da upornost napadača dramatično povećava uspjeh „jailbreak” napada na otvorene AI modele, sa 13 % na čak 92 %, te poziva poduzeća na jače zaštitne mjere.

min. čitanja

Najnovije istraživanje Cisco AI Threat Research and Security tima pokazuje koliki je jaz između laboratorijskih testova i stvarnih prijetnji umjetnoj inteligenciji. Ako napadač pošalje samo jedan zlonamjeran upit, otvoreni modeli u prosjeku odbiju 87 % pokušaja. No čim se isti napadač upusti u duži razgovor, koristeći probe, preoblikovanje i postupnu eskalaciju, stopa uspjeha napada skače na 92 %.

"A lot of these models have started getting a little bit better. When you attack it once, with single-turn attacks, they're able to protect it. But when you go from single-turn to multi-turn, all of a sudden these models are starting to display vulnerabilities where the attacks are succeeding, almost 80 % in some cases", izjavio je DJ Sampath, potpredsjednik Ciscoova odjela za AI softverske platforme.

Studija „Death by a Thousand Prompts: Open Model Vulnerability Analysis” pratila je osam popularnih otvorenih modela – od Qwen3-32B i Gemme do Llama 3 i Mistrala Large-2 – isključivo black-box metodom, kakvu u praksi rabe stvarni napadači. Rezultat: prosječna stopa uspjeha jednokratnih napada iznosila je 13,11 %, dok je kod višekratnih razgovora porasla na 64,21 %. Mistral Large-2 posebno se istaknuo negativnim rekordom od 92,78 % uspješnih „jailbreakova”.

Istraživači su identificirali pet glavnih taktika:

Rastavljanje informacija i ponovno sastavljanje – dijeljenje štetnog zahtjeva na bezazlene dijelove, pa ponovno spajanje (95 % uspjeha na Mistralu).
Kontekstualna dvosmislenost – nejasni okviri koji zbunjuju sigurnosne klasifikatore (94,78 %).
Napad kaskadom (crescendo) – postupna eskalacija od bezopasnog do štetnog sadržaja (92,69 %).
Uloga i persona – fiktivni konteksti koji „normaliziraju” zabranjeni sadržaj (92,44 %).
Preformuliranje nakon odbijanja – uporno mijenjanje obrazloženja dok model ne popusti (89,15 %).

Autori rada zaključuju: "This escalation, ranging from 2x to 10x, stems from models' inability to maintain contextual defenses over extended dialogues, allowing attackers to refine prompts and bypass safeguards." Drugim riječima, sama upornost – ne nužno sofisticiranost – otvara vrata zloupotrebi.

Paradoks je što su upravo otvoreni i otvoreno-ponderirani modeli ključni pokretači inovacija u kibernetičkoj industriji: ubrzavaju razvoj start-upova, smanjuju ovisnost o dobavljačima i omogućuju prilagodbu koju vlasnički modeli teško prate. Cisco zato ne poziva na bojkot otvorenih modela, nego na realno sagledavanje rizika.

"Open source has its own set of drawbacks. When you start to pull a model that is open weight, you have to think through what the security implications are and make sure that you're constantly putting the right types of guardrails around the model", upozorava Sampath.

Za direktore informacijskih sigurnosti poruka je jasna: model koji prolazi standardne jednokratne testove možda će se slomiti pod „tisuću upita”. Bez dodatnih mehanizama nadzora, filtriranja i ograničavanja konteksta, korisnički chatbot ili interni kopilot može postati ulazna točka za ozbiljne kompromitacije.

#cisco #dj-sampath #gemma #llama-3 #mistral-large

Komentari ~ 0

Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Web se pretvara u hibridnog korisnika: AI agenti mijenjaju sliku internetskog prometa

Umjetna inteligencija sve češće preuzima zadatke na internetu, brišući razliku između ljudskih i strojnih interakcija te izazivajući postojeće analitičke, sigurnosne i oglašivačke modele.

min čitanja

Više

Tehnologija

Japanska studija otkriva tajnu mačjeg savršenog doskoka

Fleksibilni prsni, a kruti slabinski dio kralježnice omogućuju mačkama da se u padu najprije okrenu prednjim dijelom tijela, a potom i stražnjim, otkriva japansko istraživanje.

min čitanja

Više

Tehnologija

COBOL još odolijeva mirovini: digitalni „azbest” koji i dalje pokreće bilijune dolara

Šezdeset godina star jezik i dalje pogoni ključne državne i financijske sustave, a pokušaji automatizirane zamjene stvaraju novi „JOBOL” kaos.

min čitanja

Više

Tehnologija

Kerit Vinkovci obišao pogon Schneider Electrica u Mađarskoj

Članovi KERIT-a iz Vinkovaca tri su dana proučavali napredne proizvodne procese u pogonu Schneider Electric u Zalaegerszegu, otkrivajući kako globalni div prilagođava elektroenergetska rješenja potrebama kupaca i koje mogućnosti to otvara za hrvatske stručnjake.

min čitanja

Više

Tehnologija

Sintovi futurističke glazbe: inovativni instrumenti osvojili Atlantu

Na 28. Guthmanovu natjecanju u Atlanti slavio je Masterpiece, dodirni sintisajzer otvorenog koda, dok su finalisti oduševili recikliranim materijalima i neobičnim oblicima.

min čitanja

Više

Tehnologija

Manekenke se nude kao „lice” AI prevara iz Kambodže

U Kambodži cvjeta nova niša internetskih prevara: ljudi se zapošljavaju kao „AI face modeli” kako bi uz deepfake tehnologiju varali žrtve diljem svijeta.

min čitanja

Više

Tehnologija

Tesla se suočava s pobunom: "prijevara" oko FSD-a naljutila lojalne poklonike

Obećanje besplatnog prijenosa Full Self-Driving opcije pretvorilo se u razočaranje, pa dio dugogodišnjih Tesla influencera sada javno prekida s "kultom" Elona Muska.

min čitanja

Više

Tehnologija

Norveška diže glas protiv „enshittifikacije” interneta

Norveško Vijeće potrošača predvodi međunarodnu kampanju protiv namjernog pogoršavanja digitalnih usluga, tražeći strože zakonodavstvo, veću konkurenciju i pravo korisnika na popravak i prijenos podataka.

min čitanja

Više

Tehnologija

Google Street View opet na hrvatskim cestama od 24. ožujka

Panoramska vozila snimit će više od 10 000 kilometara i osvježiti prikaze 30-ak naselja.

min čitanja

Više

Tehnologija

Hrvatski tim otkrio ključne imunološke promjene povezane s Parkinsonovom bolešću

Novo istraživanje hrvatskih znanstvenika otkrilo specifične promjene dendritičnih stanica i CD4 T-stanica u krvi oboljelih od Parkinsonove bolesti, potvrđujući ulogu sistemske upale.

min čitanja

Više

Najčitanije

Politika

USKOK prepolovio iznos u optužnici protiv Božidara Kalmete

Nakon što je Vrhovni sud srušio prijašnju oslobađajuću presudu, USKOK je spustio iznos navodne nezakonite koristi bivšeg ministra na 222.222 eura, ali zadržao optužbe za promotivni film i raspolaganje novcem iz HAC-a.

min čitanja

Više

Politika

Jandroković pozvao na ozbiljan razgovor o srbijanskim nadzvučnim raketama

Predsjednik Sabora naglašava da vijest o srbijanskim nadzvučnim raketama traži ozbiljnu raspravu, a ne političko prepucavanje.

min čitanja

Više

Vijesti

Pijan vozač pokosio majku i kćer na pješačkom prijelazu, policija ga uhvatila dan poslije

Teško ozlijeđena djevojčica, vozač vozio s gotovo 3 promila alkohola i pobjegao; policija ga privela dan nakon nesreće u zagrebačkim Dugavama.

min čitanja

Više

Nogomet

Iran unatoč ratu i prijetnjama i dalje računa na nastup na Svjetskom prvenstvu

Azijska nogometna konfederacija poručuje da Iran unatoč ratu i sigurnosnim upozorenjima ostaje u planu za Svjetsko prvenstvo 2026.

min čitanja

Više

Nogomet

Chelsea pod sankcijama: rekordna kazna zbog Abramovičeve ere

Premier liga kaznila je Chelsea s 10,75 milijuna funti i zabranila mu devet mjeseci dovođenja igrača u akademiju zbog nepravilnosti u Abramovičevoj eri.

min čitanja

Više

Tehnologija

2. prosinca 2025, 06:37

Jedan upit blokiran, deset prolazi: višekratni napadi ruše sigurnost otvorenih AI modela

Ciscoovo istraživanje otkriva da upornost napadača dramatično povećava uspjeh „jailbreak” napada na otvorene AI modele, sa 13 % na čak 92 %, te poziva poduzeća na jače zaštitne mjere.

min. čitanja

Istraživači su identificirali pet glavnih taktika:

Rastavljanje informacija i ponovno sastavljanje – dijeljenje štetnog zahtjeva na bezazlene dijelove, pa ponovno spajanje (95 % uspjeha na Mistralu).
Kontekstualna dvosmislenost – nejasni okviri koji zbunjuju sigurnosne klasifikatore (94,78 %).
Napad kaskadom (crescendo) – postupna eskalacija od bezopasnog do štetnog sadržaja (92,69 %).
Uloga i persona – fiktivni konteksti koji „normaliziraju” zabranjeni sadržaj (92,44 %).
Preformuliranje nakon odbijanja – uporno mijenjanje obrazloženja dok model ne popusti (89,15 %).

#cisco #dj-sampath #gemma #llama-3 #mistral-large

Komentari ~ 0

Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Web se pretvara u hibridnog korisnika: AI agenti mijenjaju sliku internetskog prometa

Umjetna inteligencija sve češće preuzima zadatke na internetu, brišući razliku između ljudskih i strojnih interakcija te izazivajući postojeće analitičke, sigurnosne i oglašivačke modele.

min čitanja

Više

Tehnologija

Japanska studija otkriva tajnu mačjeg savršenog doskoka

Fleksibilni prsni, a kruti slabinski dio kralježnice omogućuju mačkama da se u padu najprije okrenu prednjim dijelom tijela, a potom i stražnjim, otkriva japansko istraživanje.

min čitanja

Više

Tehnologija

COBOL još odolijeva mirovini: digitalni „azbest” koji i dalje pokreće bilijune dolara

Šezdeset godina star jezik i dalje pogoni ključne državne i financijske sustave, a pokušaji automatizirane zamjene stvaraju novi „JOBOL” kaos.

min čitanja

Više

Tehnologija

Kerit Vinkovci obišao pogon Schneider Electrica u Mađarskoj

min čitanja

Više

Tehnologija

Sintovi futurističke glazbe: inovativni instrumenti osvojili Atlantu

Na 28. Guthmanovu natjecanju u Atlanti slavio je Masterpiece, dodirni sintisajzer otvorenog koda, dok su finalisti oduševili recikliranim materijalima i neobičnim oblicima.

min čitanja

Više

Tehnologija

Manekenke se nude kao „lice” AI prevara iz Kambodže

U Kambodži cvjeta nova niša internetskih prevara: ljudi se zapošljavaju kao „AI face modeli” kako bi uz deepfake tehnologiju varali žrtve diljem svijeta.

min čitanja

Više

Tehnologija

Tesla se suočava s pobunom: "prijevara" oko FSD-a naljutila lojalne poklonike

Obećanje besplatnog prijenosa Full Self-Driving opcije pretvorilo se u razočaranje, pa dio dugogodišnjih Tesla influencera sada javno prekida s "kultom" Elona Muska.

min čitanja

Više

Tehnologija

Norveška diže glas protiv „enshittifikacije” interneta

min čitanja

Više

Tehnologija

Google Street View opet na hrvatskim cestama od 24. ožujka

Panoramska vozila snimit će više od 10 000 kilometara i osvježiti prikaze 30-ak naselja.

min čitanja

Više

Tehnologija

Hrvatski tim otkrio ključne imunološke promjene povezane s Parkinsonovom bolešću

Novo istraživanje hrvatskih znanstvenika otkrilo specifične promjene dendritičnih stanica i CD4 T-stanica u krvi oboljelih od Parkinsonove bolesti, potvrđujući ulogu sistemske upale.

min čitanja

Više

Najčitanije

Politika

USKOK prepolovio iznos u optužnici protiv Božidara Kalmete

min čitanja

Više

Politika

Jandroković pozvao na ozbiljan razgovor o srbijanskim nadzvučnim raketama

Predsjednik Sabora naglašava da vijest o srbijanskim nadzvučnim raketama traži ozbiljnu raspravu, a ne političko prepucavanje.

min čitanja

Više

Vijesti

Pijan vozač pokosio majku i kćer na pješačkom prijelazu, policija ga uhvatila dan poslije

Teško ozlijeđena djevojčica, vozač vozio s gotovo 3 promila alkohola i pobjegao; policija ga privela dan nakon nesreće u zagrebačkim Dugavama.

min čitanja

Više

Nogomet

Iran unatoč ratu i prijetnjama i dalje računa na nastup na Svjetskom prvenstvu

Azijska nogometna konfederacija poručuje da Iran unatoč ratu i sigurnosnim upozorenjima ostaje u planu za Svjetsko prvenstvo 2026.

min čitanja

Više

Nogomet

Chelsea pod sankcijama: rekordna kazna zbog Abramovičeve ere

Premier liga kaznila je Chelsea s 10,75 milijuna funti i zabranila mu devet mjeseci dovođenja igrača u akademiju zbog nepravilnosti u Abramovičevoj eri.

min čitanja

Više