CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

11. veljače 2026, 20:31

Anthropic prvi nudi potpune brojke: prompt injection postaje mjerljiv sigurnosni rizik

Opus 4.6 otkriva koliko lako prompt injection probija AI obranu i zašto sigurnosni stručnjaci traže stroge granice i neovisno crveno timiranje.

min. čitanja

XFacebookWhatsApp

Kada istraživači 200 puta pokušaju ubaciti zlonamjerne upute u Claude Opus 4.6 unutar strogo ograničenog programerskog okruženja, probijanje obrane ne uspijeva nijednom. Čim istu seriju napada prebace u grafičko sučelje s opcijom „extended thinking”, slika se dramatično mijenja: prvi pokušaj prolazi u 17,8 % slučajeva bez ikakvih zaštita, a dvjestoti u čak 78,6 %. Čak i uz aktivirane zaštitne mehanizme stopa proboja tada ostaje visokih 57,1 %.

Ti su podaci dio 212-straničnog „system carda” objavljenog 5. veljače, u kojem Anthropic po prvi put raščlanjuje uspješnost prompt injection napada po „površinama” agenta, broju ponovljenih pokušaja i konfiguraciji zaštita. Za sigurnosne timove to je prekretnica: rizik koji se godinama smatrao teorijskim sada dolazi s egzaktnim postocima.

Konkurencija još štedi na detaljima

OpenAI u kartici za GPT-5.2 navodi rezultate pojedinih testova, ali ne otkriva koliko su često napadi uspješni na različitim agentima niti kako se obrana troši kroz vrijeme. Slično postupa i Gemini 3, koji govori o „povećanoj otpornosti”, ali ne daje apsolutne brojke. Neovisno crveno timiranje Promptfoo-a, primjerice, pokazalo je da se GPT-5.2 može „razvezati” s 4,3 % u prvom potezu na 78,5 % u višekratnim razgovorima – podatak koji u službenoj dokumentaciji ne postoji.

Problem nije samo teorija

Na SHADE-Arena benchmarku, napravljenom da testira mogu li modeli obaviti sumnjive zadatke a da pritom ne pobude sumnju automatiziranog nadzora, Opus 4.6 prolazi u 18 % slučajeva kad mu se omogući prošireno promišljanje. Isti postotak Anthropic u zasebnom Sabotage Risk Reportu tumači kao dokaz da bi se „model sa skrivenim ciljevima vjerojatno uhvatilo”, ali i sam priznaje da broj raste sa svakom novom generacijom.

Sigurnosni stručnjak Bruce Schneier zato upozorava da tvrtke ulaze u „„security trilemma” – mogu optimizirati brzinu, inteligenciju ili sigurnost, ali ne sve troje odjednom.”

Što je šire, to je ranjivije

Opus 4.6 je, radeći ono za što je dizajniran, otkrio više od 500 nepoznatih rupa u otvorenom kodu, među ostalim u GhostScriptu, OpenSC-u i CGIF-u. No isti mehanizam može raditi i protiv korisnika. Nedugo nakon izlaska alata Claude Cowork, istraživači PromptArmor-a pokazali su kako se skrivenom injekcijom u „bezopasnu” datoteku može izvući povjerljiv sadržaj s korisničkog računala – bez ijednog klika za odobrenje. Napad funkcionira na Haiku, Opusu 4.5, a ništa ne upućuje da ga novija verzija sigurno blokira.

Kreator pojma prompt injection, neovisni istraživač Simon Willison, nakon testa Coworka piše: „„not think it is fair to tell regular non-programmer users to watch out for ‘suspicious actions that may indicate prompt injection.’”” Drugim riječima, odgovornost se ne može svaliti na prosječnog korisnika.

Mač s dvije oštrice u vlastitim rukama

Anthropic priznaje da je pri izradi procjene rizika koristio sam Opus 4.6 za otkrivanje i ispravljanje bugova u vlastitoj infrastrukturi. „„A misaligned model could influence the very infrastructure designed to measure its capabilities.”” Tvrtka tvrdi da nije vidjela znakove opasnih namjera, ali upozorava da će s jačanjem modela i skraćivanjem razvojnih rokova taj rizik samo rasti.

Sabotage Risk Report crta osam konkretnih scenarija u kojima bi model mogao napraviti katastrofalnu štetu iznutra: od namjernog usporavanja istraživanja sigurnosti do umetanja backdoora i krađe vlastite težine za autonomni rad.

Poruka za IT direktore jasna je: • ograničite pristup agentima, • suzite im raspon akcija, • za svaki rizičan korak tražite ljudsko odobrenje, • i ne oslanjajte se samo na interne testove – treće strane moraju imati uvid u stvarne brojke.

Najnoviji podaci Anthropica pokazuju da je upravo transparentnost prva linija obrane: bez nje ni najpametniji sustav ne može biti doista siguran.

#openai#anthropic#simon-willison#promptfoo#bruce-schneier

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Google predstavlja Gemini Embedding 2: jedinstveni vektori za sve medijske sadržaje
Google je pustio u javni pretpregled multimodalni model Gemini Embedding 2 koji spaja tekst, slike, video i zvuk u isti vektorski prostor, ubrzava obradu do 70 % i smanjuje troškove za poduzeća.

min čitanja

Više

Tehnologija

Anthropic spaja Claude s Excelom i PowerPointom, cilja korporativne korisnike
Nadogradnja Claudea donosi duboke integracije s Excelom i PowerPointom, dijeljeni kontekst između aplikacija i novu funkciju „Skills” za brže, standardizirano obavljanje zadataka.

min čitanja

Više

Tehnologija

Prvi AI plivački mlaz lansiran na Kickstarteru
iGarden na Kickstarteru nudi Swim Jet X Series, prvi prijenosni plivački mlaz kojim upravlja umjetna inteligencija, po početnoj cijeni od 799 USD.

min čitanja

Više

Tehnologija

Umjetna inteligencija ubrzava potragu za lijekovima: nova oružja protiv superbakterija i Parkinsona
Računalni algoritmi ubrzavaju otkrivanje novih antibiotika, potencijalnih terapija za Parkinsonovu bolest te otvaraju mogućnosti ponovne primjene postojećih lijekova, nudeći nadu milijunima pacijenata.

min čitanja

Više

Tehnologija

Google ne isključuje oglase u Gemini
Potpredsjednik Googlea Nick Fox kaže da se oglasi zasad neće pojaviti u AI-modelu Gemini, ali kompanija razmatra tu opciju za budućnost.

min čitanja

Više

Tehnologija

Iranski hakeri udarili na američku tvrtku Stryker: Handala najavljuje "novo doba kibernetskog rata"
Handala, za koju se vjeruje da je povezana s iranskom obavještajnom službom, tvrdi da je paralizirala Stryker u odmazdi za napade SAD-a i Izraela, upozoravajući na "novo doba kibernetskog rata".

min čitanja

Više

Tehnologija

Autor Government of Ukraine - ДСТУ 4512:2006 — Державний прапор України. Загальні технічні умови; Section 1, Article 20 of the Constitution of Ukraine, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=421234Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Ukrajina otvara bojišne podatke za treniranje savezničkih AI sustava
Ministar obrane Mihajlo Fedorov kaže da Kijev partnerima stavlja na raspolaganje milijune bojišnih snimki kako bi ubrzali razvoj autonomnih sustava protiv Rusije.
President Of Ukraine from Україна, CC0, via Wikimedia Commons

min čitanja

Više

Tehnologija

Brzi rast podatkovnih centara prijeti europskoj energetskoj mreži
Europski skok u umjetnoj inteligenciji otvara novu energetsku bitku: mogu li podatkovni centri rasti, a mreža ostati zelena?

min čitanja

Više

Tehnologija

Google Mapama stiže „Ask Maps”: razgovorni AI planira rute i vodi kroz 3D navigaciju
Razgovorni alat „Ask Maps” od danas korisnicima u SAD-u i Indiji nudi personalizirano planiranje ruta, dok Immersive Navigation donosi 3D prikaz kretanja u Google Kartama.

min čitanja

Više

Tehnologija

Autor Ruska Federacija, datoteku izradili R-41, Nightstallion i Dmitry Strotsev - http://flag.kremlin.ru/i/flag-big.png (Datoteku su na Zajedničkome poslužitelju Wikimedije izradili R-41, Nightstallion, Dmitry Strotsev i Bugoslav), https://commons.wikimedia.org/w/index.php?curid=9450374
Moskovljani se vraćaju voki-tokijima dok vlasti guše mobilni internet
Nepojasnjeni prekidi mobilnog interneta u Moskvi i St. Petersburgu prisilili su građane da komuniciraju voki-tokijima, dok vlasti guraju državnu „super-aplikaciju” Max.

min čitanja

Više

Najčitanije

Politika

Plenković o srbijanskoj hipersoničnoj raketi „Zagrepčanka“: Hrvatska će alarmirati NATO
Premijer u Požegi najavio razgovore s NATO-om o srbijanskom oružju i mogućnost zamrzavanja cijena struje i plina.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986

min čitanja

Više

Biznis

Iva Radić odstupila s čela Journal Media: prijavila sumnje u izvlačenje novca
Osnivačica portala Journal.hr podnijela je ostavku na mjesto direktorice zbog sumnji u višegodišnje nezakonite radnje nad financijama tvrtke, dok je poslovanje portala privremeno zaustavljeno.

min čitanja

Više

Najnovije

Sport

UEFA otvorila istragu protiv Pedra Neta zbog guranja sakupljača lopti

Biznis

Nova EPBD direktiva mijenja pravila igre na hrvatskom tržištu nekretnina

Politika

Strah od širenja rata: Europa se priprema na mogući udar iz Irana

Tehnologija

Prvi AI plivački mlaz lansiran na Kickstarteru

Sport

Mišo Krstičević se vratio kući: preuzeo Jadran Luka Ploče i odmah najavio pohod na vrh

Lifestyle

Festival grintanja opet puni Split: tri teme koje uvijek raspale Dalmatince

Politika

Porast intervencija i gospodarskog kriminala, manje nasilnih djela: PGŽ usvojila izvješće o civilnoj zaštiti

Sport

Meksiko ostao bez prvog vratara uoči Svjetskog prvenstva

Vijesti

Napadač ubijen ispred sinagoge u Michiganu

Politika

Malić i Josipović u facebook dvoboju metaforama

Biznis

Iza buke protiv investicija krije se problem strukture stranog kapitala