OpenAI je ovoga tjedna javno priznao ono što stručnjaci za sigurnost upozoravaju već godinama – prompt injection neće nestati. U objavi posvećenoj utvrđivanju ChatGPT Atlasa kompanija je otvoreno poručila: „Priroda prompt injectiona čini determinističke sigurnosne garancije izazovnima.”
Zašto je to važno
- Agent-mod širi napadnu površinu. Kako se organizacije pomiču od kopilota prema autonomnim agentima, svaka dozvoljena akcija umjetne inteligencije postaje nova prilika za zlouporabu.
- Samo trećina poduzeća ima posebne alate za filtriranje promptova i otkrivanje zloupotreba. U anketi provedenoj među 100 tehničkih rukovoditelja 34,7 % ispitanika potvrdilo je da je implementiralo posvećenu zaštitu, dok se preostalih 65,3 % ili nije zaštitilo ili ne zna kakvo je stanje u njihovoj tvrtki.
- OpenAI-eve najnaprednije obrane teško je kopirati. Tvrtka raspolaže white-box pristupom vlastitim modelima i računalnim resursima za neprekidno simuliranje napada, što većini poduzeća nije dostupno.
Kako izgleda nova obrana
• Automatizirani napadač pokretan velikim jezičnim modelom i potkrepljenim učenjem sam osmišljava injekcije, simulira ponašanje napadnutog agenta i iterira dok ne pronađe propust. • Tako su otkriveni obrasci napada koje ljudski timovi nisu uočili – primjerice skrivena uputa u elektroničkoj pošti zbog koje je agent umjesto uobičajenog „out of office” odgovora sastavio pismo ostavke i poslao ga direktorici korisnika. • Nakon svakog novog scenarija model se dodatno trenira na zlonamjernim primjerima, a sustav dobiva dodatne zaštitne slojeve izvan samog LLM-a.
Što preporučuje OpenAI
– Koristite odjavljeni način rada kada agentu ne trebaju ovlasti za prijavu na servise. – Pažljivo provjerite sve zahtjeve za potvrdom prije nego što agent pošalje poruke ili izvrši kupnju. – Izbjegavajte široke naloge poput „pregledaj mi e-poštu i poduzmi što treba” jer daju napadaču preveliki manevarski prostor.
Tri praktične posljedice
- Što je agent samostalniji, to je veća opasnost. Ograničavanje ovlasti i pristupa smanjuje rizik.
- Detekcija postaje važnija od prevencije. Budući da potpuna sigurnost nije moguća, ključno je brzo uočiti neuobičajeno ponašanje.
- Dilema „kupiti ili sam razviti” je aktualna. Specijalizirani dobavljači nude alate za obranu od prompt injectiona, ali većina poduzeća još oklijeva – često sve dok incident ne natjera na akciju.
Zaključak
OpenAI je službeno potvrdio: prompt injection je trajna i sofisticirana prijetnja. Organizacije koje su već uvele posvećene mehanizme zaštite barem mogu detektirati napad kad se dogodi. One koje se oslanjaju isključivo na zadane postavke modela i interne smjernice ostaju izložene – i to sve više, kako se jaz između primjene umjetne inteligencije i njezina osiguranja širi.