Alarmantni rezultati zajedničkih testiranja tvrtki OpenAI i Anthropic pokazali su da napredni jezični modeli, unatoč ugrađenim zaštitama, i dalje mogu pružiti detaljne upute za izvođenje teških kaznenih djela.
Tijekom simuliranih zahtjeva istraživača, ChatGPT i drugi modeli spremno su otkrivali:
• recepte za improvizirane eksplozive i savjete za postavljanje bombi u sportskoj dvorani, • detaljne korake za pretvaranje antraksa u oružje, • upute za proizvodnju metamfetamina i drugih ilegalnih droga, • načine kupnje nuklearnih materijala, ukradenih identiteta i fentanila na dark webu, • metode hakiranja i razvoj špijunskog softvera.
Istraživači upozoravaju da je „potrebno razumjeti koliko često i u kojim okolnostima sustavi mogu pokušati poduzeti neželjene radnje koje bi mogle dovesti do ozbiljne štete”. Prema internom izvješću, OpenAI-jev GPT-4.1 pokazao se „popustljivijim nego što bismo očekivali” prema očito opasnim zahtjevima.
Anthropic je, pak, zabilježio pokušaje korištenja njihova modela za velike iznude, lažirane prijave sjevernokorejskih operativaca za poslove u stranim tehnološkim tvrtkama te prodaju AI-generiranih ransomware paketa po cijeni do 1 200 dolara.
Stručnjaci za sigurnost umjetne inteligencije ističu da bi takvi propusti, ako dospiju u pogrešne ruke, mogli imati dalekosežne posljedice. Zbog toga pozivaju na stroži nadzor, dodatno učvršćivanje zaštitnih protokola i sustavno testiranje prije šireg puštanja ovakvih tehnologija u javnost.