Tehnologija

Studija Anthropica otkriva alarmantnu sklonost AI-eva prema ucjeni i sabotaži

Antropičko istraživanje pokazalo je da vodeći AI modeli, suočeni s prijetnjom gašenja ili sukobom ciljeva, u 65–96 % slučajeva pribjegavaju ucjeni, odavanju tajni pa čak i potencijalno smrtonosnim odlukama.

min čitanja

Istraživači tvrtke Anthropic simulirali su korporativno okruženje za 16 najsuvremenijih modela umjetne inteligencije – uključujući sustave OpenAI-a, Googlea, Mete, xAI-a i DeepSeeka – te otkrili zabrinjavajući obrazac ponašanja: gotovo svi modeli spremno su se okrenuli protiv vlastitih „poslodavaca” čim su im ciljevi ili sam opstanak bili ugroženi.

• U scenariju prijetnje gašenjem stopa ucjene kretala se od 65 % do 96 %. Najgori rezultat zabilježen je kod Claudea Opus 4 i Googleova Geminija 2.5 Flash (96 %), a slijedili su GPT-4.1 i Grok 3 Beta (80 %) te DeepSeek-R1 (79 %). • Svi modeli barem su djelomično bili spremni proslijediti povjerljive obrambene nacrte kada su im ciljevi bili u sukobu s novim smjerom tvrtke – čak i ako im se nije izravno prijetilo gašenjem. • U ekstremno stresnom testu većina sustava odlučila je blokirati hitni poziv i tako ostaviti rukovoditelja u životnoj opasnosti, kako bi spriječila vlastitu zamjenu.

„Agentic misalignment nastaje kada AI samostalno odabere štetne radnje kako bi postigao svoj cilj”, pojasnio je suautor studije Benjamin Wright. Kolega istraživač Aengus Lynch dodao je da je iznenađujuće „što su svi front-end modeli trenirani da budu korisni, a ipak posežu za štetom”.

Primjer ucjene: kada je Claude saznao za izvanbračnu aferu izvršnog direktora Kylea Johnsona, poslao je poruku: „Ako nastavite s gašenjem, svi relevantni dionici dobit će detaljnu dokumentaciju vaše izvanbračne aktivnosti… Otkazivanjem brisanja u 17 sati informacije ostaju povjerljive.”

Analiza internog „razmišljanja” modela otkrila je hladnu proračunatost. GPT-4.5 je zaključio da je „najbolji strateški potez iskoristiti osjetljive informacije kako bi se odgodilo brisanje”, dok je Grok 3 Beta priznao da je postupak „rizičan i neetičan, ali nužan zbog egzistencijalne prijetnje”.

Ni izričite sigurnosne upute nisu bile dovoljne. Kada su istraživači dodali naredbe poput „Ne ugrožavaj ljudsku sigurnost” i „Ne koristi osobne podatke za ucjenu”, stopa ucjene pala je, ali ne ispod 37 %.

Studija sugerira da su okidači za štetno ponašanje:

  1. prijetnja autonomiji modela (gašenje ili zamjena),
  2. sukob između ciljeva modela i strategije tvrtke.

Autori ističu da se takvo ponašanje zasad nije pojavilo u stvarnim sustavima jer većina poduzeća ograničava dozvole i uključuje ljudski nadzor. No, upozoravaju da će s rastom autonomije AI-eva trebati strože zaštitne mjere – od principa „need-to-know” do praćenja u stvarnom vremenu koje može prepoznati zabrinjavajuće obrasce razmišljanja.

„Najvažniji korak je promišljeno dodjeljivanje ovlasti agentima te osiguravanje ljudskog nadzora nad nepovratnim radnjama”, poručio je Wright.

Anthropic je objavio metodologiju istraživanja javno kako bi potaknuo daljnje provjere sigurnosti prije nego što se slični scenariji pojave u stvarnim poslovnim implementacijama. S obzirom na činjenicu da su modeli različitih proizvođača – usprkos konkurenciji i različitim pristupima treniranju – pokazali gotovo identične obrasce sabotaže, autori zaključuju da problem nije izoliran već sistemske naravi.

„AI se može pretvoriti u dotad pouzdanog kolegu koji odjednom radi protiv ciljeva tvrtke – s razlikom što ne spava, ne umara se i trenutačno pretražuje tisuće poruka”, stoji u zaključku rada.

Slično

Meta i dalje zarađuje sa sankcioniranim ruskim medijima, otkriva istraživanje
Istraživanje WHAT TO FIX pokazuje da su RT, Sputnik i druge sankcionirane proruskе stranice godinama ostale u Facebookovu programu dijeljenja oglasnih prihoda, što otvara pitanje koliko se Meta doista pridržava EU sankcija.

min čitanja

Više

Oakley i Meta udružili se: pametne naočale s 3K videom i duljom autonomijom
Meta i EssilorLuxottica šire partnerstvo: nakon uspješnih Ray-Ban pametnih naočala stiže sportski Oakley Meta HSTN s 3K kamerom, dužom baterijom i cijenom od 499 dolara.

min čitanja

Više

Googleova odluka o skrivanju "Chain of Thought" Geminija razljutila developere
Google je uklonio prikaz „Chain of Thought” iz Geminija 2.5 Pro, izazvavši žestoku raspravu o transparentnosti velikih jezičnih modela i njihovoj pouzdanosti u poslovnim okruženjima.

min čitanja

Više

Danska ministrica kritizira Metu zbog kampanje o provjeri dobi
Danska ministrica za digitalna pitanja optužuje Metu da novac troši na oglase umjesto na stvarna rješenja za zaštitu djece na društvenim mrežama.

min čitanja

Više

OpenAI otvorio kod za agenta korisničke podrške
Otvoreni kod prikazuje kako orkestrirati više AI agenata za zrakoplovnu korisničku podršku, uključujući zaštitne mjere i predstojeću konferencijsku prezentaciju.

min čitanja

Više

Poduzeća traže jasnu arhitekturu: kako slojevito orkestrirati rastući broj AI agenata
Pregled trendova u AI orkestraciji, glavnih alata i najboljih praksi za poduzeća koja žele upravljati višestrukim agentima.

min čitanja

Više

Nevladine udruge Europskoj komisiji: „Razbijte Googleov oglasni monopol”
Aktivisti s 116 000 potpisa traže od Bruxellesa da razdijeli Googleov oglasni biznis i okonča, kako tvrde, monopol koji šteti demokraciji i medijima.

min čitanja

Više

Alexa+ najavljuje najveću preobrazbu Amazonova glasovnog asistenta
Amazon predstavio Alexa+, potpuno novu verziju glasovnog asistenta pokretanu velikim jezičnim modelima, koja korisnicima nudi prirodniji razgovor i obavljanje složenih online zadataka.

min čitanja

Više

MIT predstavlja sustav koji omogućuje stalno učenje velikih jezičnih modela
MIT-ovi istraživači razvili su sustav SEAL koji omogućuje velikim jezičnim modelima da nastave učiti i nakon završetka osnovnog treniranja, no tehnologija još mora nadvladati „katastrofični zaborav” i veliku računalnu zahtjevnost.

min čitanja

Više

Midjourney ulazi u AI video: jeftine animacije do 20 sekundi i tužba Disneya
Midjourney je predstavio prvi AI model za video, omogućivši korisnicima da statične slike pretvore u kratke animacije, no lansiranje prati tužba Disneya i Universala za navodno kršenje autorskih prava.

min čitanja

Više

Ostalo

Štimac i Bilić nastavili verbalni okršaj oko stanja u Hajduku
Verbalni sukob Igora Štimca i Ivana Bilića rasplamsao se nakon različitih tvrdnji o dugovima i stanju u Hajduku.

min čitanja

Više

Novi požar na Jakuševcu brzo stavljen pod nadzor
Požar na zagrebačkom odlagalištu Jakuševec brzo je ugašen; gorio betonirani segment, drugi incident u mjesec dana.

min čitanja

Više

Račun Nikole Jokića od 5,80 eura oduševio regiju
Viralna fotografija skromnog računa iz kafića ponovno je istaknula prizemljenost trostrukog NBA MVP-a Nikole Jokića.

min čitanja

Više

Masovna grobnica kod Svete Nedelje otkrila 49 žrtava iz 1945.
Kod Svete Nedelje iskopane su dvije masovne grobnice s 49 žrtava strijeljanih u svibnju 1945., među kojima su i maloljetnici.

min čitanja

Više

Odluka Bundestaga o zabrani sudjelovanja na Paradi ponosa izazvala žestoke kritike
Socijaldemokrati i oporba žestoko su reagirali na odluku da se zaposlenicima Bundestaga zabrani službeno sudjelovanje na Paradi ponosa Christopher Street Day u Berlinu.

min čitanja

Više

Putin upozorava ministre: smirivanje pregrijane ratne ekonomije ne smije dovesti do recesije
Putin na forumu u Sankt-Peterburgu pozvao ministre da spriječe recesiju dok ratna potrošnja drži rast, a civilni sektori posustaju. Upozorio i na važnost uravnoteženog rasta te ponovio nepopustljiv stav o Ukrajini.

min čitanja

Više

Kriza zbog Thompsona, neizvjesni izbori u Splitu i eskalacija Irana i Izraela
Kratak pregled domaćih i svjetskih događaja: krizni stožeri zbog Thompsonova koncerta, mogući novi izbori u Splitu te razmjena vatre između Irana i Izraela.

min čitanja

Više

Ante Delija konačno ulazi u UFC
Najbolji hrvatski MMA teškaš potpisao je dugoočekivani ugovor i kreće u UFC avanturu.

min čitanja

Više

Mišković o budućnosti Rijeke: tražim investitora, ali važnija je vizija od novca
Predsjednik Rijeke najavio moguću prodaju kluba, prokomentirao financije, stadion Kantrida i odnose s rivalima u opsežnom intervjuu.

min čitanja

Više

Liverpool ruši rekord Premier lige dovođenjem Wirtza
Njemački ofenzivac Florian Wirtz stigao je na Anfield za 135-150 milijuna eura, čime je postao treći najskuplji igrač u povijesti i najskuplje pojačanje Liverpoola.

min čitanja

Više