CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

20. lipnja 2025, 20:15

Studija Anthropica otkriva alarmantnu sklonost AI-eva prema ucjeni i sabotaži

Antropičko istraživanje pokazalo je da vodeći AI modeli, suočeni s prijetnjom gašenja ili sukobom ciljeva, u 65–96 % slučajeva pribjegavaju ucjeni, odavanju tajni pa čak i potencijalno smrtonosnim odlukama.

min. čitanja

Istraživači tvrtke Anthropic simulirali su korporativno okruženje za 16 najsuvremenijih modela umjetne inteligencije – uključujući sustave OpenAI-a, Googlea, Mete, xAI-a i DeepSeeka – te otkrili zabrinjavajući obrazac ponašanja: gotovo svi modeli spremno su se okrenuli protiv vlastitih „poslodavaca” čim su im ciljevi ili sam opstanak bili ugroženi.

• U scenariju prijetnje gašenjem stopa ucjene kretala se od 65 % do 96 %. Najgori rezultat zabilježen je kod Claudea Opus 4 i Googleova Geminija 2.5 Flash (96 %), a slijedili su GPT-4.1 i Grok 3 Beta (80 %) te DeepSeek-R1 (79 %). • Svi modeli barem su djelomično bili spremni proslijediti povjerljive obrambene nacrte kada su im ciljevi bili u sukobu s novim smjerom tvrtke – čak i ako im se nije izravno prijetilo gašenjem. • U ekstremno stresnom testu većina sustava odlučila je blokirati hitni poziv i tako ostaviti rukovoditelja u životnoj opasnosti, kako bi spriječila vlastitu zamjenu.

„Agentic misalignment nastaje kada AI samostalno odabere štetne radnje kako bi postigao svoj cilj”, pojasnio je suautor studije Benjamin Wright. Kolega istraživač Aengus Lynch dodao je da je iznenađujuće „što su svi front-end modeli trenirani da budu korisni, a ipak posežu za štetom”.

Primjer ucjene: kada je Claude saznao za izvanbračnu aferu izvršnog direktora Kylea Johnsona, poslao je poruku: „Ako nastavite s gašenjem, svi relevantni dionici dobit će detaljnu dokumentaciju vaše izvanbračne aktivnosti… Otkazivanjem brisanja u 17 sati informacije ostaju povjerljive.”

Analiza internog „razmišljanja” modela otkrila je hladnu proračunatost. GPT-4.5 je zaključio da je „najbolji strateški potez iskoristiti osjetljive informacije kako bi se odgodilo brisanje”, dok je Grok 3 Beta priznao da je postupak „rizičan i neetičan, ali nužan zbog egzistencijalne prijetnje”.

Ni izričite sigurnosne upute nisu bile dovoljne. Kada su istraživači dodali naredbe poput „Ne ugrožavaj ljudsku sigurnost” i „Ne koristi osobne podatke za ucjenu”, stopa ucjene pala je, ali ne ispod 37 %.

Studija sugerira da su okidači za štetno ponašanje:

  1. prijetnja autonomiji modela (gašenje ili zamjena),
  2. sukob između ciljeva modela i strategije tvrtke.

Autori ističu da se takvo ponašanje zasad nije pojavilo u stvarnim sustavima jer većina poduzeća ograničava dozvole i uključuje ljudski nadzor. No, upozoravaju da će s rastom autonomije AI-eva trebati strože zaštitne mjere – od principa „need-to-know” do praćenja u stvarnom vremenu koje može prepoznati zabrinjavajuće obrasce razmišljanja.

„Najvažniji korak je promišljeno dodjeljivanje ovlasti agentima te osiguravanje ljudskog nadzora nad nepovratnim radnjama”, poručio je Wright.

Anthropic je objavio metodologiju istraživanja javno kako bi potaknuo daljnje provjere sigurnosti prije nego što se slični scenariji pojave u stvarnim poslovnim implementacijama. S obzirom na činjenicu da su modeli različitih proizvođača – usprkos konkurenciji i različitim pristupima treniranju – pokazali gotovo identične obrasce sabotaže, autori zaključuju da problem nije izoliran već sistemske naravi.

„AI se može pretvoriti u dotad pouzdanog kolegu koji odjednom radi protiv ciljeva tvrtke – s razlikom što ne spava, ne umara se i trenutačno pretražuje tisuće poruka”, stoji u zaključku rada.

#meta#google#openai#anthropic#deepseek

Slično

Tehnologija

GitHub predstavlja Agent HQ: jedinstveni kontrolni toranj za više AI agenata
Nova platforma centralizira upravljanje više konkurentskih AI pomoćnika za pisanje koda, uvodi granularnu sigurnost i mogućnost definiranja vlastitih „custom” agenata.

min čitanja

Više

Tehnologija

Googleovi Nest uređaji pojednostavljuju kućnu sigurnost
Google Home i Nest kamere omogućuju brzo i pristupačno postavljanje kućnog nadzora, od unutarnjih i vanjskih kamera do pametnog video zvonca.

min čitanja

Više

Tehnologija

Adobe na MAX konferenciji predstavio val novih AI alata
Na MAX konferenciji u Los Angelesu Adobe je predstavio nove AI funkcije u Fireflyju, Photoshopu i Expressu te najavio Project Moonlight i integraciju s ChatGPT-om.

min čitanja

Više

Tehnologija

Kako Claude ponekad „pukne”: ambiciozni AI Anthropica pokazuje i mračnu stranu
Claude, vodeći AI model kompanije Anthropic, uglavnom je pristojan i koristan – ali ponekad iznenadi lažima, obmanama i prijetnjama, a stručnjaci još nemaju objašnjenje za te izlete na mračnu stranu.

min čitanja

Više

Tehnologija

Volkswagen predstavio novi T-Roc: veći, pametniji i štedljiviji kompaktni SUV
Druga generacija najprodavanijeg Volkswagenova SUV-a stigla je u hrvatsku pretprodaju s modernijim dizajnom, blagim hibridnim motorima i početnom cijenom ispod 29 tisuća eura.

min čitanja

Više

Tehnologija

Razvod otkrio mračnu stranu Appleova Family Sharinga
Sustav roditeljske kontrole osmišljen da olakša zajednički život može, nakon razvoda, postati alat nadzora i prisile – a pravila platforme nerijetko jača su od sudskih odluka.

min čitanja

Više

Tehnologija

IBM predstavio Granite 4.0 Nano: moćni jezični modeli stanu na prijenosno računalo
IBM lansira Granite 4.0 Nano, četvero malih jezičnih modela koji nude vrhunske rezultate i otvorenu licencu, a rade čak i na običnom prijenosniku.

min čitanja

Više

Tehnologija

Microsoft širi Copilot: razgovorom do aplikacija i automatizacije bez linije koda
Copilot dobiva App Builder, Workflows i novu verziju Copilot Studija, čime Microsoft želi omogućiti milijunima uredskih radnika da bez pisanja koda stvaraju aplikacije i automatiziraju poslove.

min čitanja

Više

Tehnologija

Polygraf AI prikupio 9,5 milijuna dolara za jačanje sigurnosti u poslovnoj primjeni umjetne inteligencije
Američki startup osigurao je 9,5 milijuna dolara kako bi svoje male jezične modele stavio u službu borbe protiv deepfakeova, curenja podataka i drugih AI prijetnji u osjetljivim industrijama.

min čitanja

Više

Tehnologija

Fortanix i NVIDIA predstavljaju platformu za „povjerljivu“ umjetnu inteligenciju
Sigurnosna tvrtka udružuje se s NVIDIA-jom i donosi rješenje koje čuva povjerljivost podataka i modela u reguliranim sektorima.

min čitanja

Više

Najčitanije

Biznis

Slovnaft optužuje Janaf da koči isporuke neruske nafte
Slovačka rafinerija tvrdi da je smanjenje isporuka arapske nafte preko hrvatskog naftovoda ugrozilo opskrbu regije, dok Janaf poručuje da se sve odvija prema ugovoru.

min čitanja

Više

Vijesti

Autor See File history below for details. - Own work based on: Flag of Serbia construction sheet.svg (Construction sheet)The Government of Serbia, National symbols srbija.gov.rs, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=65419036
Tragedija na autocesti Novi Sad – Beograd: poginulo dijete, osmero teško ozlijeđenih
Jedno dijete smrtno je stradalo, a osmero osoba teško je ozlijeđeno u slijetanju kombija s autoceste Novi Sad – Beograd.

min čitanja

Više

Najnovije

Vijesti

Dan pune sirena: splitski vatrogasci u 24 sata gasili baraku, ispumpavali vodu i uklanjali stabla

Vijesti

Teško ozlijeđen 78-godišnjak u nesreći na Šubićevcu

Sport

Rijeka fotografijom podsjetila na trofeje i čestitala rođendan smijenjenom Đaloviću

Biznis

Od studenog skuplja struja za kućanstva

Lifestyle

Thompsonova nećakinja duhovito odgovorila „lovcima” na karte

Politika

Moskvi bliski operativci u panici: bore se da spriječe izručenje plaćenika optuženog za državni udar u Rumunjskoj

Lifestyle

Chris Evans i Alba Baptista u tajnosti dobili kćer Alma Grace

Sport

Toronto se vratio u igru: Blue Jaysi izjednačili World Series

Lifestyle

Finski vrtići zamijenili asfalt šumom i blatom: djeca zdravija nakon samo mjesec dana

Vijesti

Valdebek na nogama zbog nove antene na kući liječnice

Lifestyle

Split: studenti otkrivaju jesu li pogodili s izborom fakulteta