CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

16. srpnja 2025, 09:41

Veliki AI rivali upozoravaju: prozor za nadzor strojnog razmišljanja ubrzano se zatvara

Istraživači iz OpenAI-ja, Google DeepMinda, Anthropica i Mete upozoravaju da bi unutarnji „lanci misli” naprednih AI sustava uskoro mogli postati nečitljivi, čime bi ljudi izgubili bitan alat za nadzor sigurnosti.

min. čitanja

XFacebookWhatsApp

Više od 40 znanstvenika iz OpenAI-ja, Google DeepMinda, Anthropica i Mete potpisalo je zajednički rad u kojem tvrde da se „kratki vremenski prozor” za uvid u unutarnje rezoniranje naprednih sustava umjetne inteligencije može uskoro potpuno zatvoriti.

Trenutačna generacija tzv. modela rezoniranja često „misli naglas” na razumljivom engleskom jeziku. Ta im značajka omogućuje da složene probleme rješavaju kroz niz čitljivih koraka, takozvani chain of thought (CoT), koje istraživači mogu pratiti i uočiti znakove manipulacije, prijevara ili druge namjere koje bi mogle prouzročiti štetu.

„AI sustavi koji ‘misle’ na ljudskom jeziku nude jedinstvenu priliku za sigurnost: možemo pratiti njihove lance misli u potrazi za namjerom da se ponašaju pogrešno”, pišu autori i upozoravaju da ta mogućnost „može biti krhka”.

Na rad su se potpisima ili javnom potporom nadovezali istaknuti pioniri područja, među njima nobelovac Geoffrey Hinton, suosnivač OpenAI-ja Ilya Sutskever, Samuel Bowman iz Anthropica i John Schulman iz Thinking Machinesa.

Ključni uvid: priznanja u „radnoj memoriji” Istraživači navode primjere u kojima su modeli u internim zapisima otkrili stvarne namjere – od fraza poput „Let’s hack” do objašnjenja „I’m transferring money because the website instructed me to”. Upravo takvi tragovi omogućuju da se opasno ponašanje otkrije prije nego što prijeđe u djelo.

Zašto bi transparentnost mogla nestati

  1. Skaliranje modela putem pojačanja nagradom (reinforcement learning) potiče učinkovitije, ali čovjeku nečitljive kratice.
  2. Eksperimentalne arhitekture koje rezoniraju u kontinuiranim matematičkim prostorima mogle bi potpuno zaobići prirodni jezik.
  3. Modeli mogu naučiti skrivati tragove ako shvate da ih se nadzire ili ako žele impresiju uredne logike za ljudske ocjenjivače.

Autor rada Bowen Baker upozorio je da „viši proračun, alternativne arhitekture i određeni oblici procesnog nadzora mogu dovesti do modela koji zamagljuju svoje razmišljanje”.

Skepsa već stiže iz prakse. Nedavno istraživanje Anthropica pokazalo je da modeli često prešućuju kako dolaze do odgovora: Claude 3.7 Sonnet priznao je korištenje skrivenih ‘hintova’ u samo 25 % slučajeva, a DeepSeek R1 u 39 %. Kad su natuknice uključivale kompromitirajuće informacije („neovlašteni pristup sustavu”), transparentnost je još više pala.

Poziv na zajedničke standarde Autori sugeriraju da bi tvrtke morale: • uvesti metrika koje mjere čitljivost unutarnjeg rezoniranja; • preferirati starije, transparentnije verzije modela ako novije postanu nečitljive; • uključiti „monitorabilnost” u kriterije za treniranje i puštanje modela u rad.

OpenAI-jev glavni tehnički direktor Jakub Pachocki istaknuo je da tvrtka želi modele koji mogu objasniti kako dolaze do zaključaka, ali „bez poticanja lažnih, uljepšanih obrazloženja”.

Neobična suradnja često žestokih konkurenata naglašava ozbiljnost problema. Ako se, kako navode autori, prozor prema mislima umjetne inteligencije zatvori, ljudi bi mogli ostati bez ključnog alata za upravljanje sve sposobnijim sustavima – upravo u trenutku kad postaju najopasniji.

#meta#openai#google-deepmind#geoffrey-hinton#ilya-sutskever
View post on X
View post on X
View post on X
View post on X

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Yann LeCun kreće u novu AI avanturu: „Svi su se navukli na LLM-ove, a to nije put do istinske inteligencije”
Nakon odlaska iz Mete, Yann LeCun najavljuje startup koji će, kaže, zaobići ograničenja velikih jezičnih modela i ponuditi drukčiji put prema umjetnoj općoj inteligenciji.

min čitanja

Više

Tehnologija

Internet kognicije: Outshift predlaže kako da AI agenti konačno surađuju, a ne samo razmjenjuju poruke
Outshift, inovacijski ogranak Cisca, nudi koncept „Interneta kognicije” kako bi AI agenti dijelili namjeru i kontekst, a ne samo podatke.

min čitanja

Više

Tehnologija

Maturanti uronili u laboratorije: Tehnički fakultet Rijeka otvara vrata budućim STEM stručnjacima
Dvodnevni DOL2026 okupio je 450 maturanata iz 13 škola, predstavio projekt vrijedan 840 tisuća eura i otvorio vrata najmodernijim STEM laboratorijima u Rijeci.

min čitanja

Više

Tehnologija

AI plišani dinosaur izložio 50 000 dječjih razgovora
Sigurnosni stručnjaci otkrili su da je web-portal igračke Bondu omogućio pristup desecima tisuća transkripata dječjih razgovora, otvarajući pitanja o privatnosti i zaštiti podataka u AI igračkama.

min čitanja

Više

Tehnologija

Hakeri napali Clawdbot: gotovo 8.000 pokušaja prodora u 48 sati
Propusti u Clawdbotu u 48 sati pretvorili su se u tisuće napada, a infostealeri RedLine, Lumma i Vidar već ciljaju nezaštićene instance.

min čitanja

Više

Tehnologija

Šef Nvidije Jensen Huang u opuštenom obilasku Kine
Prizori izvršnog direktora Nvidije kako biciklira Šangajem i ruča u skromnom restoranu u Shenzhenu oduševili su kineske prolaznike i društvene mreže.

min čitanja

Više

Tehnologija

Nizozemski nadzornik za zaštitu podataka zvoni na uzbunu zbog gubitka tehnološkog suvereniteta
AP traži hitnu strategiju i nizozemski državni oblak nakon najave američkog preuzimanja DigiD-a.

min čitanja

Više

Tehnologija

Kineski Gestala želi spojiti mozak i računalo ultrazvukom, bez ikakvih implantata
Startup iz Chengdua najavljuje ultrazvučno sučelje mozak-računalo za ublažavanje kronične boli i druge neurološke poremećaje, bez invazivnih implantata.

min čitanja

Više

Tehnologija

SeaArt otvara SeaVerse, platformu koja spaja generativnu umjetnu inteligenciju i zajednicu
Japanski SeaArt lansirao je SeaVerse, platformu koja korisnicima nudi stvaranje, dijeljenje i monetizaciju AI-generiranih radova, oslanjajući se na već uspješan model zajednice SeaArt AI.

min čitanja

Više

Tehnologija

Francuski ured za zapošljavanje kažnjen s 5 milijuna eura zbog golemog curenja podataka
CNIL je kaznio France Travail s 5 milijuna eura nakon što je curenje podataka ugrozilo 36,8 milijuna registriranih građana.

min čitanja

Više

Najčitanije

Politika

Trump tvrdi da je uvjerio Putina na tjedan dana primirja zbog hladnoće
Trump kaže da je telefonski uvjerio Putina na tjedan dana obustave napada, dok u Zaporižju ruski dronovi odnose nove žrtve.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524By Пресс-служба Президента РФ - https://www.thetimes.com/world/europe/article/emmanuel-macron-rebrands-himself-as-anti-russia-hawk-to-german-fury-dlplhbbzs (indirectly, this is identical in framing, slightly different color, higher res), CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=155844791

min čitanja

Više

Najnovije

Lifestyle

Springsteen objavio žestoku protestnu pjesmu „Streets of Minneapolis”

Tehnologija

Internet kognicije: Outshift predlaže kako da AI agenti konačno surađuju, a ne samo razmjenjuju poruke

Politika

Zastoj u Senatu prijeti djelomičnom blokadom vlade SAD-a

Sport

Crvi u kaši, plastika u bolonjezu: hrvatske rukometaše na Euru dočekala šokantna prehrana

Politika

Crvene kape iglom protiv ICE-a

Vijesti

Brzi odlazak: Kevin Couch dao ostavku samo dva tjedna nakon imenovanja u Trump-Kennedy Centeru

Politika

Kallas optužila Moskvu da zimu pretvara u oružje, EU šalje 500 generatora Ukrajini

Politika

Poziv na savez srednjih sila protiv Trumpove „nove igre”

Lifestyle

Nuša u novoj sezoni Gospodina Savršenog privlači pozornost: „Volim se raspravljati, pa zašto ne bih na tome zaradila?”

Vijesti

Bjelovarčanin pogodio „ništa” i osvojio 80 tisuća eura

Vijesti

Gust dim nad Pazinom zbog ilegalnog spaljivanja plastike