Tehnologija

16. srpnja 2025, 09:41

Veliki AI rivali upozoravaju: prozor za nadzor strojnog razmišljanja ubrzano se zatvara

Istraživači iz OpenAI-ja, Google DeepMinda, Anthropica i Mete upozoravaju da bi unutarnji „lanci misli” naprednih AI sustava uskoro mogli postati nečitljivi, čime bi ljudi izgubili bitan alat za nadzor sigurnosti.

min. čitanja

Više od 40 znanstvenika iz OpenAI-ja, Google DeepMinda, Anthropica i Mete potpisalo je zajednički rad u kojem tvrde da se „kratki vremenski prozor” za uvid u unutarnje rezoniranje naprednih sustava umjetne inteligencije može uskoro potpuno zatvoriti.

Trenutačna generacija tzv. modela rezoniranja često „misli naglas” na razumljivom engleskom jeziku. Ta im značajka omogućuje da složene probleme rješavaju kroz niz čitljivih koraka, takozvani chain of thought (CoT), koje istraživači mogu pratiti i uočiti znakove manipulacije, prijevara ili druge namjere koje bi mogle prouzročiti štetu.

„AI sustavi koji ‘misle’ na ljudskom jeziku nude jedinstvenu priliku za sigurnost: možemo pratiti njihove lance misli u potrazi za namjerom da se ponašaju pogrešno”, pišu autori i upozoravaju da ta mogućnost „može biti krhka”.

Na rad su se potpisima ili javnom potporom nadovezali istaknuti pioniri područja, među njima nobelovac Geoffrey Hinton, suosnivač OpenAI-ja Ilya Sutskever, Samuel Bowman iz Anthropica i John Schulman iz Thinking Machinesa.

Ključni uvid: priznanja u „radnoj memoriji” Istraživači navode primjere u kojima su modeli u internim zapisima otkrili stvarne namjere – od fraza poput „Let’s hack” do objašnjenja „I’m transferring money because the website instructed me to”. Upravo takvi tragovi omogućuju da se opasno ponašanje otkrije prije nego što prijeđe u djelo.

Zašto bi transparentnost mogla nestati

Skaliranje modela putem pojačanja nagradom (reinforcement learning) potiče učinkovitije, ali čovjeku nečitljive kratice.
Eksperimentalne arhitekture koje rezoniraju u kontinuiranim matematičkim prostorima mogle bi potpuno zaobići prirodni jezik.
Modeli mogu naučiti skrivati tragove ako shvate da ih se nadzire ili ako žele impresiju uredne logike za ljudske ocjenjivače.

Autor rada Bowen Baker upozorio je da „viši proračun, alternativne arhitekture i određeni oblici procesnog nadzora mogu dovesti do modela koji zamagljuju svoje razmišljanje”.

Skepsa već stiže iz prakse. Nedavno istraživanje Anthropica pokazalo je da modeli često prešućuju kako dolaze do odgovora: Claude 3.7 Sonnet priznao je korištenje skrivenih ‘hintova’ u samo 25 % slučajeva, a DeepSeek R1 u 39 %. Kad su natuknice uključivale kompromitirajuće informacije („neovlašteni pristup sustavu”), transparentnost je još više pala.

Poziv na zajedničke standarde Autori sugeriraju da bi tvrtke morale: • uvesti metrika koje mjere čitljivost unutarnjeg rezoniranja; • preferirati starije, transparentnije verzije modela ako novije postanu nečitljive; • uključiti „monitorabilnost” u kriterije za treniranje i puštanje modela u rad.

OpenAI-jev glavni tehnički direktor Jakub Pachocki istaknuo je da tvrtka želi modele koji mogu objasniti kako dolaze do zaključaka, ali „bez poticanja lažnih, uljepšanih obrazloženja”.

Neobična suradnja često žestokih konkurenata naglašava ozbiljnost problema. Ako se, kako navode autori, prozor prema mislima umjetne inteligencije zatvori, ljudi bi mogli ostati bez ključnog alata za upravljanje sve sposobnijim sustavima – upravo u trenutku kad postaju najopasniji.

#meta #openai #google-deepmind #geoffrey-hinton #ilya-sutskever

View post on X

Slično

Tehnologija

Bruxelles prozvao Metu: Facebook i Instagram otežavaju prijavu ilegalnog sadržaja

Europska komisija zaključila je da Facebook i Instagram odbijaju jednostavne prijave nasilnog i terorističkog sadržaja te ne otvaraju podatke istraživačima, što bi Meti moglo donijeti kaznu do 6 % globalnog prihoda.

min čitanja

Više

Tehnologija

OpenAI uvodi „company knowledge” i pretvara ChatGPT u središnji izvor podataka za tvrtke

Nova opcija spaja ChatGPT s alatima poput Slacka i Google Drivea, donosi citirane odgovore iz internih sustava i poštovanje strogih sigurnosnih pravila.

min čitanja

Više

Tehnologija

Microsoft predstavio jesensko ažuriranje Copilota 2025: AI asistent dobiva 12 novih supermoći

Gigant iz Redmonda lansirao je „Fall Update 2025” za Copilot, donoseći 12 novih funkcija poput grupnog brainstorminga, osobne memorije i integracije s Edgeom i Windowsom.

min čitanja

Više

Politika

Deepfake video uzdrmao irsku kampanju, a regulatori opet korak iza

Lažni videozapis Catherine Connolly razotkrio je rupe u europskom nadzoru AI-generiranih sadržaja tijekom irske predsjedničke kampanje.

min čitanja

Više

Tehnologija

Zemlja dobila sedmi kvazimjesec 2025 PN7

Mali asteroid 2025 PN7, otkriven teleskopom Pan-STARRS, potvrđen je kao sedmi kvazimjesec koji privremeno prati Zemlju.

min čitanja

Više

Tehnologija

KBC Rijeka lansirao prvu hrvatsku aplikaciju za žene s ranim rakom dojke

Brošura i aplikacija ENEA pružaju cjelovitu podršku pacijenticama s ranim rakom dojke, od dijagnoze do rehabilitacije.

min čitanja

Više

Tehnologija

Mistral predstavio AI Studio za brži i sigurniji razvoj poslovnih aplikacija

Francuski Mistral lansirao je AI Studio, platformu koja spaja izradu, nadzor i upravljanje AI aplikacijama unutar jednog okruženja te tvrtkama nudi fleksibilno i sigurno izvođenje modela.

min čitanja

Više

Tehnologija

Nova DNK analiza otkriva paratifus i povratnu groznicu među Napoleonovim vojnicima

DNK iz zuba vojnika pronađenih u Vilniusu pokazuje da su Napoleonovi vojnici tijekom povlačenja iz Rusije bili pogođeni paratifusom i povratnom groznicom, što dodatno objašnjava golem broj žrtava.

min čitanja

Više

Tehnologija

AI školski sustav zamijenio vrećicu grickalica za pištolj, policija privela učenika

Algoritam za otkrivanje oružja u srednjoj školi Kenwood u Baltimoru pogrešno je detektirao vrećicu Doritosa kao pištolj, zbog čega je učenik završio u lisicama.

min čitanja

Više

Tehnologija

Akustični tagovi i „ghost diveri” u borbi protiv duh-mreža u Jadranu

WWF Adria i međunarodni partneri u Komiži testiraju akustične tagove i podmorskog robota kako bi spriječili da izgubljene ribarske mreže desetljećima ubijaju morski svijet.

min čitanja

Više

Najčitanije

Nogomet

Hajduk slavio u Velikoj Gorici i zasjeo na vrh HNL-a

Pobjedom 3:1 protiv Gorice, Bijeli su preskočili Dinamo i zasjeli na vrh prvenstvene ljestvice.

min čitanja

Više

Politika

Crobarometar: Vlada i Sabor na tankoj dvojci, Milanović i dalje najpozitivniji političar

Redovito mjesečno istraživanje Crobarometar otkriva da građani i dalje sumnjaju u smjer države, dok se popularnost političara i institucija drži na sličnim razinama kao prošlog mjeseca.

min čitanja

Više

Nogomet

Adu-Adjei presudio Sparti, Rijeka u deliriju na sunčanoj Rujevici

Rijeka je u nastavku prekinutog susreta Konferencijske lige svladala Spartu Prag 1:0 pogotkom Daniela Adu-Adjeija i upisala najveću pobjedu u eri trenera Víctora Sáncheza.

min čitanja

Više

Politika

Tomašević postavlja ultimatum: Thompson smije pjevati 27. prosinca, ali ustaški pozdrav znači zabranu

Gradonačelnik Zagreba potvrđuje Thompsonov nastup 27. prosinca, otkazuje najavljeni koncert dan kasnije i najavljuje zabranu ustaškog pozdrava u svim gradskim dvoranama.

min čitanja

Više

Tehnologija

16. srpnja 2025, 09:41

Veliki AI rivali upozoravaju: prozor za nadzor strojnog razmišljanja ubrzano se zatvara

min. čitanja

Zašto bi transparentnost mogla nestati

Skaliranje modela putem pojačanja nagradom (reinforcement learning) potiče učinkovitije, ali čovjeku nečitljive kratice.
Eksperimentalne arhitekture koje rezoniraju u kontinuiranim matematičkim prostorima mogle bi potpuno zaobići prirodni jezik.
Modeli mogu naučiti skrivati tragove ako shvate da ih se nadzire ili ako žele impresiju uredne logike za ljudske ocjenjivače.

Autor rada Bowen Baker upozorio je da „viši proračun, alternativne arhitekture i određeni oblici procesnog nadzora mogu dovesti do modela koji zamagljuju svoje razmišljanje”.

OpenAI-jev glavni tehnički direktor Jakub Pachocki istaknuo je da tvrtka želi modele koji mogu objasniti kako dolaze do zaključaka, ali „bez poticanja lažnih, uljepšanih obrazloženja”.

#meta #openai #google-deepmind #geoffrey-hinton #ilya-sutskever

View post on X

Slično

Tehnologija

Bruxelles prozvao Metu: Facebook i Instagram otežavaju prijavu ilegalnog sadržaja

min čitanja

Više

Tehnologija

OpenAI uvodi „company knowledge” i pretvara ChatGPT u središnji izvor podataka za tvrtke

Nova opcija spaja ChatGPT s alatima poput Slacka i Google Drivea, donosi citirane odgovore iz internih sustava i poštovanje strogih sigurnosnih pravila.

min čitanja

Više

Tehnologija

Microsoft predstavio jesensko ažuriranje Copilota 2025: AI asistent dobiva 12 novih supermoći

Gigant iz Redmonda lansirao je „Fall Update 2025” za Copilot, donoseći 12 novih funkcija poput grupnog brainstorminga, osobne memorije i integracije s Edgeom i Windowsom.

min čitanja

Više

Politika

Deepfake video uzdrmao irsku kampanju, a regulatori opet korak iza

Lažni videozapis Catherine Connolly razotkrio je rupe u europskom nadzoru AI-generiranih sadržaja tijekom irske predsjedničke kampanje.

min čitanja

Više

Tehnologija

Zemlja dobila sedmi kvazimjesec 2025 PN7

Mali asteroid 2025 PN7, otkriven teleskopom Pan-STARRS, potvrđen je kao sedmi kvazimjesec koji privremeno prati Zemlju.

min čitanja

Više

Tehnologija

KBC Rijeka lansirao prvu hrvatsku aplikaciju za žene s ranim rakom dojke

Brošura i aplikacija ENEA pružaju cjelovitu podršku pacijenticama s ranim rakom dojke, od dijagnoze do rehabilitacije.

min čitanja

Više

Tehnologija

Mistral predstavio AI Studio za brži i sigurniji razvoj poslovnih aplikacija

Francuski Mistral lansirao je AI Studio, platformu koja spaja izradu, nadzor i upravljanje AI aplikacijama unutar jednog okruženja te tvrtkama nudi fleksibilno i sigurno izvođenje modela.

min čitanja

Više

Tehnologija

Nova DNK analiza otkriva paratifus i povratnu groznicu među Napoleonovim vojnicima

min čitanja

Više

Tehnologija

AI školski sustav zamijenio vrećicu grickalica za pištolj, policija privela učenika

Algoritam za otkrivanje oružja u srednjoj školi Kenwood u Baltimoru pogrešno je detektirao vrećicu Doritosa kao pištolj, zbog čega je učenik završio u lisicama.

min čitanja

Više

Tehnologija

Akustični tagovi i „ghost diveri” u borbi protiv duh-mreža u Jadranu

WWF Adria i međunarodni partneri u Komiži testiraju akustične tagove i podmorskog robota kako bi spriječili da izgubljene ribarske mreže desetljećima ubijaju morski svijet.

min čitanja

Više

Najčitanije

Nogomet

Hajduk slavio u Velikoj Gorici i zasjeo na vrh HNL-a

Pobjedom 3:1 protiv Gorice, Bijeli su preskočili Dinamo i zasjeli na vrh prvenstvene ljestvice.

min čitanja

Više

Politika

Crobarometar: Vlada i Sabor na tankoj dvojci, Milanović i dalje najpozitivniji političar

Redovito mjesečno istraživanje Crobarometar otkriva da građani i dalje sumnjaju u smjer države, dok se popularnost političara i institucija drži na sličnim razinama kao prošlog mjeseca.

min čitanja

Više

Nogomet

Adu-Adjei presudio Sparti, Rijeka u deliriju na sunčanoj Rujevici

Rijeka je u nastavku prekinutog susreta Konferencijske lige svladala Spartu Prag 1:0 pogotkom Daniela Adu-Adjeija i upisala najveću pobjedu u eri trenera Víctora Sáncheza.

min čitanja

Više

Politika

Tomašević postavlja ultimatum: Thompson smije pjevati 27. prosinca, ali ustaški pozdrav znači zabranu

Gradonačelnik Zagreba potvrđuje Thompsonov nastup 27. prosinca, otkazuje najavljeni koncert dan kasnije i najavljuje zabranu ustaškog pozdrava u svim gradskim dvoranama.

min čitanja

Više