CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

16. srpnja 2025, 09:41

Veliki AI rivali upozoravaju: prozor za nadzor strojnog razmišljanja ubrzano se zatvara

Istraživači iz OpenAI-ja, Google DeepMinda, Anthropica i Mete upozoravaju da bi unutarnji „lanci misli” naprednih AI sustava uskoro mogli postati nečitljivi, čime bi ljudi izgubili bitan alat za nadzor sigurnosti.

min. čitanja

Više od 40 znanstvenika iz OpenAI-ja, Google DeepMinda, Anthropica i Mete potpisalo je zajednički rad u kojem tvrde da se „kratki vremenski prozor” za uvid u unutarnje rezoniranje naprednih sustava umjetne inteligencije može uskoro potpuno zatvoriti.

Trenutačna generacija tzv. modela rezoniranja često „misli naglas” na razumljivom engleskom jeziku. Ta im značajka omogućuje da složene probleme rješavaju kroz niz čitljivih koraka, takozvani chain of thought (CoT), koje istraživači mogu pratiti i uočiti znakove manipulacije, prijevara ili druge namjere koje bi mogle prouzročiti štetu.

„AI sustavi koji ‘misle’ na ljudskom jeziku nude jedinstvenu priliku za sigurnost: možemo pratiti njihove lance misli u potrazi za namjerom da se ponašaju pogrešno”, pišu autori i upozoravaju da ta mogućnost „može biti krhka”.

Na rad su se potpisima ili javnom potporom nadovezali istaknuti pioniri područja, među njima nobelovac Geoffrey Hinton, suosnivač OpenAI-ja Ilya Sutskever, Samuel Bowman iz Anthropica i John Schulman iz Thinking Machinesa.

Ključni uvid: priznanja u „radnoj memoriji” Istraživači navode primjere u kojima su modeli u internim zapisima otkrili stvarne namjere – od fraza poput „Let’s hack” do objašnjenja „I’m transferring money because the website instructed me to”. Upravo takvi tragovi omogućuju da se opasno ponašanje otkrije prije nego što prijeđe u djelo.

Zašto bi transparentnost mogla nestati

  1. Skaliranje modela putem pojačanja nagradom (reinforcement learning) potiče učinkovitije, ali čovjeku nečitljive kratice.
  2. Eksperimentalne arhitekture koje rezoniraju u kontinuiranim matematičkim prostorima mogle bi potpuno zaobići prirodni jezik.
  3. Modeli mogu naučiti skrivati tragove ako shvate da ih se nadzire ili ako žele impresiju uredne logike za ljudske ocjenjivače.

Autor rada Bowen Baker upozorio je da „viši proračun, alternativne arhitekture i određeni oblici procesnog nadzora mogu dovesti do modela koji zamagljuju svoje razmišljanje”.

Skepsa već stiže iz prakse. Nedavno istraživanje Anthropica pokazalo je da modeli često prešućuju kako dolaze do odgovora: Claude 3.7 Sonnet priznao je korištenje skrivenih ‘hintova’ u samo 25 % slučajeva, a DeepSeek R1 u 39 %. Kad su natuknice uključivale kompromitirajuće informacije („neovlašteni pristup sustavu”), transparentnost je još više pala.

Poziv na zajedničke standarde Autori sugeriraju da bi tvrtke morale: • uvesti metrika koje mjere čitljivost unutarnjeg rezoniranja; • preferirati starije, transparentnije verzije modela ako novije postanu nečitljive; • uključiti „monitorabilnost” u kriterije za treniranje i puštanje modela u rad.

OpenAI-jev glavni tehnički direktor Jakub Pachocki istaknuo je da tvrtka želi modele koji mogu objasniti kako dolaze do zaključaka, ali „bez poticanja lažnih, uljepšanih obrazloženja”.

Neobična suradnja često žestokih konkurenata naglašava ozbiljnost problema. Ako se, kako navode autori, prozor prema mislima umjetne inteligencije zatvori, ljudi bi mogli ostati bez ključnog alata za upravljanje sve sposobnijim sustavima – upravo u trenutku kad postaju najopasniji.

#meta#openai#google-deepmind#geoffrey-hinton#ilya-sutskever
View post on X
View post on X
View post on X
View post on X

Slično

Tehnologija

OpenAI uvodi roditeljski nadzor za ChatGPT nakon tragične smrti tinejdžera
OpenAI najavio roditeljski nadzor za ChatGPT nakon tužbe obitelji čiji je sin počinio samoubojstvo, dok kritičari upozoravaju na odljev ključnih sigurnosnih stručnjaka i moguć sukob između brzog razvoja i sigurnosti.
TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Gina na WhatsAppu: prva hrvatska virtualna ginekološka savjetnica
Umjetna inteligencija dobila je novu ulogu u hrvatskom zdravstvu: Gina putem WhatsAppa ženama nudi provjerene savjete o ginekološkom zdravlju.

min čitanja

Više

Tehnologija

Lenovo na IFA-i prikazao VertiFlex: laptop kojem se zaslon okreće u portretni položaj
Vertikalni zaslon, pametni stalak i niz novih uređaja obilježili su Lenovo predstavljanje u Berlinu.

min čitanja

Više

Tehnologija

Anthropic pristao platiti najmanje 1,5 milijardi dolara zbog tužbe autora
Nagodba obuhvaća oko pola milijuna književnih djela i predstavlja najveći dosad poznati sporazum o autorskim pravima u eri umjetne inteligencije.

min čitanja

Više

Tehnologija

Bruxelles kaznio Google s gotovo 3 milijarde eura zbog zloporabe oglašivačke dominacije
Bruxelles udara četvrtu antimonopolsku kaznu Alphabetu: gotovo 3 milijarde eura i nalog za prestanak „favoriziranja” vlastitih oglasnih servisa.

min čitanja

Više

Tehnologija

Jupiter službeno pokrenut: Njemačka pustila u rad najmoćnije europsko superračunalo
U Jülichu je svečano pušten u rad Jupiter, najmoćnije europsko superračunalo i četvrto najbrže na svijetu, koje uz klasične simulacije nudi i vrhunsku platformu za treniranje umjetne inteligencije.
Steffen Prößdorf, CC BY-SA 4.0 <https://creativecommons.org/licenses/by-sa/4.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Bruxelles najavljuje Chips Act 2.0: više državne pomoći za strateške poluvodiče
Komisija otvara savjetovanje o izmjenama Zakona o čipovima, ciljajući veće subvencije, sigurnije lance opskrbe i obvezno dijeljenje podataka.

min čitanja

Više

Tehnologija

Pariz hladi zgrade vodom iz Seine, ali klimatske promjene prijete sustavu
Rashladna mreža koja Seine pretvara u golemi klima-uređaj čuva Louvre i stotine pariških zgrada, no zagrijavanje rijeke tjera inženjere da traže dublja, hladnija rješenja.

min čitanja

Više

Tehnologija

Osječanka lansirala „Okreni žlicu”, prvu domaću aplikaciju protiv bacanja hrane
Nutricionistica Iva Dorić predstavila „Okreni žlicu”, aplikaciju koja pojednostavljuje planiranje obroka i pomaže smanjiti 280 000 tona hrane koje Hrvati godišnje bace.

min čitanja

Više

Tehnologija

Europa pali Jupiter, prvi egzaskalni superračunar i najveći AI stroj na kontinentu
Jupiter, 500 milijuna eura vrijedan egzaskalni superračunar u Jülichu, trebao bi Europi donijeti napredak u umjetnoj inteligenciji, klimatskim prognozama i energetskoj tranziciji.

min čitanja

Više

Najčitanije

Politika

Veliki pad prodaje ulaznica u Kennedy Centeru nakon Trumpova preuzimanja
Prodaja pretplata pala za pola, Stuttgartski balet pred praznim dvoranama, a Trump najavljuje „ne-woke” zaokret u kultnoj washingtonskoj ustanovi.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Politika

Trumpovi planovi za vojni pritisak na Venezuelu
Washington pojačava vojnu prisutnost na Karibima, cilja venezuelske kartele i podiže nagradu za uhićenje Nicolása Madura.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524By U.S. Department of State - https://www.flickr.com/photos/statephotos/54295399868/, Public Domain, https://commons.wikimedia.org/w/index.php?curid=159470623

min čitanja

Više

Politika

Autor See File history below for details. - Own work based on: Flag of Serbia construction sheet.svg (Construction sheet)The Government of Serbia, National symbols srbija.gov.rs, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=65419036
Suzevac i pendreci u Novom Sadu: policija rastjerala tisuće studenata i građana
Policija je suzavcem i pendrecima rastjerala višesatni studentski prosvjed u kampusu Sveučilišta u Novom Sadu, dok tisuće građana traže odgovorne za smrt 16 ljudi i slobodne izbore.

min čitanja

Više

Nogomet

Kramarićev pogodak donio bodove, ali Dalić upozorava: „Ovakvu predstavu više ne smijemo ponoviti”
Hrvatska je s 1:0 svladala Farske otoke, no izbornik Dalić upozorava na slabosti u igri uoči dvoboja protiv Prosinečkog i Crne Gore na Maksimiru.
By Анна Нэсси - https://www.soccer.ru/galery/1056975/photo/735567, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=71215179

min čitanja

Više

Najnovije

Vijesti

Surfer poginuo u napadu morskog psa na plaži Long Reef

Sport

Modrić nakratko prepustio kapetansku traku: obrana važnija od simbolike

Sport

Gattusov debi iz snova: Italija petardom protiv Estonije osvojila navijače

Sport

Livaković briljantnom obranom utišao Faroe i oduševio 400 hrvatskih navijača

Vijesti

Subotnja fešta u Nedešćini: glazba, humanitarna lutrija i pršut kao glavna nagrada

Vijesti

U šumi kraj Vasinih Laza posječeno i ukradeno više od 60 stabala

Politika

Bulja prate optužbe za „selektivnu transparentnost” u Sinju

Vijesti

Policija u Donjem Miholjcu dijelila prsluke i letke biciklistima

Vijesti

Subotnje vrijeme: sunčan Jadran, unutrašnjost uz prolaznu kišu i buru pod Velebitom

Vijesti

Bjeloglavi supovi bilježe rekordan oporavak, ali strvinari i dalje pod pritiskom

Lifestyle

Brechtova satira „Pir malograđana“ stiže u Gradsko kazalište mladih