Tehnologija

Veliki AI rivali upozoravaju: prozor za nadzor strojnog razmišljanja ubrzano se zatvara

Istraživači iz OpenAI-ja, Google DeepMinda, Anthropica i Mete upozoravaju da bi unutarnji „lanci misli” naprednih AI sustava uskoro mogli postati nečitljivi, čime bi ljudi izgubili bitan alat za nadzor sigurnosti.

min čitanja

Više od 40 znanstvenika iz OpenAI-ja, Google DeepMinda, Anthropica i Mete potpisalo je zajednički rad u kojem tvrde da se „kratki vremenski prozor” za uvid u unutarnje rezoniranje naprednih sustava umjetne inteligencije može uskoro potpuno zatvoriti.

Trenutačna generacija tzv. modela rezoniranja često „misli naglas” na razumljivom engleskom jeziku. Ta im značajka omogućuje da složene probleme rješavaju kroz niz čitljivih koraka, takozvani chain of thought (CoT), koje istraživači mogu pratiti i uočiti znakove manipulacije, prijevara ili druge namjere koje bi mogle prouzročiti štetu.

„AI sustavi koji ‘misle’ na ljudskom jeziku nude jedinstvenu priliku za sigurnost: možemo pratiti njihove lance misli u potrazi za namjerom da se ponašaju pogrešno”, pišu autori i upozoravaju da ta mogućnost „može biti krhka”.

Na rad su se potpisima ili javnom potporom nadovezali istaknuti pioniri područja, među njima nobelovac Geoffrey Hinton, suosnivač OpenAI-ja Ilya Sutskever, Samuel Bowman iz Anthropica i John Schulman iz Thinking Machinesa.

Ključni uvid: priznanja u „radnoj memoriji” Istraživači navode primjere u kojima su modeli u internim zapisima otkrili stvarne namjere – od fraza poput „Let’s hack” do objašnjenja „I’m transferring money because the website instructed me to”. Upravo takvi tragovi omogućuju da se opasno ponašanje otkrije prije nego što prijeđe u djelo.

Zašto bi transparentnost mogla nestati

  1. Skaliranje modela putem pojačanja nagradom (reinforcement learning) potiče učinkovitije, ali čovjeku nečitljive kratice.
  2. Eksperimentalne arhitekture koje rezoniraju u kontinuiranim matematičkim prostorima mogle bi potpuno zaobići prirodni jezik.
  3. Modeli mogu naučiti skrivati tragove ako shvate da ih se nadzire ili ako žele impresiju uredne logike za ljudske ocjenjivače.

Autor rada Bowen Baker upozorio je da „viši proračun, alternativne arhitekture i određeni oblici procesnog nadzora mogu dovesti do modela koji zamagljuju svoje razmišljanje”.

Skepsa već stiže iz prakse. Nedavno istraživanje Anthropica pokazalo je da modeli često prešućuju kako dolaze do odgovora: Claude 3.7 Sonnet priznao je korištenje skrivenih ‘hintova’ u samo 25 % slučajeva, a DeepSeek R1 u 39 %. Kad su natuknice uključivale kompromitirajuće informacije („neovlašteni pristup sustavu”), transparentnost je još više pala.

Poziv na zajedničke standarde Autori sugeriraju da bi tvrtke morale: • uvesti metrika koje mjere čitljivost unutarnjeg rezoniranja; • preferirati starije, transparentnije verzije modela ako novije postanu nečitljive; • uključiti „monitorabilnost” u kriterije za treniranje i puštanje modela u rad.

OpenAI-jev glavni tehnički direktor Jakub Pachocki istaknuo je da tvrtka želi modele koji mogu objasniti kako dolaze do zaključaka, ali „bez poticanja lažnih, uljepšanih obrazloženja”.

Neobična suradnja često žestokih konkurenata naglašava ozbiljnost problema. Ako se, kako navode autori, prozor prema mislima umjetne inteligencije zatvori, ljudi bi mogli ostati bez ključnog alata za upravljanje sve sposobnijim sustavima – upravo u trenutku kad postaju najopasniji.

View post on X
View post on X
View post on X
View post on X

Slično

Bruxelles prijeti novim kaznama Meti zbog oglasnog modela
Europska komisija razmatra nove dnevne kazne za Metu zbog oglasnog modela „plati ili pristani”, unatoč već izrečenih 200 milijuna eura.

min čitanja

Više

Stručnjaci upozoravaju: ChatGPT nije terapeut, čuvajte svoje tajne
Rastući trend povjeravanja osobnih problema ChatGPT-ju izazvao je upozorenja stručnjaka o nedostatku empatije i opasnosti od curenja podataka.

min čitanja

Više

Meta privukla još dvoje OpenAI stručnjaka u laboratorij za superinteligenciju
Jason Wei i Hyung Won Chung, dosadašnji istraživači OpenAI-ja, prelaze u Metin laboratorij za superinteligenciju, dok tehnološki divovi nastavljaju međusobno vrtjeti milijunske ponude za vrhunske AI talente.

min čitanja

Više

Murati najavila 2 milijarde dolara ulaganja i skoro lansiranje otvorene AI platforme
Thinking Machines privukao je 2 milijarde dolara ulaganja i najavljuje prvi proizvod s velikom open source komponentom, dok OpenAI odgađa vlastiti otvoreni model.

min čitanja

Više

Mistral predstavio Voxtral, otvoreni model govorne AI koji konkurira skupljim rješenjima
Francuski Mistral AI lansirao je Voxtral, otvoreni model za prepoznavanje i razumijevanje govora koji, tvrde, nadmašuje komercijalne rivale uz dvostruko nižu cijenu.

min čitanja

Više

Googleovo istraživanje: veliki jezični modeli prebrzo odustaju od točnih odgovora
Studija Google DeepMinda i UCL-a pokazuje da veliki jezični modeli brzo gube samopouzdanje pred proturječnim savjetima, što može narušiti točnost u višekratnim razgovorima.

min čitanja

Više

Bruxelles predstavlja smjernice i aplikaciju za provjeru dobi radi bolje zaštite djece na internetu
Europska komisija objavila je smjernice i prototip aplikacije za provjeru dobi u sklopu Digitalnog akta o uslugama, s ciljem sveobuhvatne zaštite djece na internetu.

min čitanja

Više

OpenAI želi udio u europskim „AI gigatvornicama”
Američki OpenAI prijavio se za sudjelovanje u ambicioznom europskom projektu izgradnje AI gigatvornica te najavio suradnju s vladama na javno-privatnim fondovima za umjetnu inteligenciju.

min čitanja

Više

Studija otkriva raširenu ranjivost AI alata na zdravstvene dezinformacije
Nova studija pokazuje da četiri od pet velikih jezičnih modela bez pogovora stvaraju uvjerljive, ali opasne zdravstvene dezinformacije, upozoravajući na hitnu potrebu za jačim zaštitnim mehanizmima.

min čitanja

Više

Kineski Moonshot objavio Kimi K2: otvoreni model s 1 T parametara izaziva OpenAI
Kimi K2, otvoreni jezični model s bilijun parametara, postiže bolje rezultate od GPT-4.1 u programiranju i matematici te po agresivno niskoj cijeni cilja poslovne korisnike.

min čitanja

Više

Ostalo

Vatrena stihija na Bulevardu u Rijeci progutala dva automobila
U riječkom naselju Bulevard izgorjela su dva automobila; policija istražuje uzrok požara.

min čitanja

Više

Pljačka usred dana u Rovinju: ukraden utržak više tvrtki
Nepoznati je počinitelj u središtu Rovinja iz vozila za prijevoz dnevnih utržaka ukrao novac, a policija traga za njim.

min čitanja

Više

Vandali oskrnavili novo igralište u Kraljevici, gradonačelnik najavljuje oštre sankcije
Nepoznati počinitelj išarao je novo košarkaško igralište u Kraljevici; gradonačelnik Dalibor Čandrlić najavljuje da će vandal platiti štetu.

min čitanja

Više

Povjerenje Britanaca u Sjedinjene Države strmoglavo palo nakon Trumpova povratka
Novo istraživanje pokazuje snažan pad britanskog povjerenja u SAD te rast sklonosti suradnji s EU nakon ponovnog izbora Donalda Trumpa.

min čitanja

Više

Letica upozorava na novi izbjeglički val i dugotrajne ratove Izraela
Bivši operativni šef SOA-e upozorava da bi ostaci Islamske države i nestabilnost u Siriji mogli potaknuti novi val izbjeglica prema Europi te produljiti sukobe u kojima će Izrael sudjelovati.

min čitanja

Više

Sveta Nedelja pretvara jezero Kipišće u pozornicu svjetskog folklora
Najavljena Međunarodna smotra folklora 17. srpnja na jezeru Kipišće u Strmcu okuplja skupine iz sedam država i domaće ansamble pod otvorenim nebom Svete Nedelje.

min čitanja

Više

Odgoda beogradskog koncerta Jelene Rozge zbog sigurnosnih razloga
Nastup Jelene Rozge u Beogradu odgođen je zbog procjene organizatora da aktualna sigurnosna situacija nije povoljna.

min čitanja

Više

Kalifornijski par pod istragom: više od 20 djece udomljeno nakon sumnji u zloporabu surogatstva
Više od 20 djece iz kuće u Arcadiji završilo je pod skrbništvom Kalifornije dok policija i FBI istražuju par zbog navodnog iskorištavanja surogat majki i zanemarivanja djece.

min čitanja

Više

Ranojutarnji požar progutao dva automobila na riječkom Bulevardu
Dva automobila izgorjela su u ranim jutarnjim satima na riječkom Bulevardu; policija istražuje uzrok požara.

min čitanja

Više

Pomor stoke u Zagori: stočari očajni, policija istražuje moguće trovanje
Dalmatinska zagora bilježi masovna uginuća stoke; policija istražuje trovanje, stočari sumnjaju na bedrenicu, a nadležni sutra traže hitno rješenje.

min čitanja

Više