Od osnutka 2021., kada se sedmero zaposlenika OpenAI-ja odvojilo zbog zabrinutosti za sigurnost umjetne inteligencije, Anthropic gradi modele vođene vlastitim „Ustavom” – skupom načela čiji je cilj da sustavi budu „korisni, iskreni i bezopasni”. No izvršni direktor Dario Amodei sada tvrdi da to više nije dovoljno: "Naše nerazumijevanje unutarnjih mehanizama modela znači da ne možemo predvidjeti štetna ponašanja niti ih pouzdano spriječiti", upozorio je u travnju.
-
Ključna riječ – interpretabilnost
Anthropic je, za razliku od konkurenata poput Googleova Geminija 2.5 Pro ili OpenAI-jeva o3, istraživanje usmjerio na razumijevanje procesa „razmišljanja” modela. Cilj je da do 2027. „interpretabilnost pouzdano otkriva većinu problema”, što bi otvorilo vrata primjeni u financijama, medicini i pravu, gdje propisi traže objašnjene odluke. -
Tržišna utrka
Njihov Claude 3.7 Sonnet dominirao je kodiranim testovima u veljači, a nova verzija Claude 4.0 Opus ponovila je uspjeh. Ipak, rivali ih nadmašuju u matematici, kreativnom pisanju i višestrukim jezicima. Amazon i Google već su uložili milijarde u Anthropic, videći potencijal u smanjenju troškova nadzora sustava koji se mogu „skenirati”. -
Nova ulaganja
Anthropic je nedavno sudjelovao u 50 milijuna dolara vrijednom ulaganju u Goodfire i njegov alat Ember koji otkriva i manipulira „naučenim konceptima” unutar modela. Time priznaju da će za razvoj prozirnih sustava trebati čitav novi ekosustav alata i stručnjaka. -
Skepsa stručnjaka
Istraživač sigurnosti AI-ja Sayash Kapoor podsjeća da „interpretabilnost nije srebrni metak”. Po njemu su jednako važni filtri, verifikatori i dizajn usmjeren na čovjeka. Ističe i „zabludu neprozirnosti” – ideju da se tehnologija ne može odgovorno koristiti bez potpune transparentnosti. -
Otvoreni pristup ili kontrola?
Na konferenciji VivaTech u Parizu predsjednik Nvidije Jensen Huang osporio je Amodeijev naglasak na ograničenom razvoju: „Ako želite da nešto bude sigurno i odgovorno, radite to otvoreno.” Anthropic odgovara da Amodei zagovara „nacionalni standard transparentnosti” za sve laboratorije. -
Širi kontekst
Google DeepMind, predvođen Neelom Nandom, paralelno ulaže u isti istraživački smjer. Zajednički zaključak vodećih laboratorija glasi: tvrtke koje rano prigrle interpretabilne modele mogle bi steći presudnu prednost – pouzdani, usklađeni i prilagodljivi sustavi lakše će proći regulatore i klijente.