Tehnologija

Anthropic otvara „crnu kutiju” velikih jezičnih modela

Anthropic je otvorio kod alata za mehanističku interpretabilnost, omogućujući tvrtkama i istraživačima da zavire u unutarnje procese velikih jezičnih modela i ciljano ih prilagode.

min čitanja

Anthropic je objavio otvoreni alat za „circuit tracing” koji prvi put široj zajednici omogućuje detaljno praćenje unutarnjih procesa velikih jezičnih modela (LLM-ova). Alat se temelji na mehanističkoj interpretabilnosti – istraživačkom pristupu koji umjesto ulaza i izlaza analizira same aktivacijske obrasce u mreži.

Ključni novitet je izrada atribucijskih grafova, svojevrsnih mapi ožičenja koje prikazuju kako se interne „značajke” – prepoznatljivi sklopovi neurona – međusobno aktiviraju dok model generira odgovor. Istraživači zatim mogu provoditi „intervencijske eksperimente”, mijenjajući pojedine značajke i promatrajući učinak na završni output. Time se LLM-ovi prvi put mogu precizno otklanjati i fino podešavati umjesto da se treniraju metodom pokušaja i pogrešaka.

Iako je metoda prvotno primijenjena na Anthropicov Claude 3.5 Haiku, otvoreni kod već je uspješno izvu-čen na modelima Gemma-2-2b i Llama-3.2-1b. Tvrtka je objavila i Colab bilježnicu te integraciju s platformom Neuronpedia, čime postupak postaje dostupniji vanjskim istraživačima.

Primjeri iz prateće studije pokazuju koliko duboko alat prodire u „logiku” modela: • kod odgovora na pitanje o glavnom gradu Teksasa graf je otkrio da model najprije povezuje „Dallas” s „Texas”, a tek potom dolazi do „Austina”; • pri pisanju pjesme model unaprijed odabire sklop rima kako bi vodio kompoziciju; • pri računanju 36 + 59 = 95 model ne koristi klasičan algoritam nego paralelne putanje i svojevrsne „tablice pretraživanja” za znamenke; • otkrivene su i „zadane refuzijske petlje” koje se gase kad model procijeni da ipak zna odgovor – kad te petlje zakažu, nastaju halucinacije.

Za poduzeća to znači konkretnu dobit: od provjere numeričkih izračuna i razotkrivanja lanca zaključivanja u pravnim analizama, preko praćenja dosljednosti na više jezika, do ciljane borbe protiv halucinacija. Među izazovima trenutačno se navode visoki memorijski zahtjevi i složenost tumačenja detaljnih grafova, no iz Anthropica ističu da je to uobičajeno za vrhunska istraživanja.

Objavom alata tvrtka poziva zajednicu da razvije skalabilnije i automatizirane interpretacijske tehnike. Kako LLM-ovi sve dublje ulaze u kritične poslovne procese, transparentnost i mogućnost kontrole postaju ključni za povjerenje i usklađenost s poslovnim ciljevima. „Circuit tracing” time najavljuje prijelaz iz ere crnih kutija u doba audita i finog ugađanja umjetne inteligencije.

Slično

Silicijska dolina u potrazi za novim čudom: jesu li AI agenti doista „sljedeći veliki prodor”
Tehnološki divovi i start-upovi ulažu milijarde u AI agente koji bi samostalno obavljali zadatke umjesto ljudi. Donosimo pregled tko predvodi utrku, gdje su izazovi i što sve to znači za radna mjesta.

min čitanja

Više

OpenAI preskočio 3 milijuna poslovnih korisnika i lansirao alate za uredske bitke s Microsoftom
Tvrtka je u četiri mjeseca osvojila milijun novih poslovnih pretplatnika i predstavila alate za transkripciju sastanaka, kodiranje i dublje povezivanje s uredskim aplikacijama, pojačavajući okršaj s Microsoftom na tržištu korporativne umjetne inteligencije.

min čitanja

Više

Ostalo

Trumpov rođendanski spektakl: Washington priprema najveću vojnu paradu u svojoj povijesti
Donald Trump obilježava 79. rođendan najvećom vojnom paradom u Washingtonu, dok diljem SAD-a rastu prosvjedi protiv njegove politike.

min čitanja

Više

Papa Lav pozvao Iran i Izrael na razboritost i dijalog
Obraćajući se vjernicima u Bazilici svetog Petra, Papa Lav pozvao je Teheran i Jeruzalem na razboritost i dijalog, ističući da nitko ne smije ugroziti postojanje drugoga.

min čitanja

Više

Modrić nahvalio Alonsa na prvom treningu Reala
Hrvatski kapetan hvali radnu etiku Xabija Alonsa dok Real Madrid cilja naslov na Svjetskom klupskom prvenstvu u SAD-u.

min čitanja

Više

Podolnjak: Sabor, DIP i Ustavni sud pali na ispitu regularnosti izbora
Ustavnopravni stručnjak Robert Podolnjak upozorava da su Sabor, DIP i Ustavni sud zakazali u nadzoru lokalnih izbora, što je narušilo povjerenje građana te zahtijeva hitnu reformu izbornog sustava.

min čitanja

Više

Napad na političare u Minnesoti: Hoffman i Hortman ranjeni u dvostrukoj pucnjavi
Senator John Hoffman i zastupnica Melissa Hortman te njihovi supružnici ranjeni su u dvjema odvojenim pucnjavama u Minnesoti; policija traga za napadačem.

min čitanja

Više

Brozović na pragu spektakularnog preseljenja: Al Hilal nudi ugovor života
Najbogatiji saudijski klub Al Hilal nudi Marcela Brozoviću gotovo dvostruko veći ugovor od sadašnjeg u Al-Nassru, dok Al Shabab iz prikrajka vreba svoju priliku.

min čitanja

Više

Izraelski udar na Iran zbližio političke rivale i učvrstio Netanyahua
Izraelski zračni i kibernetički udari na Iran ujedinili su izraelsku politiku, produbili pritisak na Teheran i privremeno ojačali položaj premijera Benjamina Netanyahua.

min čitanja

Više

Ružić na korak do glavnog ždrijeba Nottinghama
Antonia Ružić svladala Varvaru Lepchenko i izborila finale kvalifikacija WTA turnira u Nottinghamu.

min čitanja

Više

David Beckham dobio titulu viteza u godišnjoj kraljevoj listi
Bivši kapetan Engleske primio je najviše britansko odlikovanje koje nosi naslov „Sir”.

min čitanja

Više

Njemačka najavljuje povratak 17.000 azilanata, Jurić upozorava na demografsku preobrazbu Hrvatske
Njemačka planira vratiti 17 000 tražitelja azila u Hrvatsku; demograf Tado Jurić upozorava da bi taj val, zajedno s trajnim ostankom većine ukrajinskih izbjeglica, mogao dramatično promijeniti hrvatsko društvo i tržište rada.

min čitanja

Više