Tehnologija

11. lipnja 2025, 08:35

Anthropic otvara „crnu kutiju” velikih jezičnih modela

Anthropic je otvorio kod alata za mehanističku interpretabilnost, omogućujući tvrtkama i istraživačima da zavire u unutarnje procese velikih jezičnih modela i ciljano ih prilagode.

min. čitanja

Anthropic je objavio otvoreni alat za „circuit tracing” koji prvi put široj zajednici omogućuje detaljno praćenje unutarnjih procesa velikih jezičnih modela (LLM-ova). Alat se temelji na mehanističkoj interpretabilnosti – istraživačkom pristupu koji umjesto ulaza i izlaza analizira same aktivacijske obrasce u mreži.

Ključni novitet je izrada atribucijskih grafova, svojevrsnih mapi ožičenja koje prikazuju kako se interne „značajke” – prepoznatljivi sklopovi neurona – međusobno aktiviraju dok model generira odgovor. Istraživači zatim mogu provoditi „intervencijske eksperimente”, mijenjajući pojedine značajke i promatrajući učinak na završni output. Time se LLM-ovi prvi put mogu precizno otklanjati i fino podešavati umjesto da se treniraju metodom pokušaja i pogrešaka.

Iako je metoda prvotno primijenjena na Anthropicov Claude 3.5 Haiku, otvoreni kod već je uspješno izvu-čen na modelima Gemma-2-2b i Llama-3.2-1b. Tvrtka je objavila i Colab bilježnicu te integraciju s platformom Neuronpedia, čime postupak postaje dostupniji vanjskim istraživačima.

Primjeri iz prateće studije pokazuju koliko duboko alat prodire u „logiku” modela: • kod odgovora na pitanje o glavnom gradu Teksasa graf je otkrio da model najprije povezuje „Dallas” s „Texas”, a tek potom dolazi do „Austina”; • pri pisanju pjesme model unaprijed odabire sklop rima kako bi vodio kompoziciju; • pri računanju 36 + 59 = 95 model ne koristi klasičan algoritam nego paralelne putanje i svojevrsne „tablice pretraživanja” za znamenke; • otkrivene su i „zadane refuzijske petlje” koje se gase kad model procijeni da ipak zna odgovor – kad te petlje zakažu, nastaju halucinacije.

Za poduzeća to znači konkretnu dobit: od provjere numeričkih izračuna i razotkrivanja lanca zaključivanja u pravnim analizama, preko praćenja dosljednosti na više jezika, do ciljane borbe protiv halucinacija. Među izazovima trenutačno se navode visoki memorijski zahtjevi i složenost tumačenja detaljnih grafova, no iz Anthropica ističu da je to uobičajeno za vrhunska istraživanja.

Objavom alata tvrtka poziva zajednicu da razvije skalabilnije i automatizirane interpretacijske tehnike. Kako LLM-ovi sve dublje ulaze u kritične poslovne procese, transparentnost i mogućnost kontrole postaju ključni za povjerenje i usklađenost s poslovnim ciljevima. „Circuit tracing” time najavljuje prijelaz iz ere crnih kutija u doba audita i finog ugađanja umjetne inteligencije.

#anthropic #claude-3.5-haiku #gemma-2-2b #llama-3.2-1b #neuronpedia

Slično

Tehnologija

Kadmij-cinkov telurid skratio bolničke CT preglede na 15 minuta

Brži pregledi, manje zračenja i jasnije slike: londonska bolnica uvela skener s kristalima kadmij-cinkovog telurida.

min čitanja

Više

Tehnologija

Cohere predstavio Rerank 4 s četiri puta većim kontekstom

Rerank 4 donosi kontekst od 32 000 tokena, više varijanti i naglasak na brže, preciznije pretrage.

min čitanja

Više

Tehnologija

Krapinski IT-jevac pretvara klikove u noćenja: softver Ivana Petrovića diže prihode malim hotelima

Ivan Petrović iz Krapinskih Toplica razvio je softver koji malim hotelima u regiji diže prihode i smanjuje ovisnost o posrednicima.

min čitanja

Više

Tehnologija

Autorica priznala golemu pogrešku u bestseleru o umjetnoj inteligenciji

Karen Hao na X-u priznala da je u knjizi „Empire of AI” pogrešno procijenila potrošnju vode Googleova podatkovnog centra – i to za faktor 1.000.

min čitanja

Više

Tehnologija

Gotovo 9,1 milijun eura za transformaciju istraživačkog centra METRIS u Puli

Istarsko veleučilište osiguralo je 9,1 milijun eura iz europskog Fonda za pravednu tranziciju za proširenje prostora, nabavu opreme i razvoj novih programa u istraživačkom centru METRIS.

min čitanja

Više

Tehnologija

Toyota osvježila Corollu za 2026.: dizajn, hibrid i digitalija na prvom mjestu

Nova Toyota Corolla za 2026. donosi osvježen dizajn, napredne hibridne pogone i potpuno digitalno sučelje, uz standardni sigurnosni paket Toyota Safety Sense.

min čitanja

Više

Tehnologija

Hrvatska traži mjesto u svemiru: kolokvij na FER-u najavio novu strategiju i jače partnerstvo s Italijom

Kolokvij „Europska svemirska perspektiva“ na zagrebačkom FER-u otkrio plan izrade nacionalne svemirske strategije, dok Italija i ESA nude potporu hrvatskom ulasku u jače svemirske projekte.

min čitanja

Više

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16

Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Tehnologija

AI Nomos 1 gotovo dosegao vrh na prestižnom Putnamu

Otvoreni AI sustav Nomos 1 iz Nous Researcha osvojio bi drugo mjesto na prestižnom Putnamovom natjecanju, dokazavši se kao gotovo ravnopravan ljudskim genijalcima.

min čitanja

Više

Tehnologija

Nova Gradiška dobiva AI podatkovni centar vrijedan do 450 milijuna eura

Grad i londonski NEOIX potpisali su predugovor: AI podatkovni centar od 50 MW trebao bi početi nicati u Novoj Gradiški za pola godine.

min čitanja

Više

Tehnologija

11. lipnja 2025, 08:35

Anthropic otvara „crnu kutiju” velikih jezičnih modela

Anthropic je otvorio kod alata za mehanističku interpretabilnost, omogućujući tvrtkama i istraživačima da zavire u unutarnje procese velikih jezičnih modela i ciljano ih prilagode.

min. čitanja

#anthropic #claude-3.5-haiku #gemma-2-2b #llama-3.2-1b #neuronpedia

Slično

Tehnologija

Kadmij-cinkov telurid skratio bolničke CT preglede na 15 minuta

Brži pregledi, manje zračenja i jasnije slike: londonska bolnica uvela skener s kristalima kadmij-cinkovog telurida.

min čitanja

Više

Tehnologija

Cohere predstavio Rerank 4 s četiri puta većim kontekstom

Rerank 4 donosi kontekst od 32 000 tokena, više varijanti i naglasak na brže, preciznije pretrage.

min čitanja

Više

Tehnologija

Krapinski IT-jevac pretvara klikove u noćenja: softver Ivana Petrovića diže prihode malim hotelima

Ivan Petrović iz Krapinskih Toplica razvio je softver koji malim hotelima u regiji diže prihode i smanjuje ovisnost o posrednicima.

min čitanja

Više

Tehnologija

Autorica priznala golemu pogrešku u bestseleru o umjetnoj inteligenciji

Karen Hao na X-u priznala da je u knjizi „Empire of AI” pogrešno procijenila potrošnju vode Googleova podatkovnog centra – i to za faktor 1.000.

min čitanja

Više

Tehnologija

Gotovo 9,1 milijun eura za transformaciju istraživačkog centra METRIS u Puli

Istarsko veleučilište osiguralo je 9,1 milijun eura iz europskog Fonda za pravednu tranziciju za proširenje prostora, nabavu opreme i razvoj novih programa u istraživačkom centru METRIS.

min čitanja

Više

Tehnologija

Toyota osvježila Corollu za 2026.: dizajn, hibrid i digitalija na prvom mjestu

Nova Toyota Corolla za 2026. donosi osvježen dizajn, napredne hibridne pogone i potpuno digitalno sučelje, uz standardni sigurnosni paket Toyota Safety Sense.

min čitanja

Više

Tehnologija

Hrvatska traži mjesto u svemiru: kolokvij na FER-u najavio novu strategiju i jače partnerstvo s Italijom

Kolokvij „Europska svemirska perspektiva“ na zagrebačkom FER-u otkrio plan izrade nacionalne svemirske strategije, dok Italija i ESA nude potporu hrvatskom ulasku u jače svemirske projekte.

min čitanja

Više

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16

Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Tehnologija

AI Nomos 1 gotovo dosegao vrh na prestižnom Putnamu

Otvoreni AI sustav Nomos 1 iz Nous Researcha osvojio bi drugo mjesto na prestižnom Putnamovom natjecanju, dokazavši se kao gotovo ravnopravan ljudskim genijalcima.

min čitanja

Više

Tehnologija

Nova Gradiška dobiva AI podatkovni centar vrijedan do 450 milijuna eura

Grad i londonski NEOIX potpisali su predugovor: AI podatkovni centar od 50 MW trebao bi početi nicati u Novoj Gradiški za pola godine.

min čitanja

Više