Anthropic je objavio otvoreni alat za „circuit tracing” koji prvi put široj zajednici omogućuje detaljno praćenje unutarnjih procesa velikih jezičnih modela (LLM-ova). Alat se temelji na mehanističkoj interpretabilnosti – istraživačkom pristupu koji umjesto ulaza i izlaza analizira same aktivacijske obrasce u mreži.
Ključni novitet je izrada atribucijskih grafova, svojevrsnih mapi ožičenja koje prikazuju kako se interne „značajke” – prepoznatljivi sklopovi neurona – međusobno aktiviraju dok model generira odgovor. Istraživači zatim mogu provoditi „intervencijske eksperimente”, mijenjajući pojedine značajke i promatrajući učinak na završni output. Time se LLM-ovi prvi put mogu precizno otklanjati i fino podešavati umjesto da se treniraju metodom pokušaja i pogrešaka.
Iako je metoda prvotno primijenjena na Anthropicov Claude 3.5 Haiku, otvoreni kod već je uspješno izvu-čen na modelima Gemma-2-2b i Llama-3.2-1b. Tvrtka je objavila i Colab bilježnicu te integraciju s platformom Neuronpedia, čime postupak postaje dostupniji vanjskim istraživačima.
Primjeri iz prateće studije pokazuju koliko duboko alat prodire u „logiku” modela: • kod odgovora na pitanje o glavnom gradu Teksasa graf je otkrio da model najprije povezuje „Dallas” s „Texas”, a tek potom dolazi do „Austina”; • pri pisanju pjesme model unaprijed odabire sklop rima kako bi vodio kompoziciju; • pri računanju 36 + 59 = 95 model ne koristi klasičan algoritam nego paralelne putanje i svojevrsne „tablice pretraživanja” za znamenke; • otkrivene su i „zadane refuzijske petlje” koje se gase kad model procijeni da ipak zna odgovor – kad te petlje zakažu, nastaju halucinacije.
Za poduzeća to znači konkretnu dobit: od provjere numeričkih izračuna i razotkrivanja lanca zaključivanja u pravnim analizama, preko praćenja dosljednosti na više jezika, do ciljane borbe protiv halucinacija. Među izazovima trenutačno se navode visoki memorijski zahtjevi i složenost tumačenja detaljnih grafova, no iz Anthropica ističu da je to uobičajeno za vrhunska istraživanja.
Objavom alata tvrtka poziva zajednicu da razvije skalabilnije i automatizirane interpretacijske tehnike. Kako LLM-ovi sve dublje ulaze u kritične poslovne procese, transparentnost i mogućnost kontrole postaju ključni za povjerenje i usklađenost s poslovnim ciljevima. „Circuit tracing” time najavljuje prijelaz iz ere crnih kutija u doba audita i finog ugađanja umjetne inteligencije.