OpenAI je predstavio novi pristup dizajnu neuronskih mreža koji bi, kako tvrde istraživači tvrtke, trebao otvoriti put razumljivijim, lakše nadziranim i jednostavnije popravljivim modelima. Ključ je u takozvanim „rijetkim” (sparse) mrežama koje namjerno zadržavaju samo mali dio međusobnih veza, čime se znatno smanjuje složenost onoga što se inače opisuje kao „gusti splet milijardi parametara”.
„Neural networks power today’s most capable AI systems, but they remain difficult to understand”, stoji u OpenAI-evu blogu. Tvrtka podsjeća da se današnji modeli ne programiraju korak-po-korak, nego „uče” podešavanjem internih težina, pri čemu nastaju gusto isprepletene strukture koje ljudski analitičar teško može dešifrirati.
Glavni cilj istraživanja je unaprijediti tzv. mehanističku interpretabilnost – postupak u kojem se matematička konstrukcija modela razlaže kako bi se objasnilo zašto je određeni izlaz nastao. OpenAI je zato:
- „ugasio” većinu veza unutar transformera nalik GPT-2,
- primijenio „praćenje sklopova” (circuit tracing) kako bi identificirao skupine čvorova odgovornih za pojedine zadatke,
- rezao (pruning) sve što nije nužno za postizanje ciljane pogreške od 0,15.
Rezultat su, prema internom izvješću, krugovi i do 16 puta manji od onih dobivenih rezanjem klasičnih gustih mreža s usporedivim pretreningom. Iako takvi modeli ostaju znatno manji od današnjih golemih temeljnih sustava, OpenAI vjeruje da će se isti princip naknadno moći primijeniti i na „frontier” modele poput budućeg GPT-5.1.
Bolja prozirnost, ističe tvrtka, donosi dvostruku korist: olakšava otkrivanje trenutka kada ponašanje modela odstupi od politika te jača povjerenje poslovnih korisnika koji na AI sve češće prebacuju odluke s realnim posljedicama.
Napredak u interpretabilnosti „vrlo je ambiciozan ulog”, priznaje OpenAI, ali dosadašnji rad na rijetkim mrežama pokazuje da je „zamršene” AI sustave moguće raspetljati – barem na jednostavnijim zadacima – i tako pružiti jasan uvid u to kako umjetna inteligencija zapravo „misli”.