Novo poglavlje u arhitekturi velikih jezičnih modela otvorili su istraživači Albert Gu s Carnegie Mellon Universityja i Tri Dao s Princetona predstavljanjem Mambe-3, najnovije inačice arhitekture koja želi nadmašiti transformere.
Transformeri, predstavljeni 2017. radom „Attention Is All You Need”, postali su temelj ChatGPT-a i većine današnjih generativnih sustava, ali skupi kvadratični izračun i linearna potrošnja memorije čine ih teškima za masovno izvođenje. Gu i Dao zato su 2023. uveli Mambu, a kasnije i hibridne Mamba-Transformer modele poput Nvidia Nemotrona 3 Super.
Što donosi Mamba-3
• Otvoreni kod: model je objavljen pod permisivnom licencijom Apache 2.0, što omogućuje slobodnu komercijalnu primjenu.
• „Inference-first” pristup: za razliku od Mambe-2, koja je uklanjala uska grla u predtreningu, Mamba-3 se usredotočuje na dekodiranje, odnosno na tzv. cold GPU problem – kada grafički procesori više čekaju prijenos podataka nego što računaju.
• Tehnička dokumentacija već je dostupna na arXiv-u, pa razvojni inženjeri mogu odmah testirati i prilagođavati model.
Objavom Mambe-3, autori poručuju da optimizacija izvođenja postaje ključna etapa evolucije generativne umjetne inteligencije, koja bi velikim sustavima trebala donijeti brže i jeftinije korištenje.