Mala tvrtka Manifest AI iznenadila je svijet umjetne inteligencije objavom modela Brumby-14B-Base, prvog velikog jezikalnog modela koji potpuno odbacuje mehanizam pažnje. Umjesto toga koristi vlastitu arhitekturu „power retention”, rekurentni sloj koji, prema navodima autora, čuva informacije kroz beskonačno dugačak kontekst uz konstantan trošak po tokenu.
Što je power retention?
Klasični transformeri za svaki token računaju matrice Q, K i V te rade potpornu usporedbu svih tokena, što kod duljih nizova eksponencijalno povećava troškove memorije i izračuna. Power retention zadržava iste ulaze, ali ih umjesto globalne usporedbe ugrađuje u latentno stanje S koje se ažurira pri svakom koraku, slično RNN-ovima. Time se, tvrde u Manifestu, zadržava izražajna snaga pažnje, ali uz linearnu – pa čak i konstantnu – računalnu složenost.
14 milijardi parametara za 4 000 dolara
Brumby je nastao prepravkom otvorenog transformera Qwen3-14B-Base. Izvorni slojevi pažnje zamijenjeni su retention-om, zbog čega su postojeće težine „zaboravile” dio znanja. Model je zato naknadno dotreniran samo 3 000 koraka – oko 60 sati rada na 32 GPU-a Nvidia H100 – što je, prema računu Manifesta, koštalo približno 4 000 USD.
Osnivač tvrtke Jacob Buckman naglašava da je niska cijena moguća upravo zato što se naslanja na već istrenirane transformere: „Brumby se od nule ne bi mogao istrenirati za taj iznos.” Unatoč tome, smatra da postupak pokazuje kako „sustavi bez pažnje mogu dostići performanse transformera uz višestruko manja ulaganja”.
Rezultati i hardverske dobitke
• Paritet s Qwen3-14B i GLM-4.5-Air na većini mjerila razumijevanja teksta.
• Blago slabiji na zadacima enciklopedijskog znanja, ali bolji u matematičkom i dugokontekstnom rezoniranju.
• Interni CUDA/Triton kernel postiže 80–85 % iskorištenosti hardvera i, prema Buckmanu, „stotinu puta ubrzava” rad na vrlo dugim nizovima u odnosu na FlashAttention2.
Tvrtka predviđa da bi model sa 700 milijardi parametara mogao biti prilagođen retention-u za 10 000–20 000 USD, čime bi se masovna eksperimentiranja spustila na razinu dostupnu i manjim istraživačkim timovima.
Reakcije zajednice
Objava je izazvala raspravu na X-u: dio istraživača ocijenio je slogan „model temelja za 4 000 USD” zavaravajućim jer ne uključuje trošak izvorne obuke Qwen-a. Buckman je uzvratio da je cijela nit jasno objasnila metodu te zaključio: „Kraj ere transformera još nije stigao, ali marš je započeo.”