Istraživači sa Sveučilišta Illinois u Urbani i Champaignu te Sveučilišta Virginije predstavili su arhitekturu energy-based transformer (EBT) koja bi, tvrde, mogla donijeti robusnije modele umjetne inteligencije s izraženijim sposobnostima zaključivanja.
EBT spaja načela energetskih modela – gdje se svako rješenje ocjenjuje „energetskom” mjerom kompatibilnosti – s popularnom transformer strukturom. Umjesto da odmah izgenerira odgovor, model najprije procjenjuje koliko je pojedini prijedlog dobar pa ga iterativno poboljšava sve dok ne postigne najnižu energiju. Takav „verifier-centric” pristup omogućuje:
• dinamičnu raspodjelu računalnih resursa – model može „misliti dulje” na teškim, a kraće na lakim zadacima; • prirodno baratanje nesigurnošću kada nema jednoznačnog odgovora; • samostalnu provjeru valjanosti bez vanjskog verifikatora.
„EBTs can generate longer CoTs, self-verify, do best-of-N [or] you can sample from many EBTs. The best part is, all of these capabilities are learned during pretraining”, rekao je voditelj istraživanja Alexi Gladstone.
Bolja učinkovitost i generalizacija
Tijekom pretreniranja EBT je postigao do 35 % bržu krivulju skaliranja od uobičajenog Transformer++ recepta, što znači manji trošak treniranja. Na problemskim zadacima model je, zahvaljujući duljem „razmišljanju” i samoprovjeri, podigao performanse za 29 % više od klasičnog transformera.
U zadatku uklanjanja šuma iz slika EBT je nadmašio diffusion transformer uz 99 % manje prolazaka kroz mrežu, a posebno je briljirao na podacima udaljenima od onih viđenih u treningu, pokazujući visoku otpornost na distribucijske promjene.
Autori procjenjuju da bi pri današnjim razmjerima temeljnih modela – uz tisuću puta više podataka i parametara – EBT mogao znatno nadmašiti klasičnu arhitekturu. Uz to, pokazao je znatno bolju podatkovnu učinkovitost, presudnu u vrijeme kada kvalitetni setovi postaju usko grlo daljnjeg skaliranja AI-a.
Spreman za postojeći hardver
Usprkos drukčijem mehanizmu inferencije, EBT se može pokrenuti na istom hardveru kao i današnji modeli. „EBTs are very compatible with current hardware/inference frameworks”, napominje Gladstone, dodajući da se mogu izvoditi na GPU-ima, TPU-ima ili specijaliziranim akceleratorima te integrirati u alate poput vLLM-a.
Za poduzeća, kombinacija snažnog zaključivanja i prilagodbe nepoznatim situacijama mogla bi biti presudna. „Thinking longer can broadly help on almost all enterprise applications, but I think the most exciting will be those requiring more important decisions, safety or applications with limited data”, zaključuje Gladstone.