Istraživači sa Sveučilišta Stanford i Nvidije razvili su pristup nazvan „End-to-End Test-Time Training” (TTT-E2E) kojim veliki jezični modeli mogu nastaviti učiti i nakon što su pušteni u rad – bez rasta troškova izvođenja.
Tradicionalna dilema između preciznih, ali skupih Transformer-modela s punom samo-pažnjom i bržih, ali zaboravnijih linearnih arhitektura sada dobiva novu opciju. Autori tvrde da TTT-E2E omogućuje transformere koji u dugim dokumentima postižu točnost usporedivu s punom pažnjom, a pritom rade gotovo jednako učinkovito kao rekurentne mreže.
Ključna ideja: model se tijekom obuke trenira da u stvarnom vremenu sažima važne informacije umjesto da mehanički pamti svaku riječ. Tijekom tzv. unutarnje petlje model privremeno ažurira svoje težine dok predviđa sljedeći token, što oponaša način na koji će se prilagođavati nakon implementacije. Vanjska petlja potom podešava inicijalizaciju kako bi idući krug učenja bio brži i precizniji.
Time se jezično modeliranje pretvara u kontinuirani proces učenja: umjesto da hard-kodira činjenice, sustav „uči kako učiti”. Za tvrtke koje se bore s kilometarskim dokumentacijama, korisničkim karticama i zapisnicima, to znači mogućnost „dugog pamćenja” bez eksplozije računalnih troškova.
Suautor Yu Sun poručuje da promjenjive težine u produkciji ne moraju biti sigurnosni rizik jer je metoda, kako kaže, „matematički sigurnija nego što se čini”.
Ako se rezultati potvrde u praksi, TTT-E2E bi mogao postati prekretnica za poslovne sustave kojima je svaka milisekunda i svaka GPU-sekunda bitna.