Tim sa Sveučilišta Maryland, Lawrence Livermore National Laboratoryja, Sveučilišta Columbia i startup-a TogetherAI predstavio je tehniku višestrukog predviđanja tokena (multi-token prediction, MTP) koja ubrzava rad jezičnih modela do tri puta, a pritom zahtijeva samo jedan dodatni „specijalni” token u arhitekturi.
Tradicionalni modeli generiraju tekst po principu „sljedeći token”, što znači da se za svaku riječ ili znak pokreće zaseban prolaz kroz mrežu. Kada modeli moraju ispisati tisuće tokene za detaljne chain-of-thought odgovore, to pretvara latenciju u skupi usko grlo. Nova metoda omogućuje da se cijeli blok tokena izračuna u jednom prolazu, čime se dramatično skraćuje vrijeme čekanja za krajnjeg korisnika.
Ključni izazov MTP-a leži u očuvanju gramatičke koherentnosti. Ako se svaki od, primjerice, pet tokena predviđa neovisno, nastaju konstrukcije poput „panda meso” ili beskonačno ponavljanje riječi „the”. Kako bi to izbjegli, istraživači su uveli shemu učenja učenik-mentor:
• Učenik (student) istodobno predloži blok tokena.
• Mentor (teacher) – snažan model treniran klasičnim pristupom – procijeni koliko je prijedlog vjerojatan i smislen te na temelju toga dodjeli gubitak.
Taj proces podsjeća na učenje potkrijepljeno nagradom: povratna informacija nije statična, nego nastaje u hodu iz samih prijedloga učenika, što ga uči izbjegavati nelogične fraze i neželjene ponavljanja.
Da bi ubrzanje u praksi bilo što veće bez velikog udara na točnost, uveden je adaptivni dekoder ConfAdapt. On za svaku iteraciju provjerava samopouzdanje modela; tokeni iznad, primjerice, 90 % sigurnosti prihvaćaju se u paketu, dok se neizvjesni dijelovi teksta generiraju klasično, token po token.
Na modelu Llama-3.1-8B prilagođenom na matematičkom skupu MetaMathQA postignuto je trostruko ubrzanje uz manje od tri posto pada točnosti. Kompaktniji Qwen3-4B dosegnuo je isti faktor ubrzanja uz oko sedam posto kompromisa. U agresivnijim postavkama mogući su i petostruki dobitci, ali uz veći gubitak preciznosti.
Istraživanje je pokazalo da se dobitci prelijevaju i na zadatke koji nisu bili dio faze treniranja, poput kreativnog pisanja ili sažimanja. Unatoč tome, autori savjetuju organizacijama da svoje domenske upite uključe u dodatnu MTP prilagodbu kako bi dobili optimalnu ravnotežu brzine i kvalitete.
Modeli trenirani prema ovom pristupu već su objavljeni na otvorenoj platformi, a kôd za MTP okvir bit će uskoro dostupan. Inženjerski timovi koji ih integriraju u postojeće sustave trebat će prilagoditi logiku grupiranja zahtjeva i spremanja KV-zapisa – jednokratni trošak, kako navode autori, bez dugoročnih prepreka.
„Očekujemo da će produkcijska implementacija naše metode pojednostaviti razvoj brzih, agentskih modela niske latencije, jer dio složenosti više nije na inferencijskoj infrastrukturi nego ugrađen izravno u težine modela”, poručio je suautor istraživanja John Kirchenbauer.