Istraživači Nvidije predstavili su NVFP4, novi način treniranja velikih jezičnih modela (LLM-ova) u svega 4 bita koji, prema vlastitim mjerenjima, postiže jednaku točnost kao u znatno većem FP8 formatu – uz dvostruko nižu potrošnju memorije i osjetno manje računalnih resursa.
Zašto je 4-bitna preciznost dosad bila problem
Kvantisacija smanjuje veličinu i trošak rada modela pretvaranjem težina iz 16- ili 32-bitnih formata u one niže preciznosti. No 4-bitni FP4 može prikazati samo 16 različitih vrijednosti, što otežava vjernu reprezentaciju podataka i često ruši točnost. Postojeći standardi, poput MXFP4, morali su birati između uštede i performansi.
Kako NVFP4 rješava ograničenja
Nvidijino rješenje uvodi višerazinsko skaliranje koje preciznije hvata ekstremne vrijednosti u podacima. Uz to, većina slojeva kvantizira se u 4 bita, dok se numerički osjetljivi dijelovi ostavljaju u BF16 formatu – taktika koju tvrtka naziva „mixed-precision strategy”. Na taj se način, navode autori, postiže „more precise and accurate representation of tensor values during training”.
Rezultati na modelu od 12 milijardi parametara
Tim je trenirao hibridni Mamba-Transformer sa 12 milijardi parametara na 10 bilijuna tokena i usporedio ga sa standardnim FP8 modelom. Krivulje gubitka i preciznosti bile su gotovo identične u cijelom procesu, a odstupanja su se pojavila tek u kasnijim fazama testova kodiranja. „This marks, to our knowledge, the first successful demonstration of training billion-parameter language models with 4-bit precision over a multi-trillion-token horizon,” pišu istraživači.
U zasebnom testu s modelom od 8 milijardi parametara NVFP4 je postigao bolji gubitak od MXFP4, dok je konkurentskom formatu trebalo 36 % više podataka da dostigne isti rezultat.
Poslovne implikacije
Direktor proizvoda za AI i podatkovne GPU-e u Nvidiji, Shar Narasimhan, ističe praktične koristi: „By training model weights directly in 4-bit format while preserving accuracy, it empowers developers to experiment with new architectures, iterate faster and uncover insights without being bottlenecked by resource constraints.” On dodaje da „NVFP4 breaks that ceiling, offering equivalent quality with dramatically greater headroom for growth and experimentation”.
Manji modeli smanjuju troškove i tijekom izvođenja, što otvara vrata složenim aplikacijama u stvarnom vremenu bez povećanja potrošnje energije. Narasimhan predviđa pomak s općih LLM-ova na „diverse ecosystem of custom, high-performance models built by a broader range of innovators”.
Što slijedi
Autori rada smatraju da NVFP4 postavlja temelj za „brže i učinkovitije treniranje budućih modela granice mogućeg”. Idući koraci uključuju dodatno istraživanje još nižih preciznosti i prilagodbi arhitektura kako bi se smanjilo opterećenje dijelova koji najviše troše računalnu snagu. Kako kaže Narasimhan, „precision can be optimized without compromising quality, and it sets the stage for a new era of intelligent, efficient AI design”.