Novo zajedničko istraživanje Meta, Google DeepMind-a, NVIDIA-e i Sveučilišta Cornell donosi dosad najprecizniji odgovor na dugo postavljano pitanje: koliko sadržaja modeli poput GPT-a stvarno pamte, a koliko generaliziraju?
Rezultat je iznenađujuće stalan broj – oko 3,6 bita po parametru. Iako to zvuči apstraktno, riječ je o količini informacije dovoljnoj da se izabere jedna od 12 opcija, manje od pola ASCII znaka. Tim je vrijednost potvrđivao na stotinama eksperimenata, mijenjajući dubinu, širinu i preciznost transformera od 500 000 do 1,5 milijardi parametara.
Ključ metode bilo je treniranje modela na potpuno nasumičnim nizovima bitova. Budući da u takvom „šumu” nema nikakvih obrazaca, svako kasnije prisjećanje može doći isključivo iz memorije, a ne iz zaključivanja. Bez obzira na arhitekturu ili veličinu, modeli su na testu i dalje zadržavali tek spomenutih 3,6 bita po parametru – čak i kada su istraživači povećali preciznost s bfloat16 na float32, skok je bio skroman, do 3,83 bita.
Jedna od najzanimljivijih posljedica tiče se autorskih prava. Autori ističu da model ne „pamti više” ako ga se hrani s više podataka; naprotiv, isti kapacitet dijeli se na veći skup primjera pa je vjerojatnost doslovnog reproduciranja pojedinog zapisa manja. Voditelj studije Jack Morris sažeo je to riječima: „Treniranje na više podataka prisiljava modele da memoriraju manje po uzorku”.
Kad su se prebacili na stvarni tekst, istraživači su primijetili uravnoteženje između memorije i generalizacije. Manji korpusi potiču doslovno pamćenje, dok goleme baze omogućuju prelazak na obrasce jezika – praćen tzv. dvostrukim padom točnosti prije konačnog skoka kada generalizacija „preuzme stvar”.
Proračun kapaciteta stavlja brojke u perspektivu: model od 500 000 parametara može zapamtiti oko 225 kB, a model od 1,5 milijardi parametara otprilike 675 MB sirovih podataka. To je daleko od tipičnih veličina multimedijalnih datoteka, ali ipak relevantno za rasprave o privatnosti i sigurnosti.
Autori zaključuju da je „više podataka, a ne manje” sigurniji put za razvoj velikih jezičnih modela. U jeku sudskih sporova oko generativne umjetne inteligencije, njihovi bi rezultati mogli postati važan argument u prilog tvrdnji da treniranje na zaštićenim materijalima nije nužno jednako nedopuštenom kopiranju.