Tehnologija

Studija otkriva: veliki jezični modeli pamte samo 3,6 bita po parametru

Istraživanje Meta, Google DeepMind-a, NVIDIA-e i Cornella utvrdilo je da GPT-u slični modeli memoriraju fiksnih 3,6 bita po parametru, ublažavajući strah od masovnog kopiranja zaštićenog sadržaja.

min čitanja

Novo zajedničko istraživanje Meta, Google DeepMind-a, NVIDIA-e i Sveučilišta Cornell donosi dosad najprecizniji odgovor na dugo postavljano pitanje: koliko sadržaja modeli poput GPT-a stvarno pamte, a koliko generaliziraju?

Rezultat je iznenađujuće stalan broj – oko 3,6 bita po parametru. Iako to zvuči apstraktno, riječ je o količini informacije dovoljnoj da se izabere jedna od 12 opcija, manje od pola ASCII znaka. Tim je vrijednost potvrđivao na stotinama eksperimenata, mijenjajući dubinu, širinu i preciznost transformera od 500 000 do 1,5 milijardi parametara.

Ključ metode bilo je treniranje modela na potpuno nasumičnim nizovima bitova. Budući da u takvom „šumu” nema nikakvih obrazaca, svako kasnije prisjećanje može doći isključivo iz memorije, a ne iz zaključivanja. Bez obzira na arhitekturu ili veličinu, modeli su na testu i dalje zadržavali tek spomenutih 3,6 bita po parametru – čak i kada su istraživači povećali preciznost s bfloat16 na float32, skok je bio skroman, do 3,83 bita.

Jedna od najzanimljivijih posljedica tiče se autorskih prava. Autori ističu da model ne „pamti više” ako ga se hrani s više podataka; naprotiv, isti kapacitet dijeli se na veći skup primjera pa je vjerojatnost doslovnog reproduciranja pojedinog zapisa manja. Voditelj studije Jack Morris sažeo je to riječima: „Treniranje na više podataka prisiljava modele da memoriraju manje po uzorku”.

Kad su se prebacili na stvarni tekst, istraživači su primijetili uravnoteženje između memorije i generalizacije. Manji korpusi potiču doslovno pamćenje, dok goleme baze omogućuju prelazak na obrasce jezika – praćen tzv. dvostrukim padom točnosti prije konačnog skoka kada generalizacija „preuzme stvar”.

Proračun kapaciteta stavlja brojke u perspektivu: model od 500 000 parametara može zapamtiti oko 225 kB, a model od 1,5 milijardi parametara otprilike 675 MB sirovih podataka. To je daleko od tipičnih veličina multimedijalnih datoteka, ali ipak relevantno za rasprave o privatnosti i sigurnosti.

Autori zaključuju da je „više podataka, a ne manje” sigurniji put za razvoj velikih jezičnih modela. U jeku sudskih sporova oko generativne umjetne inteligencije, njihovi bi rezultati mogli postati važan argument u prilog tvrdnji da treniranje na zaštićenim materijalima nije nužno jednako nedopuštenom kopiranju.

View post on X

Slično

Google DeepMind predstavlja Gemini Diffusion i otvara utrku za munjevito brze jezične modele
Eksperimentalni Gemini Diffusion zamjenjuje autoregresijsko generiranje difuzijskim postupkom denoiziranja, postiže i do 2 000 tokena u sekundi te otvara nova pitanja o brzini, cijeni i točnosti budućih velikih jezičnih modela.

min čitanja

Više

Meta predstavlja V-JEPA 2: robotika korak bliže ljudskom razumijevanju fizike
Novi Meta-in model V-JEPA 2 donosi robotima mogućnost planiranja i rukovanja predmetima u nepoznatim okruženjima, uz smanjene troškove obuke i primjenu u logistici, proizvodnji i digitalnim blizancima.

min čitanja

Više

CrowdStrike i NVIDIA udružili snage za sigurnije LLM-ove
CrowdStrike i NVIDIA lansirali su rješenje koje izravno ugradnjom sigurnosnih funkcija u LLM infrastrukturu donosi runtime zaštitu za više od 100 000 poslovnih modela.

min čitanja

Više

Ostalo

Trumpov rođendanski spektakl: Washington priprema najveću vojnu paradu u svojoj povijesti
Donald Trump obilježava 79. rođendan najvećom vojnom paradom u Washingtonu, dok diljem SAD-a rastu prosvjedi protiv njegove politike.

min čitanja

Više

Papa Lav pozvao Iran i Izrael na razboritost i dijalog
Obraćajući se vjernicima u Bazilici svetog Petra, Papa Lav pozvao je Teheran i Jeruzalem na razboritost i dijalog, ističući da nitko ne smije ugroziti postojanje drugoga.

min čitanja

Više

Modrić nahvalio Alonsa na prvom treningu Reala
Hrvatski kapetan hvali radnu etiku Xabija Alonsa dok Real Madrid cilja naslov na Svjetskom klupskom prvenstvu u SAD-u.

min čitanja

Više

Podolnjak: Sabor, DIP i Ustavni sud pali na ispitu regularnosti izbora
Ustavnopravni stručnjak Robert Podolnjak upozorava da su Sabor, DIP i Ustavni sud zakazali u nadzoru lokalnih izbora, što je narušilo povjerenje građana te zahtijeva hitnu reformu izbornog sustava.

min čitanja

Više

Napad na političare u Minnesoti: Hoffman i Hortman ranjeni u dvostrukoj pucnjavi
Senator John Hoffman i zastupnica Melissa Hortman te njihovi supružnici ranjeni su u dvjema odvojenim pucnjavama u Minnesoti; policija traga za napadačem.

min čitanja

Više

Brozović na pragu spektakularnog preseljenja: Al Hilal nudi ugovor života
Najbogatiji saudijski klub Al Hilal nudi Marcela Brozoviću gotovo dvostruko veći ugovor od sadašnjeg u Al-Nassru, dok Al Shabab iz prikrajka vreba svoju priliku.

min čitanja

Više

Izraelski udar na Iran zbližio političke rivale i učvrstio Netanyahua
Izraelski zračni i kibernetički udari na Iran ujedinili su izraelsku politiku, produbili pritisak na Teheran i privremeno ojačali položaj premijera Benjamina Netanyahua.

min čitanja

Više

Ružić na korak do glavnog ždrijeba Nottinghama
Antonia Ružić svladala Varvaru Lepchenko i izborila finale kvalifikacija WTA turnira u Nottinghamu.

min čitanja

Više

David Beckham dobio titulu viteza u godišnjoj kraljevoj listi
Bivši kapetan Engleske primio je najviše britansko odlikovanje koje nosi naslov „Sir”.

min čitanja

Više

Njemačka najavljuje povratak 17.000 azilanata, Jurić upozorava na demografsku preobrazbu Hrvatske
Njemačka planira vratiti 17 000 tražitelja azila u Hrvatsku; demograf Tado Jurić upozorava da bi taj val, zajedno s trajnim ostankom većine ukrajinskih izbjeglica, mogao dramatično promijeniti hrvatsko društvo i tržište rada.

min čitanja

Više