Natrag na početnu

# bryan-catanzaro

Tehnologija

Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela

Metoda reinforcement learning pre-training (RLP) nagrađuje modele za korisne interne „misli” već u ranoj fazi treniranja, a pokusi pokazuju dvoznamenkasta poboljšanja na zadacima logičkog zaključivanja.

min čitanja

Više