Natrag na početnu
# bryan-catanzaro
Nvidia tvrdi da je pronašla način za „učenje razmišljanja” još u pretreniranja modela
Metoda reinforcement learning pre-training (RLP) nagrađuje modele za korisne interne „misli” već u ranoj fazi treniranja, a pokusi pokazuju dvoznamenkasta poboljšanja na zadacima logičkog zaključivanja.
min čitanja
Više