Istraživači iz Tencent AI Lab Seattle i Sveučilišta Maryland, College Park predstavili su Parallel-R1, tehniku potkrijepljenu učenjem kroz potkrepljenje (reinforcement learning, RL) koja velikim jezičnim modelima (LLM-ovima) omogućuje da u vrijeme izvođenja zadatka generiraju više paralelnih tokova zaključivanja i tako dolaze do točnijih odgovora.
„Riječ je o prvom RL okviru koji omogućuje paralelno razmišljanje kod složenih zadataka iz stvarnog svijeta”, istaknuli su autori rada.
Zašto paralelno razmišljanje?
• Paradigma grana-i-glasa (best of N) ili naprednije metode poput Monte Carlo Tree Searcha i Tree of Thoughtsa dosad su tražile vanjske sustave i ručno definirana pravila. • Nadogradnja putem nadziranog finog ugađanja često ovisi o rijetkim, skupo označenim podacima. • RL obećava skalabilnost, ali pati od „cold-start” problema i složenog dizajna nagrada.
Kako radi Parallel-R1
-
Dvostupanjski format razmišljanja
– Exploration: model po pojavi oznake<Parallel>
otvara više blokova<Path>
s različitim misaonim tokovima.
– Summary: iz nalaza formira sažetak<Summary>
i nastavlja glavnu nit. -
Trodijelni proces učenja
• Cold-Start: model se fino ugađa na oko 7 000 AI-generiranih primjera paralelnog razmišljanja iz skupa GSM8K, kako bi svladao sam format.
• RL na lakšoj matematici: uvodi se dvojak sustav nagrađivanja – točnost rješenja i pravilna uporaba strukture.
• RL na složenijoj matematici: sposobnost se proširuje na zahtjevnije zadatke. -
Alternirajuća nagrada
Naizmjenično nagrađivanje točnog odgovora i dosljednog paralelnog formata pokazalo se najboljim kompromisom između performansi i brzine.
Rezultati
Model Qwen-3-4B-Base treniran Parallel-R1 metodom nadmašio je sve usporedne inačice na standardnim matematičkim benchmark-ovima poput AIME, AMC i MATH. Autori tvrde da se time „otključava veća snaga zaključivanja bez skupe ekspanzije modela”, što je posebno privlačno za poduzeća koja žele jaču analitičku inteligenciju, ali ne i dodatne troškove treniranja golemih mreža.
Šira slika
Google je nedavno pripisao uspjeh svog modela Gemini Deep Think na Međunarodnoj matematičkoj olimpijadi upravo sposobnosti razmatranja više misaonih tokova. Parallel-R1 donosi sličnu strategiju u otvoreniji i skalabilniji RL okvir, pa bi se „paralelno razmišljanje” moglo ubrzo nametnuti kao standardni pristup za složene zadatke logičkog zaključivanja.