Istraživači sa Sveučilišta Illinois u Urbana-Champaignu i Kalifornijskog sveučilišta u Berkeleyju predstavili su AlphaOne (α1), okvir koji razvijateljima omogućuje precizno upravljanje načinom na koji veliki jezični modeli (LLM-ovi) razmišljaju tijekom izvođenja. Za razliku od skupog ponovnog treniranja, α1 djeluje isključivo u fazi inferencije, tj. kad model već odgovara na upit.
Glavna ideja: umjesto jednokratnog pojačavanja ili ograničavanja „sporog”, sustav-2 razmišljanja, AlphaOne uvodi parametar alfa – kliznik koji developer može okretati kako bi modelu odmjerio količinu promišljenog razmišljanja. Sustav prije definiranog „α-trenutka” ubacuje naredbu „wait” kako bi potaknuo promišljanje; nakon toga umetne oznaku </think> i preusmjeri model na brzo zaključivanje.
Testovi na trima modelima (1,5 do 32 milijarde parametara) i šest zahtjevnih mjerila iz matematike, programiranja i prirodnih znanosti donijeli su tri ključna zaključka:
- Strategija „prvo sporo, zatim brzo” povećava točnost rješenja, i to za prosječno 6,15 % u odnosu na postojeć e metode.
- Iako sporo razmišljanje na početku odulji vrijeme, ukupni broj generiranih tokena padne za oko 21 %, pa se smanjuju računalni troškovi.
- Učestalije umetanje „wait” tokena dodatno podiže rezultate – znatno više nego što to čine dosadašnje tehnike s povremenim intervencijama.
„Ključ je u strukturiranom prelasku sa sporog na brzo razmišljanje; tako nastaju i bolje i jeftinije inferencije”, poručio je tim AlphaOnea. Kod bi uskoro trebao biti javno objavljen, a integracija se, kako tvrde, svodi na promjenu naziva modela u konfiguracijskoj datoteci.
Za poduzeća koja traže preciznije odgovore na kompleksne upite ili učinkovitiji generirani kod, to znači dvije dobit i: kvalitetniji izlaz i niže troškove rada modela – kombinaciju koju dosadašnji pristupi često nisu mogli pomiriti.