Meta je objavila Code World Model (CWM), veliki jezični model od 32 milijarde parametara koji kod ne uči samo po sintaksi, nego i po njegovu ponašanju tijekom izvršavanja.
Prema istraživačima, tradicionalna obuka LLM-ova svodi se na pogađanje sljedećeg tokena, pa modeli najčešće „znaju” kako kod izgleda, ali ne i što radi. CWM to pokušava promijeniti već u srednjem dijelu treninga, oslanjajući se na dvije velike skupine podataka:
- tragove izvršavanja Python programa – detaljne zapise o promjenama varijabli liniju po liniju;
- interakcije agentskog sustava ForagerAgent u Docker okruženjima, koji simulira softverskog inženjera dok otklanja greške ili dodaje nove značajke.
Takav pristup modelu omogućuje da stvori internu „slikovnicu” dinamike računalnih sustava, zbog čega je sposoban pisati, testirati i samostalno provjeravati vlastiti kod, slično ljudskom programeru. Na primjeru natjecateljskog zadatka model prvo generira rješenje, zatim sastavlja vlastite ulazno-izlazne testove i uspoređuje očekivane s dobivenim rezultatima.
CWM je u standardnim mjerilima zabilježio zapažene rezultate: 65,8 % prolaznosti na SWE-bench Verified (otklanjanje stvarnih GitHub problema), visoke ocjene na LiveCodeBench, Math-500, AIME 2024 i CruxEval. Istraživači smatraju da ovo potvrđuje potencijal „modela svijeta” za složenije zadatke poput verifikacije, testiranja i debugiranja.
Model se objavljuje isključivo za istraživačke svrhe pod nekomercijalnom licencom. Nije optimiran za opću konverzacijsku upotrebu, iako je dobio ograničenu instrukcijsku obuku. Tim naglašava kako je riječ o „prvim koracima” te vidi veliku priliku u budućim radovima koji bi povezali znanje modela svijeta s finim podešavanjem i promptiranjem za različite zadatke.
Potez dolazi u trenutku sve većeg interesa za pomicanje LLM-ova izvan same predikcije tokena. Dok tehnike poput „chain-of-thought” generiraju vidljiv tok misli, one i dalje ostaju u domenu slaganja tokena. Svijetli modeli, poput CWM-a ili novijih JEPA hibrida, pokušavaju izgraditi latentnu predstavu okoline, što bi, smatraju istraživači, moglo rezultirati robusnijim i pouzdanijim sustavima u promjenjivim realnim uvjetima.