OpenAI je predstavio GPT-5.1-Codex-Max, novu inačicu svog specijaliziranog modela za kodiranje koja preuzima ulogu zadanog agenta u svim Codex okruženjima.
Najvažnije novosti
• Preciznije dugoročno rezoniranje: na benchmarku SWE-Bench Verified model doseže 77,9 % točnosti pri najvišem stupnju rezoniranja, nadmašujući nedavno objavljeni Googleov Gemini 3 Pro (76,2 %).
• Učinkovitija upotreba tokena: zahvaljujući kompakciji model troši oko 30 % manje „thinking” tokena pri srednjem naporu, pa je brži i jeftiniji.
• Kontinuirani rad kroz milijune tokena: Codex-Max zadržava bitan kontekst i uspješno dovršava zadatke koji traju više od 24 sata, uključujući višestupanjske refaktore i autonomno otklanjanje grešaka.
• Šira dostupnost: verzija je već aktivna u Codex CLI-ju te u internim IDE proširenjima i alatima za kodni pregled. Javna API podrška tek dolazi, ali korisnici s ChatGPT Plus, Pro, Business, Edu i Enterprise pretplatama mogu joj pristupiti odmah.
• Sigurnosni nadzor: iako ne doseže OpenAI-jev prag „High” za kibernetičke sposobnosti, Codex-Max je trenutno njihova najjača obrambena opcija. Radi u izoliranom radnom prostoru, a mrežni pristup je po zadanim postavkama isključen.
Benchmark rezultati
• SWE-Lancer IC SWE: 79,9 % (prethodnik 66,3 %) • Terminal-Bench 2.0: 58,1 % (prethodnik 52,8 %; Gemini 3 Pro 54,2 %) • LiveCodeBench Pro Elo: 2 439 bodova – izjednačeno s Geminijem.
Arhitektonska poboljšanja
Ključno je uvođenje kompakcije, mehanizma koji filtrira nevažne dijelove konteksta kako se približava ograničenju prozora, čime održava fokus bez gubitka performansi. To otvara put agentu koji može obuhvatiti cijele repozitorije, a ne samo pojedine datoteke.
Radni primjeri prikazani uz lansiranje obuhvaćaju interaktivni simulator CartPole za učenje pojačanjem i optički alat Snell’s Law Explorer s dinamičkim praćenjem zraka.
Utjecaj na OpenAI-jev interni razvoj
Tvrtka navodi da 95 % njihovih inženjera koristi Codex barem jednom tjedno te da su, otkad je alat uveden, povećali prosječan broj pull requestova za oko 70 %. Unatoč tome, OpenAI podsjeća da model služi kao pomoćnik, a ne zamjena za ljudsku provjeru: svi prijedlozi koda prate se terminalskim zapisima i referencama na testove.
Zaključak
GPT-5.1-Codex-Max predstavlja velik korak prema autonomnim, ali nadziranim AI programerskim agentima. Uz dublje rezoniranje, bolju efikasnost i jače sigurnosne mjere, model utire put sljedećoj generaciji alata koji bi mogli preuzeti cijele projekte – uz nužan ljudski nadzor.