Terminal-Bench 2.0 i Harbor donose strože testiranje autonomnih AI agenata

Razvojni tim iza popularnog benchmarka Terminal-Bench objavio je drugu verziju paketa zajedno s novim okvirom Harbor, čime žele standardizirati i ubrzati provjeru sposobnosti autonomnih AI agenata u terminalskim okruženjima.

Terminal-Bench 2.0: 89 zahtjevnijih i preciznije definiranih zadataka

• Nova verzija zamjenjuje široko prihvaćeni Terminal-Bench 1.0 iz svibnja 2025.
• Svaki od 89 zadataka prošao je višesatnu ručnu i LLM-potpomognutu validaciju kako bi se uklonile nedorečenosti i vanjske ovisnosti.
• Primjer je zadatak „download-youtube”, koji je uklonjen ili preoblikovan zbog oslanjanja na nestabilne API-je trećih strana.
• Autori su podignuli ljestvicu težine, ali i reproducibilnost: „Vjerujemo da se kvaliteta zadataka znatno popravila u novom benchmarku”, napisao je su-autor Alex Shaw na X.

Harbor: okruženje za masovno pokretanje i evaluaciju

Okvir Harbor nastao je kao interni alat za izradu Terminal-Bencha 2.0, a sada je dostupan javnosti.
• Podržava pokretanje tisuća kontejnera u oblaku te se može spojiti na pružatelje poput Daytona i Modal.
• Kompatibilan je s otvorenim i vlasničkim agentima, omogućuje nadgledano fino podešavanje (SFT), RL-treninge i izradu vlastitih benchmarka.
• „Harbor je paket koji smo željeli imati dok smo radili na Terminal-Benchu”, napisao je Shaw, pozvavši istraživače i developere da ga uključe u svoje tokove rada.

Prvi rezultati: nitko još ne rješava ni polovicu zadataka

Na javnom poretku Terminal-Bencha 2.0 trenutačno vodi OpenAI-jev Codex CLI (GPT-5 varijanta) sa 49,6 % uspješnosti. Ostale GPT-5 konfiguracije i agenti temeljeni na Claude Sonnetu 4.5 zaostaju tek za nekoliko postotnih bodova, što ukazuje na žestoku utrku bez jasnog pobjednika.

Kako sudjelovati

Testiranje ili prijava agenta svodi se na instalaciju Harbora i pokretanje nekoliko naredbi u CLI-ju. Za uvrštenje na ljestvicu potrebno je pet uzastopnih prolazaka, a organizatori potom provjeravaju dostavljene rezultate i direktorije zadataka.

Naglasak na reprodukciji i transparentnosti

Su-autor Mike Merrill najavio je radni znanstveni članak koji će detaljno opisati metodologiju i proces verifikacije. Objave Terminal-Bencha 2.0 i Harbora predstavljaju korak prema jedinstvenoj, pouzdanoj infrastrukturi za ocjenjivanje AI agenata u realističnim razvojno-operativnim scenarijima.