CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

8. studenog 2025, 06:22

Terminal-Bench 2.0 i Harbor donose strože testiranje autonomnih AI agenata

Novi benchmark i okvir za kontejnere podižu ljestvicu u testiranju sposobnosti AI agenata u terminalskim okruženjima.

min. čitanja

XFacebookWhatsApp

Razvojni tim iza popularnog benchmarka Terminal-Bench objavio je drugu verziju paketa zajedno s novim okvirom Harbor, čime žele standardizirati i ubrzati provjeru sposobnosti autonomnih AI agenata u terminalskim okruženjima.

Terminal-Bench 2.0: 89 zahtjevnijih i preciznije definiranih zadataka

• Nova verzija zamjenjuje široko prihvaćeni Terminal-Bench 1.0 iz svibnja 2025.
• Svaki od 89 zadataka prošao je višesatnu ručnu i LLM-potpomognutu validaciju kako bi se uklonile nedorečenosti i vanjske ovisnosti.
• Primjer je zadatak „download-youtube”, koji je uklonjen ili preoblikovan zbog oslanjanja na nestabilne API-je trećih strana.
• Autori su podignuli ljestvicu težine, ali i reproducibilnost: „Vjerujemo da se kvaliteta zadataka znatno popravila u novom benchmarku”, napisao je su-autor Alex Shaw na X.

Harbor: okruženje za masovno pokretanje i evaluaciju

Okvir Harbor nastao je kao interni alat za izradu Terminal-Bencha 2.0, a sada je dostupan javnosti.
• Podržava pokretanje tisuća kontejnera u oblaku te se može spojiti na pružatelje poput Daytona i Modal.
• Kompatibilan je s otvorenim i vlasničkim agentima, omogućuje nadgledano fino podešavanje (SFT), RL-treninge i izradu vlastitih benchmarka.
• „Harbor je paket koji smo željeli imati dok smo radili na Terminal-Benchu”, napisao je Shaw, pozvavši istraživače i developere da ga uključe u svoje tokove rada.

Prvi rezultati: nitko još ne rješava ni polovicu zadataka

Na javnom poretku Terminal-Bencha 2.0 trenutačno vodi OpenAI-jev Codex CLI (GPT-5 varijanta) sa 49,6 % uspješnosti. Ostale GPT-5 konfiguracije i agenti temeljeni na Claude Sonnetu 4.5 zaostaju tek za nekoliko postotnih bodova, što ukazuje na žestoku utrku bez jasnog pobjednika.

Kako sudjelovati

Testiranje ili prijava agenta svodi se na instalaciju Harbora i pokretanje nekoliko naredbi u CLI-ju. Za uvrštenje na ljestvicu potrebno je pet uzastopnih prolazaka, a organizatori potom provjeravaju dostavljene rezultate i direktorije zadataka.

Naglasak na reprodukciji i transparentnosti

Su-autor Mike Merrill najavio je radni znanstveni članak koji će detaljno opisati metodologiju i proces verifikacije. Objave Terminal-Bencha 2.0 i Harbora predstavljaju korak prema jedinstvenoj, pouzdanoj infrastrukturi za ocjenjivanje AI agenata u realističnim razvojno-operativnim scenarijima.

#openai#alex-shaw#mike-merrill#daytona#modal
View post on X
View post on X

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Hrvatska Daytona osigurala 24 milijuna dolara za računala namijenjena AI agentima
Startup Daytona, predvođen hrvatskim osnivačima, prikupio je 24 milijuna dolara za globalno širenje platforme koja u milisekundama pokreće virtualna računala za AI agente.

min čitanja

Više

Tehnologija

OpenAI lansirao GPT-5.3-Codex: novi rekordi na AI testovima kodiranja
GPT-5.3-Codex postavio je nove rekorde na ključnim mjerilima i otvorio frontalni okršaj OpenAI-ja i Anthropica na tržištu AI alata za programere.

min čitanja

Više

Tehnologija

Epsteinovi spisi, Muskov megaspoj i laoska kripto-utvrda: tjedan kada su se tehnologija i moć ponovno prepleli
Najnoviji Epsteinovi dokumenti otkrivaju veze s tehnološkom elitom, Elon Musk spaja SpaceX i xAI, a zviždač raskrinkava veliku kripto-prevaru u Laosu — sve u istom tjednu koji je ponovno spojio tehnologiju i moć.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305Palm Beach County Sheriff's Department, Public domain, via Wikimedia Commons

min čitanja

Više

Tehnologija

Prvi veliki sudski ispit za društvene mreže zbog navodne ovisnosti djece
U Los Angelesu počinje prvo „bellwether” suđenje protiv Mete, Snapa, TikToka i YouTubea zbog navodne ovisnosti i mentalnih teškoća mladih korisnika – presuda bi mogla utjecati na stotine sličnih tužbi.

min čitanja

Više

Tehnologija

Bruxelles prozvao TikTok: beskonačno skrolanje i noćne notifikacije krše europska pravila
Europska komisija preliminarno tvrdi da TikTok-ove značajke poput beskonačnog skrolanja krše DSA i potiču digitalnu ovisnost; platforma odbacuje optužbe.

min čitanja

Više

Tehnologija

Robotska kirurgija stiže u KBC Rijeka
KBC Rijeka nabavlja dva robotska sustava za urologiju, ginekologiju i digestivnu kirurgiju, čime ulazi u novu fazu minimalno invazivne medicine.

min čitanja

Više

Tehnologija

Tesla gasi modele S i X i baca sve karte na robota Optimus
Gašenje kultnih limuzina označava kraj jedne ere; Musk prenamjenjuje tvornicu i ulaže milijarde u humanoidnog robota Optimus.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Pula dobila prvi električni autobus
Nova električna linija od 8. rujna povezat će ključne gradske točke i smanjiti emisije u prijevozu.
Autor Nepoznat - https://www.sdp.hr/grbin-sdp-predlaze-izmjene-zakona-ovlastima-europskog-javnog-tuzitelja/, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=159442598

min čitanja

Više

Tehnologija

Pula Herculanea obnovila sustave nakon kibernetičkog napada
Poslovno-informacijski sustav pulskog komunalca ponovno radi nakon noćnog kibernetičkog napada.

min čitanja

Više

Tehnologija

Lažne ponude za posao pretvaraju cloud IAM u prijetnju od 2 milijarde dolara
Istraživanje CrowdStrikea otkriva kako lažni regruteri i zloćudni kodni paketi omogućuju brzi upad u oblačne račune i krađu kriptovaluta vrijednu dvije milijarde dolara.

min čitanja

Više

Najčitanije

Vijesti

Autor Government of Ukraine - ДСТУ 4512:2006 — Державний прапор України. Загальні технічні умови; Section 1, Article 20 of the Constitution of Ukraine, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=421234
U Moskvi ranjen visoki general-pukovnik Vladimir Aleksejev
Nepoznati napadač pucao je u zamjenika načelnika ruskog Glavnog stožera, koji je s teškim ozljedama prevezen u bolnicu; istražitelji tragaju za počiniteljem.

min čitanja

Više

Biznis

Nedostatak radnika pritišće turizam: hotelijeri traže još 5.000 sezonaca
Anketa HUP-a otkriva da će turizam trebati 6 % više sezonskih radnika nego prošle godine, a poslodavci rješenje i dalje vide u inozemnoj radnoj snazi.

min čitanja

Više

Najnovije

Vijesti

Dokumenti razotkrivaju: Pomoćnik princa Andrewa ostao u bliskom kontaktu s Epsteinom do 2019.

Tehnologija

Epsteinovi spisi, Muskov megaspoj i laoska kripto-utvrda: tjedan kada su se tehnologija i moć ponovno prepleli

Sport

Povratak davis cup prvaka podiže interes za 36. umaški ATP

Vijesti

Istarsko veleučilište ukida školarine za redovne studente

Politika

Trumpov video s rasističkim prikazom Obaminih izazvao žestoke osude

Politika

Trump nudi milijarde za tunel, ali traži da zračna luka i kolodvor nose njegovo ime

Sport

Jadran nakon reprezentativne stanke gostuje kod Solarisa: „Nema mjesta za opuštanje”

Sport

Bayern odbio Luku Vuškovića zbog „arogancije”, sada bi ga platio višestruko skuplje

Biznis

Obiteljski obrti na pragu ukidanja zabrane rada nedjeljom

Sport

Hope Solo vraća se na teren: cilja dvostruki milijunski plijen na TST-u

Biznis

Beli Manastir traži ulagače: Poslovna zona Zapad nudi subvencioniranu zemlju i blizinu autoceste