CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

8. studenog 2025, 06:22

Terminal-Bench 2.0 i Harbor donose strože testiranje autonomnih AI agenata

Novi benchmark i okvir za kontejnere podižu ljestvicu u testiranju sposobnosti AI agenata u terminalskim okruženjima.

min. čitanja

XFacebookWhatsApp

Razvojni tim iza popularnog benchmarka Terminal-Bench objavio je drugu verziju paketa zajedno s novim okvirom Harbor, čime žele standardizirati i ubrzati provjeru sposobnosti autonomnih AI agenata u terminalskim okruženjima.

Terminal-Bench 2.0: 89 zahtjevnijih i preciznije definiranih zadataka

• Nova verzija zamjenjuje široko prihvaćeni Terminal-Bench 1.0 iz svibnja 2025.
• Svaki od 89 zadataka prošao je višesatnu ručnu i LLM-potpomognutu validaciju kako bi se uklonile nedorečenosti i vanjske ovisnosti.
• Primjer je zadatak „download-youtube”, koji je uklonjen ili preoblikovan zbog oslanjanja na nestabilne API-je trećih strana.
• Autori su podignuli ljestvicu težine, ali i reproducibilnost: „Vjerujemo da se kvaliteta zadataka znatno popravila u novom benchmarku”, napisao je su-autor Alex Shaw na X.

Harbor: okruženje za masovno pokretanje i evaluaciju

Okvir Harbor nastao je kao interni alat za izradu Terminal-Bencha 2.0, a sada je dostupan javnosti.
• Podržava pokretanje tisuća kontejnera u oblaku te se može spojiti na pružatelje poput Daytona i Modal.
• Kompatibilan je s otvorenim i vlasničkim agentima, omogućuje nadgledano fino podešavanje (SFT), RL-treninge i izradu vlastitih benchmarka.
• „Harbor je paket koji smo željeli imati dok smo radili na Terminal-Benchu”, napisao je Shaw, pozvavši istraživače i developere da ga uključe u svoje tokove rada.

Prvi rezultati: nitko još ne rješava ni polovicu zadataka

Na javnom poretku Terminal-Bencha 2.0 trenutačno vodi OpenAI-jev Codex CLI (GPT-5 varijanta) sa 49,6 % uspješnosti. Ostale GPT-5 konfiguracije i agenti temeljeni na Claude Sonnetu 4.5 zaostaju tek za nekoliko postotnih bodova, što ukazuje na žestoku utrku bez jasnog pobjednika.

Kako sudjelovati

Testiranje ili prijava agenta svodi se na instalaciju Harbora i pokretanje nekoliko naredbi u CLI-ju. Za uvrštenje na ljestvicu potrebno je pet uzastopnih prolazaka, a organizatori potom provjeravaju dostavljene rezultate i direktorije zadataka.

Naglasak na reprodukciji i transparentnosti

Su-autor Mike Merrill najavio je radni znanstveni članak koji će detaljno opisati metodologiju i proces verifikacije. Objave Terminal-Bencha 2.0 i Harbora predstavljaju korak prema jedinstvenoj, pouzdanoj infrastrukturi za ocjenjivanje AI agenata u realističnim razvojno-operativnim scenarijima.

#openai#alex-shaw#mike-merrill#daytona#modal
View post on X
View post on X
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

EU birokracija pod pritiskom pritužbi koje piše umjetna inteligencija
Umjetna inteligencija urušava stare procedure: EU bilježi eksploziju AI-generiranih pritužbi i projektnih prijedloga, a institucije ubrzano uvode protumjere.

min čitanja

Više

Tehnologija

Ribera: Digitalni akt o tržištima EU-a već izjednačava odnose s tehnološkim divovima
Europska povjerenica za tržišno natjecanje u Barceloni je poručila da je DMA donio vidljive promjene, najavila reviziju propisa i odbacila kritike o sporoj provedbi.

min čitanja

Više

Tehnologija

Digitalni skok sudskih registara: 86 posto prijava podneseno elektronički
Ministar Damir Habijan objavio je da se većina prijava za upis u sudski registar podnosi online, što smanjuje troškove i ukida potrebu za odlaskom na sud.
By European Commission - https://newsroom.consilium.europa.eu/events/20240613-justice-and-home-affairs-council-june-2024/Roundtable(Justice)-27833/187367, Public Domain, https://commons.wikimedia.org/w/index.php?curid=171255177

min čitanja

Više

Tehnologija

Humanoidni robot Unitree R1 stiže na AliExpress i ruši cjenovne barijere
Unitree R1, četveronožni humanoid visok 1,2 m, uskoro se prodaje na AliExpressu za oko 4 370 dolara, što ga čini najjeftinijim humanoidom na tržištu i otvara vrata širem krugu korisnika.

min čitanja

Više

Tehnologija

Više od 70 udruga traži od Mete da odustane od prepoznavanja lica u pametnim naočalama
Koalicija civilnih organizacija smatra da bi funkcija „Name Tag” u Ray-Banu i Oakleyu omogućila tiho prepoznavanje prolaznika i ozbiljno ugrozila privatnost.
Anthony Quintano from Honolulu, HI, United States, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Kineski BYD otkrio Denza Z9 GT: najbrže punjenje na svijetu
BYD najavljuje električni model Denza Z9 GT, koji bi se trebao puniti brže od bilo kojeg drugog automobila na tržištu.

min čitanja

Više

Tehnologija

IMO kreće u digitalnu revoluciju brodskog prometa
Međunarodna pomorska organizacija donijela je strategiju koja digitalizira luke i brodove, ukida papirologiju i uvodi obaveznu cyber zaštitu do 2029.

min čitanja

Više

Tehnologija

Djeca i roboti ispunili labinski sportski centar
Interaktivan „STEAM kutak” u Labinu spojio je Lego gradnju, robote i fiziku, privukavši brojne mlade zaljubljenike u znanost i umjetnost.

min čitanja

Više

Tehnologija

Virtualni spoj na milijun načina: londonski developeri grade agente koji traže idealnog partnera
Projekt Pixel Societies prikazuje kako bi personalizirani AI agenti mogli u virtualnom svijetu tražiti nama kompatibilne partnere – i to brže nego što bismo ikad uspjeli sami.

min čitanja

Više

Tehnologija

Humanoidna robotica Tonka otvorila 5. Festival strukovnih zanimanja u Pazinu
U Pazinu je otvoren peti Festival strukovnih zanimanja; publiku je pozdravila humanoidna robotica Tonka, a stručnjaci raspravljali o jačoj vezi između škola i gospodarstva.

min čitanja

Više

Najčitanije

Politika

Magyar obećava brz zaokret: Budimpešta nudi Bruxellesu reforme za odmrzavanje milijardi
Novi mađarski čelnik hitno treba otključati 18 milijardi eura iz EU fondova, a Bruxelles zauzvrat traži ukidanje blokade pomoći Ukrajini i dubinske pravosudne reforme.
Autor European People's Party - EPP Lead Candidate Multimedia Content, CC BY 2.0, https://commons.wikimedia.org/w/index.php?curid=148344970

min čitanja

Više

Vijesti

Kineski tanker probio američku blokadu u Hormuškom tjesnacu
Brod „Rich Starry”, pod američkim sankcijama, nesmetano je prošao kroz ključni tjesnac unatoč najavljenoj blokadi.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Vijesti

Zelena nejednakost: bogatiji Europljani uživaju u drveću, siromašniji ostaju bez hlada

Tehnologija

EU birokracija pod pritiskom pritužbi koje piše umjetna inteligencija

Politika

Magyar obećava brz zaokret: Budimpešta nudi Bruxellesu reforme za odmrzavanje milijardi

Vijesti

Nedostaju podaci za izradu vijesti

Politika

Merz odbio hitno slanje Njemačke u Hormuški tjesnac

Vijesti

Filmom protiv tišine: konferencija HAVC-a istaknula vezu sedme umjetnosti i mentalnog zdravlja djece

Politika

Bugarski premijer najavljuje oštriju borbu protiv kupnje glasova uoči novih izbora

Politika

Irac Anthony Whelan preuzima kormilo Glavne uprave za tržišno natjecanje EU-a

Vijesti

Povlači se serija očne masti s oksitetraciklinom

Politika

Meloni osudila Trumpov napad na papu Leona XIV

Politika

Kaja Kallas pred UN-om: ratovi u Ukrajini i na Bliskom istoku najveće su kršenje međunarodnog prava od Drugog svjetskog rata