CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

8. studenog 2025, 06:22

Terminal-Bench 2.0 i Harbor donose strože testiranje autonomnih AI agenata

Novi benchmark i okvir za kontejnere podižu ljestvicu u testiranju sposobnosti AI agenata u terminalskim okruženjima.

min. čitanja

XFacebookWhatsApp

Razvojni tim iza popularnog benchmarka Terminal-Bench objavio je drugu verziju paketa zajedno s novim okvirom Harbor, čime žele standardizirati i ubrzati provjeru sposobnosti autonomnih AI agenata u terminalskim okruženjima.

Terminal-Bench 2.0: 89 zahtjevnijih i preciznije definiranih zadataka

• Nova verzija zamjenjuje široko prihvaćeni Terminal-Bench 1.0 iz svibnja 2025.
• Svaki od 89 zadataka prošao je višesatnu ručnu i LLM-potpomognutu validaciju kako bi se uklonile nedorečenosti i vanjske ovisnosti.
• Primjer je zadatak „download-youtube”, koji je uklonjen ili preoblikovan zbog oslanjanja na nestabilne API-je trećih strana.
• Autori su podignuli ljestvicu težine, ali i reproducibilnost: „Vjerujemo da se kvaliteta zadataka znatno popravila u novom benchmarku”, napisao je su-autor Alex Shaw na X.

Harbor: okruženje za masovno pokretanje i evaluaciju

Okvir Harbor nastao je kao interni alat za izradu Terminal-Bencha 2.0, a sada je dostupan javnosti.
• Podržava pokretanje tisuća kontejnera u oblaku te se može spojiti na pružatelje poput Daytona i Modal.
• Kompatibilan je s otvorenim i vlasničkim agentima, omogućuje nadgledano fino podešavanje (SFT), RL-treninge i izradu vlastitih benchmarka.
• „Harbor je paket koji smo željeli imati dok smo radili na Terminal-Benchu”, napisao je Shaw, pozvavši istraživače i developere da ga uključe u svoje tokove rada.

Prvi rezultati: nitko još ne rješava ni polovicu zadataka

Na javnom poretku Terminal-Bencha 2.0 trenutačno vodi OpenAI-jev Codex CLI (GPT-5 varijanta) sa 49,6 % uspješnosti. Ostale GPT-5 konfiguracije i agenti temeljeni na Claude Sonnetu 4.5 zaostaju tek za nekoliko postotnih bodova, što ukazuje na žestoku utrku bez jasnog pobjednika.

Kako sudjelovati

Testiranje ili prijava agenta svodi se na instalaciju Harbora i pokretanje nekoliko naredbi u CLI-ju. Za uvrštenje na ljestvicu potrebno je pet uzastopnih prolazaka, a organizatori potom provjeravaju dostavljene rezultate i direktorije zadataka.

Naglasak na reprodukciji i transparentnosti

Su-autor Mike Merrill najavio je radni znanstveni članak koji će detaljno opisati metodologiju i proces verifikacije. Objave Terminal-Bencha 2.0 i Harbora predstavljaju korak prema jedinstvenoj, pouzdanoj infrastrukturi za ocjenjivanje AI agenata u realističnim razvojno-operativnim scenarijima.

#openai#alex-shaw#mike-merrill#daytona#modal
View post on X
View post on X

Slično

Tehnologija

Google predstavlja File Search i pojednostavljuje RAG za tvrtke
Novi alat unutar Gemini API-ja automatizira skladištenje, uparivanje i pretraživanje dokumenata, smanjujući troškove i složenost implementacije.

min čitanja

Više

Tehnologija

Kineski Kimi K2 Thinking prestiže GPT-5 i otvara novu bitku za AI
Otvoreni kineski model Kimi K2 Thinking nadmašio je GPT-5 u ključnim testovima, uz višestruko nižu cijenu, što pojačava pritisak na američke AI divove i njihova skupa ulaganja.

min čitanja

Više

Tehnologija

Nacrt atlasa razvoja mozga otkriva tisuće tipova stanica
Prvi nacrt atlasa razvoja moždanih stanica otkriva preko 5000 tipova stanica i otvara vrata novim terapijama.

min čitanja

Više

Tehnologija

Britanski Arc Miner nudi rudarenje kriptovaluta putem mobitela uz dnevni prihod do 58.000 dolara
Platforma za rudarenje u oblaku obećava visoke prinose i jednostavan početak bez ulaganja u skupu opremu.

min čitanja

Više

Tehnologija

NYU predstavio RAE: nova arhitektura drastično ubrzava difuzijske modele
Nova metoda „representation autoencoders” ubrzava treniranje difuzijskih modela 47 puta i poboljšava kvalitetu generiranih slika.

min čitanja

Više

Tehnologija

Tvrtke otkrivaju novu bolnu točku umjetne inteligencije: brzina i kapacitet, a ne cijena
Primjeri Wondera i Recursiona pokazuju da trošak više nije najveća prepreka pri uvođenju umjetne inteligencije; ključni izazovi postaju latencija, fleksibilnost i kapacitet infrastrukture.

min čitanja

Više

Tehnologija

Privremena regulacija prometa u Ulici Castropola zbog polaganja optičkih kablova
Pulska Ulica Castropola u ponedjeljak postaje gradilište: polaganje optičkih kablova za FTTH mrežu donosi privremene promjene u prometu, ali i brži internet za 8 600 korisnika.

min čitanja

Više

Tehnologija

Mexico City pod strogim okom 83.000 kamera, a stiže ih još 30.000
Grad s već 83.414 javnih kamera ulaže 345 milijuna pezosa u dodatnih 30.400 uređaja, s ciljem jačanja nadzora i borbe protiv kriminala.

min čitanja

Više

Tehnologija

Europol traži bržu proceduru za korištenje umjetne inteligencije u hitnim istragama
Birokratske provjere usporavaju policijsku primjenu AI-a, dok kriminalci već profitiraju od nove tehnologije, upozorava zamjenik direktora Europola.

min čitanja

Više

Tehnologija

Techno-žarište na sjeveru SAD-a: kako su Minneapolis i St. Paul postali magnet za poslovne putnike
Metropola od 3,76 milijuna stanovnika nudi spoj bogate računalne povijesti, snažne start-up scene i duha „work-life balansa” koji ljeti seli urede na jezera, a zimi u grijane skywaye.

min čitanja

Više

Najčitanije

Lifestyle

Bez srdele do ponedjeljka: riječkom ribarnicom vladali brancin, orada i škamp
Petak u Rijeci donio je živahnu tržnicu bez očekivane plave ribe, ali s bogatom ponudom bijele ribe i sezonskog voća i povrća.

min čitanja

Više

Politika

Sloboda govora između Washingtona i Bruxellesa: tko povlači crtu?
Američko-europski prijepor o granicama slobode govora zaoštrio se nakon povratka Donalda Trumpa u Bijelu kuću. Dok Washington optužuje Bruxelles za cenzuru, unutar EU-a bujaju napetosti između pozivanja na slobodu izražavanja i borbe protiv govora mržnje.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Vijesti

U Velikoj Gorici ubijen 52-godišnjak; osumnjičena članica obitelji pod nadzorom policije
Policija provodi očevid u Selnici Šćitarjevskoj nakon što je 40-godišnjakinja navodno usmrtila člana obitelji oštrim predmetom.

min čitanja

Više

Najnovije

Vijesti

UPS prizemljio sve zrakoplove MD-11 nakon kobne nesreće u Kentuckyju

Sport

Mudražija na izlaznim vratima Dinama, Štimčev Zrinjski želi zimsku posudbu

Tehnologija

Nacrt atlasa razvoja mozga otkriva tisuće tipova stanica

Politika

Maras napao vodstvo SDP-a zbog šutnje o napadima na Dane srpske kulture

Sport

Istra ponovno ispala iz Kupa, Riera ponovio katalonsku pogrešku

Politika

Tomašević osudio prijetnje na otvorenju Dana srpske kulture u Zagrebu

Biznis

Tesla dioničari otključali rekordni bonus: Musk pleše s robotom i cilja 8,5 bilijuna dolara

Sport

Istra traži iskupljenje protiv Dinama uz puni „gradski vrt”

Vijesti

Puležanka Helena Babić ovjenčana priznanjem „Mali svjetionik”

Politika

Bulj optužio Plenkovićevu Vladu za „izdaju hrvatskog naroda” nakon upada maskiranih na Dane srpske kulture

Lifestyle

Meri Goldašić otkriva svoju formulu iskrenosti: „Puno kukam, ali mi to pomaže”