CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

25. rujna 2025, 08:28

Meta predstavila Gaia2: novi test izdržljivosti AI agenata u simuliranom „stvarnom” okruženju

Otvorena platforma ARE i benchmark Gaia2 nude realističniji, stresniji i vremenski uvjetovan test sposobnosti umjetnih agenata u odnosu na dosadašnje statične provjere.

min. čitanja

XFacebookWhatsApp

Meta je otvorila izvorni okvir Agents Research Environment (ARE) i s njim povezan benchmark Gaia2, ambicioznu platformu koja bi trebala riješiti dugogodišnji problem procjene rada inteligentnih agenata u realnim uvjetima.

ARE je zamišljen kao živo, vremenski uvjetovano okruženje u kojem agenti moraju reagirati na događaje dok vrijeme neprekidno teče, baš kao u stvarnom svijetu. Platforma se sastoji od pet temeljnih elemenata:

  1. aplikacija – API sučelja povezana s bazama podataka (npr. e-mail klijent s funkcijom „send_email”),
  2. okruženja – skup aplikacija, podataka i pravila,
  3. događaja – svega što se u okruženju dogodi,
  4. obavijesti – poruka kojima se agent informira o promjenama,
  5. scenarija – početnog stanja i niza događaja koji se mogu verificirati.

Poduzeća mogu na ARE-u izgraditi vlastiti testni scenarij ili odabrati već pripremljeni, definirati aplikacije s kojima će agent komunicirati, pa zatim pokrenuti orkestraciju i verifikator. Cijeli je paket dostupan na GitHubu.

Ključno mjerilo unutar ARE-a je Gaia2 – nasljednik ranijeg Gaia1 testa, koji se fokusirao tek na pronalaženje točnih odgovora. Nova verzija gleda mnogo dalje: prati kako agent reagira na promjenjive uvjete, poštuje rokove, nosi se s pogreškama API-ja ili traži dodatna pojašnjenja kad su upute nejasne. Podržani su i protokoli poput Agent2Agent kako bi se procijenila suradnja više agenata, a cijeli sustav oslanja se na model velikog jezika u ulozi „suca”.

Budući da evaluacija teče asinkrono – vrijeme prolazi čak i dok agent miruje – Gaia2 može zabilježiti koliko brzo i učinkovito agent reagira na novopristigli događaj. U prvim testiranjima unutar mobilnog okruženja odrađeno je 1 120 zadataka, a prema objavi izvršnog direktora Hugging Facea Clema Delanguea trenutačno najbolje rezultate na ljestvici drži OpenAI-jev GPT-5.

Novi benchmark stiže u trenutku kada se na tržištu pojavljuje sve više alata koji žele simulirati stvarni radni kontekst: Yourbench iz Hugging Facea dopušta tvrtkama izradu vlastitih testova na realnim podatcima, Salesforceov MCPEval pušta agente u žive Minecraft poslužitelje, a Inclusion Arena procjenjuje koliko agenti poštuju ljudske preferencije. Meta naglašava da se Gaia2 razlikuje po tome što stresira agente „bukom” – neočekivanim događajima koji lako sruše statične testove.

Za tvrtke koje razvijaju ili kupuju AI agente, ARE i Gaia2 nude detaljniji uvid u njihovu prilagodljivost, robusnost i pouzdanost kada se nešto neplanirano dogodi – osobine koje bi u konačnici trebale presuditi koliko će se agenti pokazati korisnima u pravom poslovnom životu.

#meta#openai#hugging-face#clem-delangue#agents-research-environment
View post on X
View post on X
View post on X

Slično

Tehnologija

Tvrtke zaostaju za glasovnim botovima: zastarjela infrastruktura guši napredak konverzacijske umjetne inteligencije
Konverzacijska umjetna inteligencija zahtijeva milisekundni uvid u sve što korisnik govori i osjeća, no većina poduzeća još se oslanja na zastarjele CRM sustave. Izvješće Twilia otkriva da 54 % potrošača osjeća nedostatak konteksta, što vodi frustrirajućim ponavljanjima i prekidima.

min čitanja

Više

Tehnologija

Prvi baterijski vlak povezao Split i Kaštela, uvodi se 14 novih linija
Na relaciji Split – Kaštel Stari krenuo je prvi baterijski vlak u Hrvatskoj; uvedeno 14 novih polazaka i otvorene dvije postaje, a planovi modernizacije najavljuju dodatna poboljšanja.

min čitanja

Više

Tehnologija

Pula dobiva gigabitnu optiku: 3.860 adresa ulazi u mrežu Hrvatskog Telekoma
Hrvatski Telekom započeo je gradnju gigabitne optičke mreže u Puli, obuhvatit će 3.860 „bijelih” adresa, a završetak se očekuje 2026.

min čitanja

Više

Tehnologija

Nvidia otvara karte: Nemotron 3 želi zadržati AI svijet na njenim čipovima
Nvidia je lansirala Nemotron 3, liniju otvorenih AI modela dostupnih u tri veličine, te objavila prateće podatke i alate za prilagodbu, nadajući se da će otvorenost očuvati potražnju za njezinim čipovima u sve konkurentnijem tržištu.

min čitanja

Više

Tehnologija

Nvidia predstavila Nemotron 3: hibridna arhitektura i do 500 milijardi parametara
Nvidia je objavila treću generaciju svojih AI modela, donoseći hibridnu MoE arhitekturu, milijun-token kontekst i varijante do 500 milijardi parametara.

min čitanja

Više

Tehnologija

Anušić okuplja industriju: Hrvatska cilja samodostatnu obrambenu tehnologiju
Industry Day u organizaciji MORH-a spojio je velike tvrtke, start-upove i akademiju kako bi Hrvatska razvila konkurentnu i samodostatnu obrambenu industriju.
Autor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150013985

min čitanja

Više

Tehnologija

Od 2027. cestarina bez zaustavljanja: novi elektronički sustav mijenja vožnju autocestama
Sabor usvojio zakon kojim se od ožujka 2027. na svim autocestama uvodi sustav elektroničke naplate cestarine bez zaustavljanja.

min čitanja

Više

Tehnologija

Start-up HyprLabs tvrdi da autonomno vozi uz znatno manje podataka
Start-up HyprLabs iz San Francisca i Pariza tvrdi da njegov softver za autonomnu vožnju uči u realnom vremenu te mu treba tek djelić podataka u odnosu na konkurenciju.

min čitanja

Više

Tehnologija

Mlada tvrtka pretvara otpad od piva i gina u ekološku „kožu”
BioTech Materials Tamare Vučetić i Andreja Marića razvija ekološku alternativu koži koristeći otpad iz proizvodnje piva i gina.

min čitanja

Više

Tehnologija

Google uvodi hitni prijenos uživo na Androidu i nove geste za Pixel Watch 4
Novi hitni sustav prijenosa uživo na Androidu i gestama bogatiji Pixel Watch 4 stižu putem nadogradnji softvera.

min čitanja

Više

Najčitanije

Vijesti

Riječka policija uhitila Brazilku traženu zbog trgovanja ljudima
Žena (43) koju traži brazilski Interpol uhićena je u Rijeci, a u istom stanu policija je zatekla i 30-godišnju sunarodnjakinju koja se bavila prostitucijom.

min čitanja

Više

Nogomet

Valladolid smijenio trenera Almadu čim je Oviedo pokazao interes
Drugoligaš je ekspresno otpustio trenera nakon što je prvoligaš Oviedo, koji je jučer smijenio vlastitog stratega, istražio mogućnost njegova angažmana.

min čitanja

Više

Vijesti

Država kreće u pregovore za rušenje nebodera Vjesnik
Branko Bačić otkrio je da je za uklanjanje nebodera Vjesnik stiglo 18 ponuda vrijednih do pet milijuna eura; slijedi pregovarački postupak odabira izvođača.
Petar Krupić, CC BY-SA 4.0 <https://creativecommons.org/licenses/by-sa/4.0>, via Wikimedia Commons

min čitanja

Više

Najnovije

Politika

Europski čelnici nude multinacionalne snage za nadzor mira u Ukrajini

Politika

Atena upozorava na „agro Grexit” dok traktori i dalje blokiraju Grčku

Vijesti

Njemački časnici iz Prvog svjetskog rata prvi osuđeni za ubijanje preživjelih brodolomaca

Politika

Opatija planira besplatan prijevoz za umirovljenike: Kirigin otkrio detalje

Politika

Velike članice EU-a ‘ohladile’ plan Bruxellesa za centraliziranu elektroenergetsku mrežu

Sport

Rebićev bljesak prekinuo hajdukov post: Lokomotiva pala u Maksimiru

Vijesti

Devetnaest godina bez pravde: apel Marina Miočića Stošića za neriješeni slučaj poginulih sestara Filipović

Politika

Šef pravnih poslova Europskog parlamenta suočen sa zahtjevom za skidanje imuniteta

Lifestyle

Splitska kantautorica Mika Štajner debitira s EP-jem „Sjene”

Sport

Fiorentina pred trećom trenerskom promjenom: Vanoli na izlaznim vratima nakon niza poraza

Vijesti

Louvre zatvoren: štrajk osoblja blokirao ulaz za tisuće posjetitelja