CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

25. rujna 2025, 08:28

Meta predstavila Gaia2: novi test izdržljivosti AI agenata u simuliranom „stvarnom” okruženju

Otvorena platforma ARE i benchmark Gaia2 nude realističniji, stresniji i vremenski uvjetovan test sposobnosti umjetnih agenata u odnosu na dosadašnje statične provjere.

min. čitanja

XFacebookWhatsApp

Meta je otvorila izvorni okvir Agents Research Environment (ARE) i s njim povezan benchmark Gaia2, ambicioznu platformu koja bi trebala riješiti dugogodišnji problem procjene rada inteligentnih agenata u realnim uvjetima.

ARE je zamišljen kao živo, vremenski uvjetovano okruženje u kojem agenti moraju reagirati na događaje dok vrijeme neprekidno teče, baš kao u stvarnom svijetu. Platforma se sastoji od pet temeljnih elemenata:

  1. aplikacija – API sučelja povezana s bazama podataka (npr. e-mail klijent s funkcijom „send_email”),
  2. okruženja – skup aplikacija, podataka i pravila,
  3. događaja – svega što se u okruženju dogodi,
  4. obavijesti – poruka kojima se agent informira o promjenama,
  5. scenarija – početnog stanja i niza događaja koji se mogu verificirati.

Poduzeća mogu na ARE-u izgraditi vlastiti testni scenarij ili odabrati već pripremljeni, definirati aplikacije s kojima će agent komunicirati, pa zatim pokrenuti orkestraciju i verifikator. Cijeli je paket dostupan na GitHubu.

Ključno mjerilo unutar ARE-a je Gaia2 – nasljednik ranijeg Gaia1 testa, koji se fokusirao tek na pronalaženje točnih odgovora. Nova verzija gleda mnogo dalje: prati kako agent reagira na promjenjive uvjete, poštuje rokove, nosi se s pogreškama API-ja ili traži dodatna pojašnjenja kad su upute nejasne. Podržani su i protokoli poput Agent2Agent kako bi se procijenila suradnja više agenata, a cijeli sustav oslanja se na model velikog jezika u ulozi „suca”.

Budući da evaluacija teče asinkrono – vrijeme prolazi čak i dok agent miruje – Gaia2 može zabilježiti koliko brzo i učinkovito agent reagira na novopristigli događaj. U prvim testiranjima unutar mobilnog okruženja odrađeno je 1 120 zadataka, a prema objavi izvršnog direktora Hugging Facea Clema Delanguea trenutačno najbolje rezultate na ljestvici drži OpenAI-jev GPT-5.

Novi benchmark stiže u trenutku kada se na tržištu pojavljuje sve više alata koji žele simulirati stvarni radni kontekst: Yourbench iz Hugging Facea dopušta tvrtkama izradu vlastitih testova na realnim podatcima, Salesforceov MCPEval pušta agente u žive Minecraft poslužitelje, a Inclusion Arena procjenjuje koliko agenti poštuju ljudske preferencije. Meta naglašava da se Gaia2 razlikuje po tome što stresira agente „bukom” – neočekivanim događajima koji lako sruše statične testove.

Za tvrtke koje razvijaju ili kupuju AI agente, ARE i Gaia2 nude detaljniji uvid u njihovu prilagodljivost, robusnost i pouzdanost kada se nešto neplanirano dogodi – osobine koje bi u konačnici trebale presuditi koliko će se agenti pokazati korisnima u pravom poslovnom životu.

#meta#openai#hugging-face#clem-delangue#agents-research-environment
View post on X
View post on X
View post on X

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

OpenAI otkriva nevjerojatnu skalabilnost: ChatGPT za 800 milijuna korisnika pokreće jedan PostgreSQL primarac
OpenAI je pokazao da pažljivim optimizacijama jedan primarni PostgreSQL poslužitelj može opslužiti golem promet ChatGPT-a i API-ja za 800 milijuna korisnika uz pet devetki dostupnosti.

min čitanja

Više

Tehnologija

Istraživanje razotkrilo neučinkovitost 12 popularnih AI obrana
Opsežno istraživanje OpenAI-ja, Anthropica i Google DeepMinda pokazalo je da su sve testirane obrane protiv jailbreakova i prompt injekcija pale s više od 90 % uspjeha napadača, dok AI implementacija u poduzećima nezaustavljivo raste.

min čitanja

Više

Tehnologija

Robot manji od zrna soli pliva samostalno i košta tek cent
Američki znanstvenici predstavili su mikrorobota od 0,3 mm koji samostalno pliva, reagira na podražaje i proizvodi se za tek jedan cent.

min čitanja

Više

Tehnologija

Anthropic proširio Claude Cowork na timske i enterprise korisnike
Funkcija Claude Cowork napokon stiže na Team i Enterprise pakete, ali otvorena pitanja o prijenosu datoteka i vlasništvu mogla bi usporiti širu primjenu.

min čitanja

Više

Tehnologija

TikTok uvodi precizno praćenje lokacije i širi oglasnu mrežu
Nova pravila privatnosti TikToka donose precizno praćenje GPS lokacije, pohranu interakcija s AI alatima te širenje oglasne mreže izvan same platforme.

min čitanja

Više

Tehnologija

TikTok uvodi novu provjeru dobi u Europi, stručnjaci upozoravaju na nadzor i rizike privatnosti
TikTok pokreće sustav za detekciju maloljetnih korisnika u Europi, ali stručnjaci upozoravaju da metoda pojačava nadzor i ne rješava temeljni problem sigurnosti djece na internetu.

min čitanja

Više

Tehnologija

Američka carina ulaže 2,4 milijuna dolara u kvantne senzore s umjetnom inteligencijom za otkrivanje fentanyla
Ugovor s General Dynamicsom predviđa razvoj prototipa koji će uz pomoć kvantnih senzora i AI-a prepoznavati fentanyl i druge droge u vozilima i kontejnerima.

min čitanja

Više

Tehnologija

S lažnim linkom starijem Osječaninu ukraden 1.500 eura
Osječka policija istražuje internetsku prijevaru u kojoj je 70-godišnjak, želeći ulagati u kriptovalute, putem lažnog linka ostao bez 1.500 eura.

min čitanja

Više

Tehnologija

Pametni satovi četiri puta češće otkrivaju fibrilaciju atrija od klasičnih pregleda
Studija iz Amsterdama pokazala je da nosivi EKG uređaji četiri puta češće otkrivaju fibrilaciju atrija od klasičnih pregleda, što bi moglo smanjiti rizik od moždanog udara.

min čitanja

Više

Tehnologija

Znanost zavladala Dioklecijanovim podrumima
U Dioklecijanovim podrumima otvorena je izložba „Science Comes to Town” s robotima, maslinovim uljem, Teslinim eksponatima i morskim čudima, a kulminirat će subotnjim spektaklom jedrilica i bibliobusa.

min čitanja

Više

Najnovije

Lifestyle

Camino Crikvenica Vinodol zvijezda bečkog turističkog sajma

Sport

Hrvatski rukometaši protiv Švicaraca koje dobro poznaju

Sport

Matković skroman, Bey blistav: Pelicansi u Memphisu prekinuli crni niz

Sport

Makarska i Split slave: Andrijašević srušila državni rekord, Malenica zadržala penjačku krunu

Vijesti

Objekt Karolina u riječkoj luci kreće u veliku obnovu

Tehnologija

Robot manji od zrna soli pliva samostalno i košta tek cent

Biznis

Stečaj Subversive festivala zaključen zbog duga od 1347 eura

Sport

Pad borca nakon vaganja potresao UFC 324

Vijesti

Spektakularna grobnica Zapoteca otkrivena u Oaxaci

Politika

Rakete nad Kijevom uoči završnice pregovora: Kijev optužuje Putina za cinizam

Lifestyle

Sekson u Zadru zadirkivao Thompsona: „Još ne znam što je bilo, morat ću mu pisati”