CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

25. rujna 2025, 08:28

Meta predstavila Gaia2: novi test izdržljivosti AI agenata u simuliranom „stvarnom” okruženju

Otvorena platforma ARE i benchmark Gaia2 nude realističniji, stresniji i vremenski uvjetovan test sposobnosti umjetnih agenata u odnosu na dosadašnje statične provjere.

min. čitanja

XFacebookWhatsApp

Meta je otvorila izvorni okvir Agents Research Environment (ARE) i s njim povezan benchmark Gaia2, ambicioznu platformu koja bi trebala riješiti dugogodišnji problem procjene rada inteligentnih agenata u realnim uvjetima.

ARE je zamišljen kao živo, vremenski uvjetovano okruženje u kojem agenti moraju reagirati na događaje dok vrijeme neprekidno teče, baš kao u stvarnom svijetu. Platforma se sastoji od pet temeljnih elemenata:

  1. aplikacija – API sučelja povezana s bazama podataka (npr. e-mail klijent s funkcijom „send_email”),
  2. okruženja – skup aplikacija, podataka i pravila,
  3. događaja – svega što se u okruženju dogodi,
  4. obavijesti – poruka kojima se agent informira o promjenama,
  5. scenarija – početnog stanja i niza događaja koji se mogu verificirati.

Poduzeća mogu na ARE-u izgraditi vlastiti testni scenarij ili odabrati već pripremljeni, definirati aplikacije s kojima će agent komunicirati, pa zatim pokrenuti orkestraciju i verifikator. Cijeli je paket dostupan na GitHubu.

Ključno mjerilo unutar ARE-a je Gaia2 – nasljednik ranijeg Gaia1 testa, koji se fokusirao tek na pronalaženje točnih odgovora. Nova verzija gleda mnogo dalje: prati kako agent reagira na promjenjive uvjete, poštuje rokove, nosi se s pogreškama API-ja ili traži dodatna pojašnjenja kad su upute nejasne. Podržani su i protokoli poput Agent2Agent kako bi se procijenila suradnja više agenata, a cijeli sustav oslanja se na model velikog jezika u ulozi „suca”.

Budući da evaluacija teče asinkrono – vrijeme prolazi čak i dok agent miruje – Gaia2 može zabilježiti koliko brzo i učinkovito agent reagira na novopristigli događaj. U prvim testiranjima unutar mobilnog okruženja odrađeno je 1 120 zadataka, a prema objavi izvršnog direktora Hugging Facea Clema Delanguea trenutačno najbolje rezultate na ljestvici drži OpenAI-jev GPT-5.

Novi benchmark stiže u trenutku kada se na tržištu pojavljuje sve više alata koji žele simulirati stvarni radni kontekst: Yourbench iz Hugging Facea dopušta tvrtkama izradu vlastitih testova na realnim podatcima, Salesforceov MCPEval pušta agente u žive Minecraft poslužitelje, a Inclusion Arena procjenjuje koliko agenti poštuju ljudske preferencije. Meta naglašava da se Gaia2 razlikuje po tome što stresira agente „bukom” – neočekivanim događajima koji lako sruše statične testove.

Za tvrtke koje razvijaju ili kupuju AI agente, ARE i Gaia2 nude detaljniji uvid u njihovu prilagodljivost, robusnost i pouzdanost kada se nešto neplanirano dogodi – osobine koje bi u konačnici trebale presuditi koliko će se agenti pokazati korisnima u pravom poslovnom životu.

#meta#openai#hugging-face#clem-delangue#agents-research-environment
View post on X
View post on X
View post on X

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Nadolazeći „adult mode” ChatGPT-a budi strah od digitalnog voajerizma
OpenAI razmatra lansiranje erotskog „adult modea” za ChatGPT; stručnjaci upozoravaju na rizike masovnog prikupljanja iznimno intimnih podataka.

min čitanja

Više

Tehnologija

Obitelji tuže OpenAI: chatbot navodio tinejdžere na samoubojstvo
Kriza povjerenja u umjetnu inteligenciju: nakon smrti tinejdžera koji su razgovarali s chatbotovima, odvjetnici pokreću seriju tužbi protiv OpenAI-ja, Googlea i Character.ai-ja.

min čitanja

Više

Tehnologija

Kina odobrila prvi komercijalni moždani čip za osobe s paralizom
Implant NEO tvrtke Neuracle pretvara misao u pokret robotizirane rukavice, a Peking time najavljuje i širi plan dominacije tržištem BCI tehnologija.

min čitanja

Više

Tehnologija

Besplatan proljetni kamp u Rijeci spaja startup ideje i umjetnu inteligenciju
Otvorene prijave za četverodnevni RInovatoRI Spring Camp „StartUPgrade – AI edition“ u Art-kvartu Benčić.

min čitanja

Više

Tehnologija

AI aplikacije za praćenje prehrane nude brze upute, ali i nove brige
Nova generacija aplikacija koristi umjetnu inteligenciju za brže i detaljnije bilježenje obroka, no stručnjaci upozoravaju na netočnosti algoritama i rizik od opsesivnog brojanja kalorija.

min čitanja

Više

Tehnologija

Tinder ulaže u umjetnu inteligenciju kako bi izliječio rane koje je sam stvorio
Najpopularnija aplikacija za upoznavanje uvodi grupne spojeve, astrološko sparivanje i AI nadzor, pokušavajući sanirati pad korisničkog povjerenja i zaustaviti bijeg pretplatnika.

min čitanja

Više

Tehnologija

Fitness aplikacija odala tajnu: Strava otkrila položaj nosača Charles de Gaulle
Javno objavljeni GPS trag jutarnjeg trčanja časnika otkrio je preciznu lokaciju francuskog nosača zrakoplova u istočnom Sredozemlju, priopćila je vojska.

min čitanja

Više

Tehnologija

Googleova mreža Find Hub sada pomaže zračnim lukama pratiti izgubljenu prtljagu
Nova opcija u Googleovom Find Hubu omogućuje putnicima da lokaciju svoje prtljage izravno dijele sa zrakoplovnom kompanijom, skraćujući potragu na svega nekoliko klikova.

min čitanja

Više

Tehnologija

SAD srušio četiri goleme botnet mreže: rekordni DDoS napadi utišani
Američke agencije uklonile su botnetse s više od tri milijuna zaraženih uređaja, gaseći mreže koje su prošle jeseni srušile sve DDoS rekorde.

min čitanja

Više

Tehnologija

Golubovi Županja educirali pomoćnike o umjetnoj inteligenciji i najavili uskrsni štand
Izobrazba o umjetnoj inteligenciji okupila pomoćnike u nastavi, a udruga Golubovi nastavlja humanitarnu akciju uskrsnim radovima ispred Konzuma.

min čitanja

Više

Najčitanije

Politika

Istarski župan Miletić čestitao Ramazanski bajram
Župan Boris Miletić uputio je poruku mira, solidarnosti i zajedništva povodom Ramazanskog bajrama.

min čitanja

Više

Najnovije

Biznis

Bruxelles mijenja pravila: nova strategija brodogradnje otvara priliku hrvatskim škverovima

Vijesti

Rijeka otvara upise u gradske vrtiće: prijave isključivo online krajem ožujka

Vijesti

Labinski četvrtaši učili o vodi uoči Svjetskog dana voda

Sport

Rudar spreman za obračun s Brodom

Sport

Split Open vraća se na Firule: domaći tenisači love trofej pred svojom publikom

Vijesti

Preminula 71-godišnjakinja ozlijeđena u Belišću, vozaču prijeti kazneni progon

Lifestyle

CTK Rijeka otvara proljeće besplatnim radionicama za mlade

Tehnologija

Kina odobrila prvi komercijalni moždani čip za osobe s paralizom

Politika

Francuska mornarica ponovno presrela tanker iz „ruske flote u sjeni”

Lifestyle

„Glavonja” ruši rekorde i otvara vrata razumijevanju neurorazličitosti

Vijesti

Instruktor vozio pijan dok je podučavao kandidata