CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

25. rujna 2025, 08:28

Meta predstavila Gaia2: novi test izdržljivosti AI agenata u simuliranom „stvarnom” okruženju

Otvorena platforma ARE i benchmark Gaia2 nude realističniji, stresniji i vremenski uvjetovan test sposobnosti umjetnih agenata u odnosu na dosadašnje statične provjere.

min. čitanja

XFacebookWhatsApp

Meta je otvorila izvorni okvir Agents Research Environment (ARE) i s njim povezan benchmark Gaia2, ambicioznu platformu koja bi trebala riješiti dugogodišnji problem procjene rada inteligentnih agenata u realnim uvjetima.

ARE je zamišljen kao živo, vremenski uvjetovano okruženje u kojem agenti moraju reagirati na događaje dok vrijeme neprekidno teče, baš kao u stvarnom svijetu. Platforma se sastoji od pet temeljnih elemenata:

  1. aplikacija – API sučelja povezana s bazama podataka (npr. e-mail klijent s funkcijom „send_email”),
  2. okruženja – skup aplikacija, podataka i pravila,
  3. događaja – svega što se u okruženju dogodi,
  4. obavijesti – poruka kojima se agent informira o promjenama,
  5. scenarija – početnog stanja i niza događaja koji se mogu verificirati.

Poduzeća mogu na ARE-u izgraditi vlastiti testni scenarij ili odabrati već pripremljeni, definirati aplikacije s kojima će agent komunicirati, pa zatim pokrenuti orkestraciju i verifikator. Cijeli je paket dostupan na GitHubu.

Ključno mjerilo unutar ARE-a je Gaia2 – nasljednik ranijeg Gaia1 testa, koji se fokusirao tek na pronalaženje točnih odgovora. Nova verzija gleda mnogo dalje: prati kako agent reagira na promjenjive uvjete, poštuje rokove, nosi se s pogreškama API-ja ili traži dodatna pojašnjenja kad su upute nejasne. Podržani su i protokoli poput Agent2Agent kako bi se procijenila suradnja više agenata, a cijeli sustav oslanja se na model velikog jezika u ulozi „suca”.

Budući da evaluacija teče asinkrono – vrijeme prolazi čak i dok agent miruje – Gaia2 može zabilježiti koliko brzo i učinkovito agent reagira na novopristigli događaj. U prvim testiranjima unutar mobilnog okruženja odrađeno je 1 120 zadataka, a prema objavi izvršnog direktora Hugging Facea Clema Delanguea trenutačno najbolje rezultate na ljestvici drži OpenAI-jev GPT-5.

Novi benchmark stiže u trenutku kada se na tržištu pojavljuje sve više alata koji žele simulirati stvarni radni kontekst: Yourbench iz Hugging Facea dopušta tvrtkama izradu vlastitih testova na realnim podatcima, Salesforceov MCPEval pušta agente u žive Minecraft poslužitelje, a Inclusion Arena procjenjuje koliko agenti poštuju ljudske preferencije. Meta naglašava da se Gaia2 razlikuje po tome što stresira agente „bukom” – neočekivanim događajima koji lako sruše statične testove.

Za tvrtke koje razvijaju ili kupuju AI agente, ARE i Gaia2 nude detaljniji uvid u njihovu prilagodljivost, robusnost i pouzdanost kada se nešto neplanirano dogodi – osobine koje bi u konačnici trebale presuditi koliko će se agenti pokazati korisnima u pravom poslovnom životu.

#meta#openai#hugging-face#clem-delangue#agents-research-environment
View post on X
View post on X
View post on X
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Čudni verbalni tikovi ChatGPT-a sve više iritiraju kineske korisnike
Kineski korisnici sve češće kritiziraju ChatGPT zbog neprirodnih fraza koje se uporno ponavljaju u njegovim odgovorima.

min čitanja

Više

Tehnologija

Porečki poduzetnici otkrivali alate umjetne inteligencije za unaprjeđenje poslovanja
Besplatna radionica u Poreču pokazala poduzetnicima kako AI može ubrzati marketing, prodaju i izradu web stranica.

min čitanja

Više

Tehnologija

Bostromov riskantni optimizam: umjetna inteligencija kao put prema čovjekovoj „mirovini od smrti”
Filozof Nick Bostrom tvrdi da je mala šansa AI-apokalipse prihvatljiva ako strojevi omoguće ljudsku besmrtnost, čime je okrenuo ploču na svoja ranija, puno mračnija upozorenja.

min čitanja

Više

Tehnologija

Trideset godina tehnološke strasti: Zajednica tehničke kulture PGŽ slavi jubilej
Zajednica tehničke kulture Primorsko-goranske županije proslavila je 30. rođendan uz naglasak na brzi tehnološki razvoj, rad s djecom i programe cjeloživotnog učenja.

min čitanja

Više

Tehnologija

Pametni ormarići s loptama stigli u Rijeku
Studentski startup Unlokie instalirao je pametne ormariće za posudbu lopti u Rijeci: skeniranje QR koda, 30 sekundi i lopta je vaša za 65 centi.

min čitanja

Više

Tehnologija

Belgija podiže prvi svjetski energetski otok u Sjevernom moru
Otok princeze Elizabete objedinit će 2,1 GW vjetroenergije, stajati više od milijardu eura i ujedno služiti kao morsko utočište za ptičji i podvodni svijet.

min čitanja

Više

Tehnologija

Mexički znanstvenici iz otrova škorpiona i habanera stvaraju nova oružja protiv superbakterija
UNAM-ovi timovi sintetizirali su antibiotike iz otrova škorpiona Diplocentrus melici i habanero papričice, učinkovite protiv tuberkuloze, zlatnog stafilokoka i Pseudomonas aeruginosa te već osigurali patente u Meksiku.

min čitanja

Više

Tehnologija

Kina planira kontejneraš na torij: deset godina plovidbe bez kapi goriva
Peking najavljuje kontejneraš na rastaljenu sol koji bi bez nadopune goriva plovio deset godina te mogao dramatično smanjiti emisije, ali ga čekaju golemi regulatorni i ekonomski izazovi.

min čitanja

Više

Tehnologija

I pod dubokom anestezijom mozak „sluša” i predviđa riječi
Novo istraživanje pokazuje da ljudski mozak pod anestezijom i dalje obrađuje govor, raspoznaje neuobičajene zvukove i čak predviđa sljedeće riječi.

min čitanja

Više

Tehnologija

PEF tehnologija nudi skok u randmanu maslinova ulja bez gubitka kvalitete
Švedska PEF tehnologija obećava do 15 % veći randman i bogatiji aromatski profil maslinova ulja, a hrvatski uljari sve je češće razmatraju kao investiciju u konkurentnost.

min čitanja

Više

Najčitanije

Futsal

Zbog futsala na Trsatu privremene zabrane prometovanja
Prvo polufinale SuperSport HMNL-a donosi zatvaranje nekoliko ulica oko Dvorane mladosti u subotu od 18 sati.

min čitanja

Više

Vijesti

Riječka onkologija skraćuje terapiju raka dojke na pet dana
KBC Rijeka prvi u Hrvatskoj uvodi FAST-Forward protokol: radioterapija raka dojke završava za samo pet dana uz jednaku učinkovitost i manje nuspojava.

min čitanja

Više

Vijesti

Rovinj obilježio Dan pobjede nad nacifašizmom i Dan Europe
Grad na Valdibori polaganjem vijenca i prigodnim programom podsjetio na važnost slobode, mira i zajedništva.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Sport

Mali olimpijci preplavili Zelinu i pokazali sportski duh

Vijesti

Vinkovci na sajmu EU projekata pokazali kako fondovi mijenjaju lice grada

Politika

Sokol uzvraća Plenkoviću: „Unutarstranački nesporazumi trebaju ostati unutra, ali HDZ mora biti snažan”

Tehnologija

Porečki poduzetnici otkrivali alate umjetne inteligencije za unaprjeđenje poslovanja

Sport

Vekić s ekspresnom pobjedom u polufinalu Istanbula

Biznis

Državne nekretnine otvaraju vrata poslovnim prostorima u sedam gradova

Lifestyle

Hrvatske majke sve starije i obrazovanije, a djece sve manje

Sport

Ulaznice za derbi Dinamo – Hajduk gotovo planule, Maksimir sprema vatrenu atmosferu

Vijesti

Sindikat biciklista: pet godina obećanja, a zagrebačke ulice i dalje neprijateljske za bicikle

Tehnologija

Bostromov riskantni optimizam: umjetna inteligencija kao put prema čovjekovoj „mirovini od smrti”

Vijesti

„Knjiga od srca“ u Senju osigurala pakete pomoći najsiromašnijima