CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

25. rujna 2025, 08:28

Meta predstavila Gaia2: novi test izdržljivosti AI agenata u simuliranom „stvarnom” okruženju

Otvorena platforma ARE i benchmark Gaia2 nude realističniji, stresniji i vremenski uvjetovan test sposobnosti umjetnih agenata u odnosu na dosadašnje statične provjere.

min. čitanja

Meta je otvorila izvorni okvir Agents Research Environment (ARE) i s njim povezan benchmark Gaia2, ambicioznu platformu koja bi trebala riješiti dugogodišnji problem procjene rada inteligentnih agenata u realnim uvjetima.

ARE je zamišljen kao živo, vremenski uvjetovano okruženje u kojem agenti moraju reagirati na događaje dok vrijeme neprekidno teče, baš kao u stvarnom svijetu. Platforma se sastoji od pet temeljnih elemenata:

  1. aplikacija – API sučelja povezana s bazama podataka (npr. e-mail klijent s funkcijom „send_email”),
  2. okruženja – skup aplikacija, podataka i pravila,
  3. događaja – svega što se u okruženju dogodi,
  4. obavijesti – poruka kojima se agent informira o promjenama,
  5. scenarija – početnog stanja i niza događaja koji se mogu verificirati.

Poduzeća mogu na ARE-u izgraditi vlastiti testni scenarij ili odabrati već pripremljeni, definirati aplikacije s kojima će agent komunicirati, pa zatim pokrenuti orkestraciju i verifikator. Cijeli je paket dostupan na GitHubu.

Ključno mjerilo unutar ARE-a je Gaia2 – nasljednik ranijeg Gaia1 testa, koji se fokusirao tek na pronalaženje točnih odgovora. Nova verzija gleda mnogo dalje: prati kako agent reagira na promjenjive uvjete, poštuje rokove, nosi se s pogreškama API-ja ili traži dodatna pojašnjenja kad su upute nejasne. Podržani su i protokoli poput Agent2Agent kako bi se procijenila suradnja više agenata, a cijeli sustav oslanja se na model velikog jezika u ulozi „suca”.

Budući da evaluacija teče asinkrono – vrijeme prolazi čak i dok agent miruje – Gaia2 može zabilježiti koliko brzo i učinkovito agent reagira na novopristigli događaj. U prvim testiranjima unutar mobilnog okruženja odrađeno je 1 120 zadataka, a prema objavi izvršnog direktora Hugging Facea Clema Delanguea trenutačno najbolje rezultate na ljestvici drži OpenAI-jev GPT-5.

Novi benchmark stiže u trenutku kada se na tržištu pojavljuje sve više alata koji žele simulirati stvarni radni kontekst: Yourbench iz Hugging Facea dopušta tvrtkama izradu vlastitih testova na realnim podatcima, Salesforceov MCPEval pušta agente u žive Minecraft poslužitelje, a Inclusion Arena procjenjuje koliko agenti poštuju ljudske preferencije. Meta naglašava da se Gaia2 razlikuje po tome što stresira agente „bukom” – neočekivanim događajima koji lako sruše statične testove.

Za tvrtke koje razvijaju ili kupuju AI agente, ARE i Gaia2 nude detaljniji uvid u njihovu prilagodljivost, robusnost i pouzdanost kada se nešto neplanirano dogodi – osobine koje bi u konačnici trebale presuditi koliko će se agenti pokazati korisnima u pravom poslovnom životu.

#meta#openai#hugging-face#clem-delangue#agents-research-environment
View post on X
View post on X
View post on X

Slično

Tehnologija

Meituan lansirao LongCat-Flash-Thinking: besplatni model od 560 milijardi parametara izaziva GPT-5
Kineski gigant objavio novu verziju otvorenog LLM-a fokusiranu na zaključivanje, uz besplatan API i permisivnu licencu.

min čitanja

Više

Tehnologija

Zuckerberg dovodi još jedno ime iz OpenAI: Yang Song postaje ključni istraživač u Meta Superintelligence Labsu
Yang Song, dosadašnji OpenAI-jev stručnjak za velike modele, priključio se Meta Superintelligence Labsu, pridružujući se timu koji predvodi Shengjia Zhao. Transfer dolazi usred intenzivnog lova na AI talente, ali i prvih odlazaka iz novoosnovanog laboratorija.
Anthony Quintano from Honolulu, HI, United States, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Novi RL pristup unosi paralelno razmišljanje u velike jezične modele
Framework Parallel-R1 modelima omogućuje grananje misaonih tokova, čime poboljšava točnost rješenja bez potrebe za većim modelima.

min čitanja

Više

Tehnologija

Od zebri na farmi do „pijanih” šišmiša: dodijeljene ovogodišnje Ig Nobel nagrade
Japanske krave u zebrinim prugama, šišmiši alkoholizirani fermentiranim voćem i čašica votke koja poboljšava strani izgovor – najduhovitija znanstvena otkrića godine nagrađena su Ig Nobelom.

min čitanja

Više

Tehnologija

Berlinski Vay od prosinca uvodi iznajmljivanje auta s vozačem na daljinu
Njemački start-up Vay od 1. prosinca pokreće uslugu iznajmljivanja električnih vozila koje do korisnika dovoze profesionalni vozači na daljinu, uz ambiciju da smanji potrebu za privatnim automobilima.

min čitanja

Više

Tehnologija

Qualcomm predstavio Snapdragon X2: novi udar na Intel i AMD s jačim performansama i dužim trajanjem baterije
Snapdragon X2 donosi 18 jezgri, snažniju grafiku i 80 TOPS AI-obradu, a Qualcomm tvrdi da će Windows prijenosnici dobiti višednevnu bateriju i performanse koje prestižu Intel.

min čitanja

Više

Tehnologija

Apple traži povlačenje Zakona o digitalnim tržištima EU-a
Američki tehnološki div tvrdi da EU-ov Zakon o digitalnim tržištima krši temeljna prava i stvara sigurnosne rizike, dok Bruxelles poručuje da je interoperabilnost obvezna, a ne stvar izbora.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Tehnologija

Buzetski osnovci dobili najnovije LEGO setove: 8.500 eura donacija pretvoreno u 12 STEM kompleta
Osnovna škola „Vazmoslav Gržalja” prva u Hrvatskoj nabavila dvanaest novih LEGO Education Science setova zahvaljujući lokalnoj akciji koja je prikupila 8.500 eura.

min čitanja

Više

Tehnologija

Robot s umjetnom inteligencijom puže i nakon što mu motornom pilom odsijeku sve noge
Prizor četveronožnog robota koji nastavlja puzati nakon što mu motornom pilom odsijeku noge podjednako fascinira i plaši javnost.

min čitanja

Više

Tehnologija

Nvidia RTX 5060 Ti po sniženoj cijeni od 379 dolara privlači PC igrače
PNY-ev GeForce RTX 5060 Ti OC u Walmartu je snižen sa 429–479 na 379 dolara, nudi stabilnih 60 FPS na 1080p s ray tracingom i podršku za DLSS Multi-Frame Generation.

min čitanja

Više

Najčitanije

Vijesti

Tragedija na pruzi kod Osijeka: vlak usmrtio 87-godišnjakinju
Žena od 87 godina poginula je jutros u Briješću kraj Osijeka nakon što ju je prilikom prelaska pruge udario vlak; policijski očevid još traje.

min čitanja

Više

Politika

Trump tvrdi da je žrtva trostruke sabotaže u UN-u
Trump problematične pokretne stepenice, ugašeni teleprompter i nestanak zvuka naziva „trostrukom sabotažom” te traži hitnu istragu Ujedinjenih naroda.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Nogomet

Autor autorsko pravo: GNK Dinamo Zagreb - https://gnkdinamo.hr/, Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=790542

Trener Fenerbahçea priznao probleme nakon poraza u Zagrebu
Nakon gostujućeg poraza od Dinama, trener Fenerbahçea otvoreno je priznao obrambene propuste i pohvalio mladog Hoxhu, najavivši dodatni rad kako bi turski klub izašao iz rezultatske krize.

min čitanja

Više

Najnovije

Lifestyle

Thompson planira dvostruki nastup u Osijeku krajem studenog

Vijesti

Bez razdjelnika slijede paprene naknade za grijanje

Vijesti

Sudar Mazde i Audija usred jutarnje špice u Osijeku

Vijesti

Splitski redar u rikverc po kaznu: promet stao, društvene mreže ključale

Sport

Palmeiras izbacio River i peti put u šest godina stigao do polufinala Copa Libertadores

Politika

Zastupnik u EP-u nehotice pozvao sudanske milicajce; događaj otkazan u zadnji čas

Biznis

Bruxelles priznao: trgovinski dogovor s Washingtonom ne ispunjava WTO kriterije

Politika

Dvostruki udar na zelene politike: Bruxelles odgađa zabranu krčenja šuma, zastupnici ruše nadzorni zakon

Politika

Tenkovi protiv traktora: novi proračun EU-a suprotstavlja obranu i poljoprivredu

Vijesti

Dijete lakše ozlijeđeno u sudaru bicikla i automobila u Vinkovcima