CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

23. kolovoza 2025, 05:59

Salesforceov MCP-Universe otkriva: GPT-5 i dalje pada na više od polovice realnih zadataka

Novi otvoreni benchmark Salesforceovih istraživača pokazuje da ni GPT-5 ne uspijeva riješiti više od 50 % poslovno relevantnih zadataka u stvarnom MCP okruženju.

min. čitanja

Salesforceovo istraživačko odjeljenje za umjetnu inteligenciju predstavilo je otvoreni skup testova MCP-Universe – dosad najopsežniji pokušaj procjene kako veliki jezični modeli (LLM-ovi) surađuju s Model Context Protocol (MCP) poslužiteljima koje poduzeća svakodnevno koriste.

MCP-Universe u praksi

• Šest poslovnih područja: geografska navigacija (Google Maps), upravljanje repozitorijima koda (GitHub), financijska analiza (Yahoo Finance), 3D modeliranje (Blender), automatizacija preglednika (Playwright) i otvoreno web pretraživanje (Google Search i Fetch). • 11 MCP poslužitelja, ukupno 231 zadatak dizajniran kako bi oponašao stvarne procese – od planiranja rute do uređivanja koda i praćenja cijena dionica. • Umjesto popularnog pristupa „LLM-kao-sudac”, istraživači su koristili izvršne evaluatore: provjeru formata, statičke provjere točnosti i dinamičke provjere za podatke koji se stalno mijenjaju, poput cijena letova ili GitHub issuesa.

Rezultati testiranja

Na poligonu su se našli najjači komercijalni i otvoreni modeli s najmanje 120 milijardi parametara – među njima GPT-5, Grok-4, Claude-4 Sonnet, Gemini 2.5 Pro te GLM-4.5.

• GPT-5 ostvario je najbolji ukupni rezultat i posebno briljirao u financijskoj analizi. • Grok-4 zauzeo je drugo mjesto zahvaljujući vodstvu u automatizaciji preglednika. • Claude-4 Sonnet završio je treći, bez dominacije u ijednoj kategoriji. • Od otvorenih rješenja najbolje se pokazao GLM-4.5.

Unatoč tome, ni jedan model nije položio ni polovicu svih zadataka. Posebno su problematični:

  1. Dugi konteksti – modeli gube nit ili se ne snalaze pri složenim, višestupanjskim zahtjevima.
  2. Nepoznati alati – kada se prvi put susretnu s novim MCP poslužiteljem, uspješnost naglo pada.

„Modeli često ne mogu neprimjetno koristiti nepoznate alate ili sustave onako kako se ljudi prilagođavaju u hodu”, upozorio je direktor istraživanja Junnan Li. Po njemu su ključ rješenja platforme koje spajaju podatkovni kontekst, napredno zaključivanje i sigurnosne ograde.

Šira slika

Salesforce je već ljetos objavio MCPEvals, ali taj se set oslanjao na sintetičke zadatke. Novo izdanje vraća testove u stvarni svijet i, prema autorima, „predstavlja nužno mjerilo za područja koja postojeći benchmarki zanemaruju”.

Tvrtka se nada da će MCP-Universe pomoći poduzećima u identifikaciji slabih točaka agenata i alata kako bi mogli doraditi vlastite okvire ili sam MCP. Jedno je jasno: i najnapredniji LLM-ovi još su daleko od besprijekorne radne snage u korporativnim okruženjima.

#google-maps#salesforce#model-context-protocol#mcp-universe#junnan-li

Slično

Tehnologija

Novi univerzalni booster za imunitet: cjepivo ELI-002 2P briše tragove raka gušterače i crijeva
Pilot studija pokazuje da „off-the-shelf” cjepivo ELI-002 2P potiče snažan imunološki odgovor na mutacije KRAS-a, a četvrtina pacijenata ostaje bez tragova raka gušterače i crijeva.

min čitanja

Više

Tehnologija

Nick Clegg kritizira „kult žrtve” u Silicijskoj dolini
Bivši britanski potpredsjednik vlade u memoarima opisuje Silicijsku dolinu kao mješavinu mačizma i samosažaljenja te predviđa povratak Ujedinjenog Kraljevstva u EU.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305Anthony Quintano from Honolulu, HI, United States, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Bluesky blokirao korisnike u Mississippiju zbog strogog zakona o provjeri dobi
Bluesky je ukinuo pristup svim korisnicima u Mississippiju nakon što je Vrhovni sud SAD-a odobrio provedbu strogog zakona o provjeri dobi na društvenim mrežama.

min čitanja

Više

Tehnologija

OpenCUA donosi otvorene agente koji se natječu s OpenAI-jem i Anthropicom
HKU i partneri predstavili su OpenCUA, otvoreni okvir za treniranje agenata koji samostalno upravljaju računalom i performansama se približavaju zatvorenim modelima OpenAI-ja i Anthropica.

min čitanja

Više

Tehnologija

Nova aplikacija Mobility Plus modernizira javni prijevoz u Puli
U Puli je predstavljena aplikacija Mobility Plus koja putnicima omogućuje kupnju autobusnih karata, planiranje ruta i praćenje dolaska autobusa u stvarnom vremenu.

min čitanja

Više

Tehnologija

Meta sklapa partnerstvo s Midjourneyjem i licencira njegovu estetsku tehnologiju
Tehnološki div Meta licencira estetsku tehnologiju Midjourneyja kojom želi uljepšati svoje AI alate, dok sanfranciški startup zadržava neovisnost i dobiva globalni doseg.

min čitanja

Više

Tehnologija

Fotka „američkog” T1 mobitela otkriva: možda je to samo Samsung S25 u novom ruhu
Sumnje oko Trumpova T1 telefona rastu nakon što se pokazalo da je najnoviji službeni render zapravo obrađena fotografija maske za Samsung Galaxy S25, zbog čega Spigen najavljuje tužbu.

min čitanja

Više

Tehnologija

Francuska ministrica: „There’s no red button” za gašenje spornih platformi
Francuska ministrica digitalnih usluga Clara Chappaz brani se od kritika nakon smrti streamera Raphaëla Gravena tijekom spornog prijenosa na platformi Kick.

min čitanja

Više

Tehnologija

Vibe coding: kako je AI za 40 minuta isprogramirao novu funkciju za 100 milijuna korisnika
AI alatima za pisanje koda tvrtke poput Notiona već prepuštaju trećinu programerskog posla. Novi WIRED-ov podcast otkriva kako izgleda rad s „vibe codingom”, kolike se sume slijevaju u alate poput Cursor-a i zašto inženjeri ipak ostaju ključni.

min čitanja

Više

Tehnologija

Musk tražio pomoć Zuckerberga za 97 milijardi dolara težak pokušaj preuzimanja OpenAI-ja
Sudski spisi otkrivaju da je Elon Musk tražio od Marka Zuckerberga financijsku potporu za preuzimanje OpenAI-ja za 97,4 milijarde dolara, što dodatno zaoštrava pravni i tržišni sukob oko generativne umjetne inteligencije.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305Anthony Quintano from Honolulu, HI, United States, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Najčitanije

Politika

Dan sjećanja: Vlada i Sabor odali počast žrtvama totalitarizma
Vlada i Sabor na Mirogoju, Golom otoku i u Sošicama odali počast žrtvama nacizma, fašizma i komunizma te pokopali 814 ekshumiranih iz jame Jazovka.
European People's Party, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia CommonsBy Government of the Republic of Croatia, Attribution, https://commons.wikimedia.org/w/index.php?curid=48182733

min čitanja

Više

Politika

Referendumom protiv presude: Dodikova većina u RS-u izazvala salvu upozorenja
Narodna skupština RS-a najavila je referendum kojim želi osporiti presudu Miloradu Dodiku, izazvavši oštre reakcije oporbe i međunarodne zajednice.
© European Union, 2025, CC BY 4.0 <https://creativecommons.org/licenses/by/4.0>, via Wikimedia Commons

min čitanja

Više

Lifestyle

Halid Bešlić otkazao nastup u Gradačcu zbog zdravstvenih problema
Zbog zdravstvenih tegoba Halid Bešlić otkazao koncert na Sajmu šljive u Gradačcu, a fanovi se nadaju da će nastup u Splitu u rujnu biti održan.

min čitanja

Više

Politika

Autor See File history below for details. - Own work based on: Flag of Serbia construction sheet.svg (Construction sheet)The Government of Serbia, National symbols srbija.gov.rs, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=65419036
Vučićev poziv na dijalog dočekan odbijenicom: studenti traže samo izbore
Nakon gotovo deset mjeseci prosvjeda srbijanski predsjednik Aleksandar Vučić pozvao je studente na javni dijalog, no oni su mu uzvratili jasnim ultimatumom – prvo izbori, potom razgovor.
Sergei Bobylev, RIA Novosti, CC BY 4.0 <https://creativecommons.org/licenses/by/4.0>, via Wikimedia Commons

min čitanja

Više

Vijesti

Kalifornija odbila uvjetni otpust Lyleu Menendezu nakon 35 godina iza rešetaka
Odbijen je zahtjev za uvjetni otpust Lylea Menendeza, koji s bratom Erikom služi kaznu za ubojstvo roditelja 1989. u Beverly Hillsu.

min čitanja

Više

Politika

Ostavka nizozemskog ministra vanjskih poslova produbljuje političku krizu
Caspar Veldkamp povukao se iz privremene nizozemske vlade zbog nedostatka podrške za oštriju politiku prema Izraelu, a njegov NSC napustio je koaliciju, ostavljajući zemlju pred izborima u još dubljoj političkoj nestabilnosti.

min čitanja

Više

Najnovije

Vijesti

Sukob branitelja i organizatorice festivala „Nosi se” eskalirao u Benkovcu

Vijesti

Potraga u Labinu za nestalim rukometnim sucem Ratkom Gobom

Sport

Šušnić pred Hrvace: Orijent želi nastaviti niz na Krimeji

Vijesti

Sanacije nogostupa u Splitu: Domovinskog rata i Gajeva ulica dobivaju novo lice

Politika

Orešković o izjavama sinjskog gvardijana: „Hipodromska Hrvatska je prijetnja”

Politika

HSLS osudio braniteljsko ometanje festivala u Benkovcu

Sport

Roko Šimić zabio prvijenac za Karlsruher i donio važnu pobjedu

Lifestyle

Sikirić Ićo i Dvorski ruše rekorde domaćih top lista

Sport

Marquez na pole-positionu na novoj mađarskoj pisti Balaton Park

Lifestyle

Pierce Brosnan zasjao s obitelji na premijeri „Kluba ubojstava četvrtkom”

Politika

Vinkovci se prisjetili žrtava partizanskih likvidacija iz 1945.