CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

23. kolovoza 2025, 05:59

Salesforceov MCP-Universe otkriva: GPT-5 i dalje pada na više od polovice realnih zadataka

Novi otvoreni benchmark Salesforceovih istraživača pokazuje da ni GPT-5 ne uspijeva riješiti više od 50 % poslovno relevantnih zadataka u stvarnom MCP okruženju.

min. čitanja

XFacebookWhatsApp

Salesforceovo istraživačko odjeljenje za umjetnu inteligenciju predstavilo je otvoreni skup testova MCP-Universe – dosad najopsežniji pokušaj procjene kako veliki jezični modeli (LLM-ovi) surađuju s Model Context Protocol (MCP) poslužiteljima koje poduzeća svakodnevno koriste.

MCP-Universe u praksi

• Šest poslovnih područja: geografska navigacija (Google Maps), upravljanje repozitorijima koda (GitHub), financijska analiza (Yahoo Finance), 3D modeliranje (Blender), automatizacija preglednika (Playwright) i otvoreno web pretraživanje (Google Search i Fetch). • 11 MCP poslužitelja, ukupno 231 zadatak dizajniran kako bi oponašao stvarne procese – od planiranja rute do uređivanja koda i praćenja cijena dionica. • Umjesto popularnog pristupa „LLM-kao-sudac”, istraživači su koristili izvršne evaluatore: provjeru formata, statičke provjere točnosti i dinamičke provjere za podatke koji se stalno mijenjaju, poput cijena letova ili GitHub issuesa.

Rezultati testiranja

Na poligonu su se našli najjači komercijalni i otvoreni modeli s najmanje 120 milijardi parametara – među njima GPT-5, Grok-4, Claude-4 Sonnet, Gemini 2.5 Pro te GLM-4.5.

• GPT-5 ostvario je najbolji ukupni rezultat i posebno briljirao u financijskoj analizi. • Grok-4 zauzeo je drugo mjesto zahvaljujući vodstvu u automatizaciji preglednika. • Claude-4 Sonnet završio je treći, bez dominacije u ijednoj kategoriji. • Od otvorenih rješenja najbolje se pokazao GLM-4.5.

Unatoč tome, ni jedan model nije položio ni polovicu svih zadataka. Posebno su problematični:

  1. Dugi konteksti – modeli gube nit ili se ne snalaze pri složenim, višestupanjskim zahtjevima.
  2. Nepoznati alati – kada se prvi put susretnu s novim MCP poslužiteljem, uspješnost naglo pada.

„Modeli često ne mogu neprimjetno koristiti nepoznate alate ili sustave onako kako se ljudi prilagođavaju u hodu”, upozorio je direktor istraživanja Junnan Li. Po njemu su ključ rješenja platforme koje spajaju podatkovni kontekst, napredno zaključivanje i sigurnosne ograde.

Šira slika

Salesforce je već ljetos objavio MCPEvals, ali taj se set oslanjao na sintetičke zadatke. Novo izdanje vraća testove u stvarni svijet i, prema autorima, „predstavlja nužno mjerilo za područja koja postojeći benchmarki zanemaruju”.

Tvrtka se nada da će MCP-Universe pomoći poduzećima u identifikaciji slabih točaka agenata i alata kako bi mogli doraditi vlastite okvire ili sam MCP. Jedno je jasno: i najnapredniji LLM-ovi još su daleko od besprijekorne radne snage u korporativnim okruženjima.

#google-maps#salesforce#model-context-protocol#mcp-universe#junnan-li

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Google povukao dio AI sažetaka nakon opasnih pogrešaka u zdravstvenim informacijama
Google je povukao AI sažetke koji su davali netočne podatke o jetrenim enzimima, nakon upozorenja stručnjaka da bi korisnici mogli biti dovedeni u opasnost.

min čitanja

Više

Tehnologija

Čip debljine vlasi prijeti zasjeniti Neuralink: Columbia i Stanford predstavili BISC
Američki timovi s Columbije i Stanforda razvili su ultratanki BCI čip BISC koji bežično povezuje mozak s računalom i time otvara novu etapu u rehabilitaciji osoba s invaliditetom.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Semantičko predmemoriranje srezalo račun za LLM za čak 73 %
Tvrtka je zamijenila točno podudarno predmemoriranje semantičkim rješenjem i prepolovila troškove te ubrzala odgovore.

min čitanja

Više

Tehnologija

FCC odobrio SpaceX-u još 7500 Starlinkovih satelita
Regulator je dopustio SpaceX-u da poveća Starlinkovu konstelaciju na 15 000 satelita, uz cilj brzina do 1 Gb/s i stroge rokove za lansiranje.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Dubrovnik̶ki profesor analizira korijene interneta u Hrvatskoj i najavljuje eru umjetne inteligencije
Autor najopsežnije knjige o ranim godinama interneta u Hrvatskoj govori o ključnim povijesnim momentima, uspoređuje utjecaj mreže s Gutenbergovim tiskom i naglašava izazove koje donosi doba umjetne inteligencije.

min čitanja

Više

Tehnologija

Trumpovi carinski ratovi otvaraju pukotinu u digitalnom monopolu
Cory Doctorow vidi priliku: Trumpovi globalni carinski ratovi i Brexit mogli bi omogućiti rušenje propisa koji štite američke tehnološke monopole.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Tehnologija

OpenAI odgađa lansiranje ChatGPT Health u Europi zbog strožih pravila o privatnosti
Specijalizirani servis trebao bi korisnicima pružati personalizirane zdravstvene savjete, ali lansiranje u Europi koči GDPR i zabrinutost građana za privatnost podataka.

min čitanja

Više

Tehnologija

OpenAI traži od suradnika stare radne materijale kako bi testirao nove AI modele
OpenAI u testiranju novih modela umjetne inteligencije traži od slobodnjaka kompletne radne zadatke, pritom otvarajući pitanja zaštite poslovnih tajni i povjerljivih podataka.

min čitanja

Više

Tehnologija

Kia EV2 stiže iz Slovačke: najpovoljniji električni crossover Korejaca nudi do 448 km dosega
Na sajmu u Bruxellesu predstavljena je Kia EV2, kompaktni električni crossover s početnom cijenom od 30 tisuća eura i dvjema baterijskim verzijama.

min čitanja

Više

Tehnologija

Orchestral AI nudi novu partituru za agentične modele: sinkronost umjesto kaosa
Sinkroni Python okvir braće Roman obećava reproducibilne i jeftinije AI agente, ali dolazi pod strogom vlasničkom licencom.

min čitanja

Više

Najčitanije

Vijesti

Novi plan za suživot s vukom: 43 čopora podijeljena u zone upravljanja
Desetogodišnji plan upravljanja vukom donosi zonaciju, nadzor hibrida i nove koridore za 43 čopora, a cilj je smanjiti sukobe sa stočarima i osigurati stabilnu populaciju.

min čitanja

Više

Politika

Trumpova administracija razmatra mogući napad na Iran
Mediji navode da su u Bijeloj kući održani prvi razgovori o mogućem udaru na Iran, no zasad nema znakova neposrednog raspoređivanja vojske.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Vijesti

Američki zračni udari pomeli položaje ISIS-a u Siriji
Operacija „Hawkeye Strike” započela je nakon pogibije dvojice američkih vojnika u Palmiri.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Nogomet

Matanovićev gol za preokret Freiburga, Vušković načeo utakmicu
Hrvatski dvojac donio preokret Freiburgu u snježnom ogledu protiv Hamburga

min čitanja

Više

Nogomet

Fabregas hvali Baturinu nakon kasnog gola: „Došao je kao Modrićev nasljednik, a pokazao apsolutni talent”
Hrvatski veznjak spasio bod Comu protiv Bologne u 20. kolu Serie A, a trener Fabregas oduševljen je njegovim kasnim pogotkom.
By PIXSELL, CC BY 3.0, https://commons.wikimedia.org/w/index.php?curid=148385547

min čitanja

Više

Najnovije

Sport

Doživotna zabrana nakon namjernog udarca u četvrtom rangu Indonezije

Sport

Hrvatski vaterpolisti večeras protiv Slovenije otvaraju Europsko prvenstvo u Beogradu

Vijesti

Plamen zahvatio krov kuće u Golo Brdu, šteta 10 000 eura

Politika

Split reže plan za Dom mladih, a trošak projektanata raste

Vijesti

Pljačka u središtu Pule: razbojnik prijetio pištoljem i ukrao novac

Sport

Schroder suspendiran tri utakmice zbog napada na Dončića

Vijesti

Novi plan za suživot s vukom: 43 čopora podijeljena u zone upravljanja

Sport

Duranka treći put zaredom osvojila zimsku ligu Rovinja

Vijesti

Gangster iz Runovića: Snježno nevrijeme mimoišlo Imotsku krajinu jer se „narod više Bogu moli”

Politika

Izrael i Hamas već pripremaju novu rundu sukoba u Pojasu Gaze

Lifestyle

Đakovački tehničar za nokte ruši rodne stereotipe