CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

23. kolovoza 2025, 05:59

Salesforceov MCP-Universe otkriva: GPT-5 i dalje pada na više od polovice realnih zadataka

Novi otvoreni benchmark Salesforceovih istraživača pokazuje da ni GPT-5 ne uspijeva riješiti više od 50 % poslovno relevantnih zadataka u stvarnom MCP okruženju.

min. čitanja

XFacebookWhatsApp

Salesforceovo istraživačko odjeljenje za umjetnu inteligenciju predstavilo je otvoreni skup testova MCP-Universe – dosad najopsežniji pokušaj procjene kako veliki jezični modeli (LLM-ovi) surađuju s Model Context Protocol (MCP) poslužiteljima koje poduzeća svakodnevno koriste.

MCP-Universe u praksi

• Šest poslovnih područja: geografska navigacija (Google Maps), upravljanje repozitorijima koda (GitHub), financijska analiza (Yahoo Finance), 3D modeliranje (Blender), automatizacija preglednika (Playwright) i otvoreno web pretraživanje (Google Search i Fetch). • 11 MCP poslužitelja, ukupno 231 zadatak dizajniran kako bi oponašao stvarne procese – od planiranja rute do uređivanja koda i praćenja cijena dionica. • Umjesto popularnog pristupa „LLM-kao-sudac”, istraživači su koristili izvršne evaluatore: provjeru formata, statičke provjere točnosti i dinamičke provjere za podatke koji se stalno mijenjaju, poput cijena letova ili GitHub issuesa.

Rezultati testiranja

Na poligonu su se našli najjači komercijalni i otvoreni modeli s najmanje 120 milijardi parametara – među njima GPT-5, Grok-4, Claude-4 Sonnet, Gemini 2.5 Pro te GLM-4.5.

• GPT-5 ostvario je najbolji ukupni rezultat i posebno briljirao u financijskoj analizi. • Grok-4 zauzeo je drugo mjesto zahvaljujući vodstvu u automatizaciji preglednika. • Claude-4 Sonnet završio je treći, bez dominacije u ijednoj kategoriji. • Od otvorenih rješenja najbolje se pokazao GLM-4.5.

Unatoč tome, ni jedan model nije položio ni polovicu svih zadataka. Posebno su problematični:

  1. Dugi konteksti – modeli gube nit ili se ne snalaze pri složenim, višestupanjskim zahtjevima.
  2. Nepoznati alati – kada se prvi put susretnu s novim MCP poslužiteljem, uspješnost naglo pada.

„Modeli često ne mogu neprimjetno koristiti nepoznate alate ili sustave onako kako se ljudi prilagođavaju u hodu”, upozorio je direktor istraživanja Junnan Li. Po njemu su ključ rješenja platforme koje spajaju podatkovni kontekst, napredno zaključivanje i sigurnosne ograde.

Šira slika

Salesforce je već ljetos objavio MCPEvals, ali taj se set oslanjao na sintetičke zadatke. Novo izdanje vraća testove u stvarni svijet i, prema autorima, „predstavlja nužno mjerilo za područja koja postojeći benchmarki zanemaruju”.

Tvrtka se nada da će MCP-Universe pomoći poduzećima u identifikaciji slabih točaka agenata i alata kako bi mogli doraditi vlastite okvire ili sam MCP. Jedno je jasno: i najnapredniji LLM-ovi još su daleko od besprijekorne radne snage u korporativnim okruženjima.

#google-maps#salesforce#model-context-protocol#mcp-universe#junnan-li

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Anthropic riskira vojni ugovor zbog zabrane korištenja AI-ja u oružju i nadzoru
Tvrtka Anthropic odbija dopuštanje svoje umjetne inteligencije za autonomno oružje i masovni nadzor, čime dovodi u pitanje veliki vojni ugovor.

min čitanja

Više

Tehnologija

Microsoft predstavio Phi-4: mali model, velika moć
Tehnološki div plasirao je 15-milijardni multimodalni AI model koji, prema navodima tvrtke, uz drastično manju potrošnju resursa pruža performanse usporedive s mnogo većim sustavima.

min čitanja

Više

Tehnologija

Lažne poruke i „brzi“ kripto dobitci građane ostavili bez gotovo 8 000 eura
Dvije nove internetske prijevare građane su koštale gotovo 8 000 eura, a policija ponovno upozorava na oprez pri sumnjivim SMS-ovima i pozivima.

min čitanja

Više

Tehnologija

Trokut Šibenik najavio besplatnu radionicu o umrežavanju za IT poduzetnike
Edukacija 10. ožujka nudi IT poduzetnicima alate za širenje poslovne mreže i besplatno savjetovanje.

min čitanja

Više

Tehnologija

Grammarly lansirao „stručne recenzije” uz AI klonove slavnih autora
Grammarly, rebrendiran u Superhuman, predstavio je AI alat koji imitira savjete poznatih pisaca živih i preminulih, izazvavši val etičkih i pravnih pitanja.

min čitanja

Više

Tehnologija

Tehnološki divovi potpisali bijele obećanja, stručnjaci sumnjičavi: „Ovo je samo kazalište”
Microsoft, Google, Amazon i ostali u Bijeloj kući obećali da troškovi podatkovnih centara neće završiti na računima građana, no stručnjaci upozoravaju da dokument nema pravnu snagu.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Tehnologija

Njemački Black Forest Labs predstavio Self-Flow: brže treniranje AI-ja bez vanjskih učitelja
Self-Flow spaja razumijevanje i generiranje unutar jednog modela, trenira se gotovo tri puta brže od dosadašnjeg standarda i otvara put naprednijim multimodalnim te robotskim sustavima.

min čitanja

Više

Tehnologija

Američki zastupnici traže istragu: curi li iz naših računala više nego mislimo?
Senator Ron Wyden i kongresnica Shontel Brown od GAO-a traže analizu bočnih napada na potrošačku elektroniku i razmatraju zakonski pritisak na proizvođače.

min čitanja

Više

Tehnologija

Barokna Tvrđa pretvorena u STEM igralište za osječke osnovnoškolce
Besplatne radionice Doma tehnike privukle desetke učenika, od LEGO modela do raketa na zrak.

min čitanja

Više

Tehnologija

Apple predstavio najjeftiniji prijenosnik do sada – MacBook Neo
MacBook Neo, s početnom cijenom od 599 USD, postaje najpristupačniji Appleov laptop, a studenti ga mogu nabaviti već za 499 USD.

min čitanja

Više

Najčitanije

Vijesti

Hrvatski pomorci zaglavljeni pred Hormuškim tjesnacem
Stotine hrvatskih pomoraca ne mogu se iskrcati s brodova ispred strateški napetog Hormuškog tjesnaca, iako na to imaju zakonsko pravo.

min čitanja

Više

Nogomet

Autor autorsko pravo: HNK Hajduk Split - The logo may be obtained from HNK Hajduk Split., Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=693556

Brezni spasio Hajduk od izbacivanja iz Kupa
Zbog naizgled sitne administrativne pogreške Hajduk je zamalo izgubio četvrtfinale Kupa za „zelenim stolom”, no pravila je u zadnji tren podsjetio član povjerenstva Josip Brezni.

min čitanja

Više

Najnovije

Vijesti

Europa ubrzano traži balističke projektile, ali jaz i dalje ostaje

Vijesti

Čistoća Split prijeti kaznama zbog blokiranih spremnika u Dubrovačkoj

Sport

Pašalić opet zasjao: gol za Atalantin spas u rimskom trileru

Sport

Vušković pogodio prečku pa „napao” stativu u porazu HSV-a od Leverkusena

Vijesti

Citadela ponovno pred ljetnim uređenjem: Grad želi oživjeti derutni Kapetanski park

Sport

Rebić napao suca Kolarića nakon derbija s Rijekom

Sport

Mladost pregazila Hannover na startu četvrtfinala Lige prvaka

Sport

Arsenal bježi Cityju, hat-trick Joaa Pedra spasio Chelsea

Lifestyle

Dugotrajno uzimanje melatonina povezano s većim rizikom od zatajenja srca

Sport

Garcia bacio jaknu zbog žutog kartona Šegi

Tehnologija

Anthropic riskira vojni ugovor zbog zabrane korištenja AI-ja u oružju i nadzoru