CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...
CROLENS
9.AGENCY
Politika privatnostifacebook_icon
Zatražite oglasni prostor
Učitavam...

Tehnologija

23. kolovoza 2025, 05:59

Salesforceov MCP-Universe otkriva: GPT-5 i dalje pada na više od polovice realnih zadataka

Novi otvoreni benchmark Salesforceovih istraživača pokazuje da ni GPT-5 ne uspijeva riješiti više od 50 % poslovno relevantnih zadataka u stvarnom MCP okruženju.

min. čitanja

XFacebookWhatsApp

Salesforceovo istraživačko odjeljenje za umjetnu inteligenciju predstavilo je otvoreni skup testova MCP-Universe – dosad najopsežniji pokušaj procjene kako veliki jezični modeli (LLM-ovi) surađuju s Model Context Protocol (MCP) poslužiteljima koje poduzeća svakodnevno koriste.

MCP-Universe u praksi

• Šest poslovnih područja: geografska navigacija (Google Maps), upravljanje repozitorijima koda (GitHub), financijska analiza (Yahoo Finance), 3D modeliranje (Blender), automatizacija preglednika (Playwright) i otvoreno web pretraživanje (Google Search i Fetch). • 11 MCP poslužitelja, ukupno 231 zadatak dizajniran kako bi oponašao stvarne procese – od planiranja rute do uređivanja koda i praćenja cijena dionica. • Umjesto popularnog pristupa „LLM-kao-sudac”, istraživači su koristili izvršne evaluatore: provjeru formata, statičke provjere točnosti i dinamičke provjere za podatke koji se stalno mijenjaju, poput cijena letova ili GitHub issuesa.

Rezultati testiranja

Na poligonu su se našli najjači komercijalni i otvoreni modeli s najmanje 120 milijardi parametara – među njima GPT-5, Grok-4, Claude-4 Sonnet, Gemini 2.5 Pro te GLM-4.5.

• GPT-5 ostvario je najbolji ukupni rezultat i posebno briljirao u financijskoj analizi. • Grok-4 zauzeo je drugo mjesto zahvaljujući vodstvu u automatizaciji preglednika. • Claude-4 Sonnet završio je treći, bez dominacije u ijednoj kategoriji. • Od otvorenih rješenja najbolje se pokazao GLM-4.5.

Unatoč tome, ni jedan model nije položio ni polovicu svih zadataka. Posebno su problematični:

  1. Dugi konteksti – modeli gube nit ili se ne snalaze pri složenim, višestupanjskim zahtjevima.
  2. Nepoznati alati – kada se prvi put susretnu s novim MCP poslužiteljem, uspješnost naglo pada.

„Modeli često ne mogu neprimjetno koristiti nepoznate alate ili sustave onako kako se ljudi prilagođavaju u hodu”, upozorio je direktor istraživanja Junnan Li. Po njemu su ključ rješenja platforme koje spajaju podatkovni kontekst, napredno zaključivanje i sigurnosne ograde.

Šira slika

Salesforce je već ljetos objavio MCPEvals, ali taj se set oslanjao na sintetičke zadatke. Novo izdanje vraća testove u stvarni svijet i, prema autorima, „predstavlja nužno mjerilo za područja koja postojeći benchmarki zanemaruju”.

Tvrtka se nada da će MCP-Universe pomoći poduzećima u identifikaciji slabih točaka agenata i alata kako bi mogli doraditi vlastite okvire ili sam MCP. Jedno je jasno: i najnapredniji LLM-ovi još su daleko od besprijekorne radne snage u korporativnim okruženjima.

#google-maps#salesforce#model-context-protocol#mcp-universe#junnan-li
Zatražite oglasni prostor
Učitavam...
Zatražite oglasni prostor
Učitavam...

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Trideset godina tehnološke strasti: Zajednica tehničke kulture PGŽ slavi jubilej
Zajednica tehničke kulture Primorsko-goranske županije proslavila je 30. rođendan uz naglasak na brzi tehnološki razvoj, rad s djecom i programe cjeloživotnog učenja.

min čitanja

Više

Tehnologija

Pametni ormarići s loptama stigli u Rijeku
Studentski startup Unlokie instalirao je pametne ormariće za posudbu lopti u Rijeci: skeniranje QR koda, 30 sekundi i lopta je vaša za 65 centi.

min čitanja

Više

Tehnologija

Belgija podiže prvi svjetski energetski otok u Sjevernom moru
Otok princeze Elizabete objedinit će 2,1 GW vjetroenergije, stajati više od milijardu eura i ujedno služiti kao morsko utočište za ptičji i podvodni svijet.

min čitanja

Više

Tehnologija

Mexički znanstvenici iz otrova škorpiona i habanera stvaraju nova oružja protiv superbakterija
UNAM-ovi timovi sintetizirali su antibiotike iz otrova škorpiona Diplocentrus melici i habanero papričice, učinkovite protiv tuberkuloze, zlatnog stafilokoka i Pseudomonas aeruginosa te već osigurali patente u Meksiku.

min čitanja

Više

Tehnologija

Kina planira kontejneraš na torij: deset godina plovidbe bez kapi goriva
Peking najavljuje kontejneraš na rastaljenu sol koji bi bez nadopune goriva plovio deset godina te mogao dramatično smanjiti emisije, ali ga čekaju golemi regulatorni i ekonomski izazovi.

min čitanja

Više

Tehnologija

I pod dubokom anestezijom mozak „sluša” i predviđa riječi
Novo istraživanje pokazuje da ljudski mozak pod anestezijom i dalje obrađuje govor, raspoznaje neuobičajene zvukove i čak predviđa sljedeće riječi.

min čitanja

Više

Tehnologija

PEF tehnologija nudi skok u randmanu maslinova ulja bez gubitka kvalitete
Švedska PEF tehnologija obećava do 15 % veći randman i bogatiji aromatski profil maslinova ulja, a hrvatski uljari sve je češće razmatraju kao investiciju u konkurentnost.

min čitanja

Više

Tehnologija

Kibernetički napad oborio Canvas i poremetio nastavu tisućama škola
Masovni pad platforme Canvas zbog napada grupe "ShinyHunters" poremetio je nastavu diljem SAD-a, a hakeri prijete objavom podataka više od 8 800 škola.

min čitanja

Više

Tehnologija

Kako ukloniti Gemini Nano iz Chromea i što time gubite
Googleov AI model Gemini Nano potajno zauzima 4 GB na računalima korisnika Chromea. Donosimo upute kako ga isključiti i koje sigurnosne značajke tada prestaju raditi.

min čitanja

Više

Tehnologija

Zašto par jeftinih žičanih slušalica vrijedi imati u putnoj torbi
Sezona putovanja vraća u fokus staru tehnologiju: evo zašto bi svatko trebao ubaciti jeftine žičane slušalice u prtljagu.

min čitanja

Više

Najčitanije

Vijesti

Riječka onkologija skraćuje terapiju raka dojke na pet dana
KBC Rijeka prvi u Hrvatskoj uvodi FAST-Forward protokol: radioterapija raka dojke završava za samo pet dana uz jednaku učinkovitost i manje nuspojava.

min čitanja

Više

Vijesti

Rovinj obilježio Dan pobjede nad nacifašizmom i Dan Europe
Grad na Valdibori polaganjem vijenca i prigodnim programom podsjetio na važnost slobode, mira i zajedništva.

min čitanja

Više

Vijesti

Zatvara se dionica A8 kod Matulja zbog rušenja nadvožnjaka
Vikend 9.–10. svibnja donosi potpunu obustavu prometa između čvorova Veprinac i Matulji radi uklanjanja nadvožnjaka Jankovićeva cesta na A8.

min čitanja

Više

Zatražite oglasni prostor
Učitavam...

Najnovije

Politika

Peternel: „8. svibnja je dan nacionalne katastrofe, a ne slavlja”

Vijesti

Mosor: 15 spasilaca HGSS-a u akciji zbog ozlijeđene planinarke

Lifestyle

Jubilarna Večer bošnjačke kulture okuplja umjetnike u crikveničkoj Zori

Sport

Zbog futsala na Trsatu privremene zabrane prometovanja

Biznis

Ruralni turizam postaje okosnica kvarnerskog identiteta

Politika

Hrvatska otvara 12 milijuna eura vrijedan fond za poljoprivredu Hrvata u BiH

Politika

Hrvati nadmašuju prosjek: 79 % građana vidi koristi članstva u EU-u

Vijesti

Policija u Otočcu mladima otkrila benefite i opremu: besplatna B vozačka i stipendije

Sport

Gorša osmi na EP-u u Osijeku, zlato Slovaku Janyju

Politika

Paus u Labinu upozorio na manjak strategije prije rasprave o nuklearki u Plominu

Vijesti

Supetarska gradonačelnica o napadu na Vukovića: prijetnje ne smiju postati normalne