CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

23. kolovoza 2025, 05:59

Salesforceov MCP-Universe otkriva: GPT-5 i dalje pada na više od polovice realnih zadataka

Novi otvoreni benchmark Salesforceovih istraživača pokazuje da ni GPT-5 ne uspijeva riješiti više od 50 % poslovno relevantnih zadataka u stvarnom MCP okruženju.

min. čitanja

Salesforceovo istraživačko odjeljenje za umjetnu inteligenciju predstavilo je otvoreni skup testova MCP-Universe – dosad najopsežniji pokušaj procjene kako veliki jezični modeli (LLM-ovi) surađuju s Model Context Protocol (MCP) poslužiteljima koje poduzeća svakodnevno koriste.

MCP-Universe u praksi

• Šest poslovnih područja: geografska navigacija (Google Maps), upravljanje repozitorijima koda (GitHub), financijska analiza (Yahoo Finance), 3D modeliranje (Blender), automatizacija preglednika (Playwright) i otvoreno web pretraživanje (Google Search i Fetch). • 11 MCP poslužitelja, ukupno 231 zadatak dizajniran kako bi oponašao stvarne procese – od planiranja rute do uređivanja koda i praćenja cijena dionica. • Umjesto popularnog pristupa „LLM-kao-sudac”, istraživači su koristili izvršne evaluatore: provjeru formata, statičke provjere točnosti i dinamičke provjere za podatke koji se stalno mijenjaju, poput cijena letova ili GitHub issuesa.

Rezultati testiranja

Na poligonu su se našli najjači komercijalni i otvoreni modeli s najmanje 120 milijardi parametara – među njima GPT-5, Grok-4, Claude-4 Sonnet, Gemini 2.5 Pro te GLM-4.5.

• GPT-5 ostvario je najbolji ukupni rezultat i posebno briljirao u financijskoj analizi. • Grok-4 zauzeo je drugo mjesto zahvaljujući vodstvu u automatizaciji preglednika. • Claude-4 Sonnet završio je treći, bez dominacije u ijednoj kategoriji. • Od otvorenih rješenja najbolje se pokazao GLM-4.5.

Unatoč tome, ni jedan model nije položio ni polovicu svih zadataka. Posebno su problematični:

  1. Dugi konteksti – modeli gube nit ili se ne snalaze pri složenim, višestupanjskim zahtjevima.
  2. Nepoznati alati – kada se prvi put susretnu s novim MCP poslužiteljem, uspješnost naglo pada.

„Modeli često ne mogu neprimjetno koristiti nepoznate alate ili sustave onako kako se ljudi prilagođavaju u hodu”, upozorio je direktor istraživanja Junnan Li. Po njemu su ključ rješenja platforme koje spajaju podatkovni kontekst, napredno zaključivanje i sigurnosne ograde.

Šira slika

Salesforce je već ljetos objavio MCPEvals, ali taj se set oslanjao na sintetičke zadatke. Novo izdanje vraća testove u stvarni svijet i, prema autorima, „predstavlja nužno mjerilo za područja koja postojeći benchmarki zanemaruju”.

Tvrtka se nada da će MCP-Universe pomoći poduzećima u identifikaciji slabih točaka agenata i alata kako bi mogli doraditi vlastite okvire ili sam MCP. Jedno je jasno: i najnapredniji LLM-ovi još su daleko od besprijekorne radne snage u korporativnim okruženjima.

#google-maps#salesforce#model-context-protocol#mcp-universe#junnan-li

Slično

Tehnologija

Autonomna PSA mijenja pravila igre: AI agenti otvaraju milijarde izgubljenog prihoda
Autonomni AI agenti obećavaju revolucionarno povećanje prihoda i marži u profesionalnim uslugama, a trostruki Salesforceov ekosustav postavlja temelj za prelazak s automatizacije na pravu autonomiju.

min čitanja

Više

Tehnologija

Novo istraživanje G2-a ruši mit o masovnom neuspjehu AI projekata
Izvješće G2-a pokazuje da AI agenti uspijevaju u 98 % slučajeva, donose velike uštede i rast produktivnosti, ali povjerenje i sigurnost ostaju ključni izazovi.

min čitanja

Više

Tehnologija

Odmetnuti div Cha 1107-7626 ruši rekorde u brzini rasta
Cha 1107-7626, planet bez zvijezde, u rekordnom je naletu akrecije gutao šest milijardi tona materijala u sekundi, otkrivajući podrijetlo odmetnutih svjetova.

min čitanja

Više

Tehnologija

Eric Schmidt upozorava: hakeri mogu natjerati umjetnu inteligenciju da „nauči kako ubijati”
Bivši šef Googlea tvrdi da se zaštitne mjere u naprednim AI sustavima mogu hakirati, što otvara vrata nasilnoj zlouporabi tehnologije.

min čitanja

Više

Tehnologija

QR kod pretvara tiskane novine u 24-satni servis vijesti
Četiri regionalna dnevna lista uvode QR kod na naslovnici i pretvaraju tiskano izdanje u neprekidni digitalni servis vijesti.

min čitanja

Više

Tehnologija

NHTSA pokreće istragu: Teslin „autopilot” vozi kroz crveno i prelazi u suprotni trak
Teslina funkcija autonomne vožnje na udaru je američkog regulatora nakon 58 incidenata koji su uključivali prolazak kroz crveno i ulazak u suprotni trak.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

OpenAI tiho lansirao Codex: moćni AI programer postaje okosnica nove poslovne strategije
Iza blještavih demonstracija DevDaya, OpenAI je lansirao Codex kao potpuno podržan proizvod, najavljujući temeljitu promjenu načina na koji nastaje softver u velikim tvrtkama.
TechCrunch, CC BY 2.0 <https://creativecommons.org/licenses/by/2.0>, via Wikimedia Commons

min čitanja

Više

Tehnologija

Autor Government of Ukraine - ДСТУ 4512:2006 — Державний прапор України. Загальні технічні умови; Section 1, Article 20 of the Constitution of Ukraine, Javno vlasništvo, https://commons.wikimedia.org/w/index.php?curid=421234
Mistralov šef poziva Europu: „Ako ne razvijemo vlastitu umjetnu inteligenciju, postat ćemo kolonija”
Šef francuskog start-upa Mistral AI upozorio je da će Europa postati „AI kolonija” ako obrambena ulaganja usmjeri prema američkim tehnologijama te pozvao na razvoj vlastitih sustava umjetne inteligencije.

min čitanja

Više

Tehnologija

Cupra vraća Formentor VZ5: 390 konja u limitiranoj seriji od 4.000 primjeraka
Limitirani Cupra Formentor VZ5 vraća se 2026. s petcilindričnim motorom od 390 KS, pogonom na sve kotače i samo 4.000 primjeraka.

min čitanja

Više

Tehnologija

Google i AWS predstavljaju platforme Gemini Enterprise i Quick Suite za jedinstveni AI radni tijek
Google i AWS lansirali su Gemini Enterprise i Quick Suite, platforme koje objedinjuju poslovne AI-alate i smanjuju potrebu za stalnim prebacivanjem između prozora.

min čitanja

Više

Najčitanije

Politika

Google i Meta gase političko oglašavanje u EU zbog nove uredbe
Stupila je nova EU-uredbа o političkom oglašavanju, a Google i Meta odmah obustavili sve takve oglase u Uniji uz tvrdnje da su pravila neprovediva.

min čitanja

Više

Nogomet

Nula u Pragu zakomplicirala Čehe, Hrvatska mirnija pred finiš kvalifikacija
Češki portali priznaju: remi s Hrvatskom gotovo je ugasio izglede za direktan odlazak na SP 2026.
Autor Антон Зайцев - https://www.soccer.ru/galery/1054721/photo/731938, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=71196380By Анна Нэсси - https://www.soccer.ru/galery/1056975/photo/735567, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=71215179

min čitanja

Više

Vijesti

Snažan potres na jugu Filipina izazvao uzbunu: izdana upozorenja na tsunami
Potres jačine 7,6 stupnjeva pogodio je Mindanao; Filipini i Indonezija izdali upozorenja na tsunami.

min čitanja

Više

Politika

Norveška strepi od Trumpove reakcije ako ga Nobel zaobiđe
Norveška politička scena zabrinuto čeka objavu Nobelove nagrade za mir, uvjerena da Trump neće biti dobitnik, ali i svjesna mogućih posljedica njegove ljutnje.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Vijesti

Francuski sud povećao kaznu silovatelju Gisele Pelicot
Odbijena žalba i povećana kazna silovatelju; slučaj Gisele Pelicot i dalje potresa Francusku.

min čitanja

Više

Najnovije

Sport

Rijeka traži prvu pobjedu: Liverić najavljuje bolju igru protiv Varaždinaca

Biznis

Kerum ruši stari dućan u Lori i gradi golemi stambeno-poslovni kompleks

Vijesti

U Velikoj Barni automobil sletio s ceste i završio u ogradi

Lifestyle

Plitvička jezera slavila ličku bistricu: miris šljive ispunio Ličku kuću

Politika

Split odlučio pretvoriti hotel Zagreb u dom za umirovljenike

Lifestyle

„Stereotipovi” Sandre Holetić: nova zbirka poezije ruši predrasude u riječkoj knjižnici

Politika

Peruanski Kongres jednoglasno smijenio predsjednicu Dinu Boluarte

Politika

Matulji dobivaju tri nova općinska odjela, proračun smanjen za 8,2 %

Sport

Brozović slavi virtualni uspjeh: nakon oproštaja od Vatrenih ušao među 250 najboljih u Call of Dutyju

Politika

Beograd bez komentara dok Moskva slavi: Srbija poslala milijune dolara humanitarne pomoći ruskoj Kurskoj oblasti

Politika

Kim Jong Un slavi 80 godina Radničke stranke uz ruske i kineske goste