Istraživači tvrtke Inclusion AI, povezane s Ant Groupom Alibabe, predstavili su „Inclusion Arenu” – živu ljestvicu i mjerilo izvedbe velikih jezičnih modela (LLM-ova) koja se umjesto laboratorijskih testova oslanja na stvarne korisničke interakcije.
Zašto novi pristup? Tradicionalni benchmark testovi uglavnom počivaju na statičnim skupovima podataka ili umjetnim okruženjima. Autori rada tvrde da takva metodologija zanemaruje ono što poduzeća i krajnji korisnici doista vrednuju: koliko su im odgovori modela korisni i privlačni u praksi. „Naš sustav nasumično pokreće dvoboje modela tijekom višekratnih razgovora čovjeka i umjetne inteligencije u stvarnim aplikacijama”, navodi se u radu.
Kako funkcionira Inclusion Arena
- Integracija u aplikacije: za sada su priključene dvije – aplikacija za „character chat” Joyland i obrazovna komunikacijska platforma T-Box.
- Tijekom korištenja, upiti korisnika šalju se prema više LLM-ova; odgovori se prikazuju naslijepo, a korisnik odabire bolji.
- Sustav bilježi parne usporedbe i pomoću Bradley-Terry algoritma izračunava ocjene te formira ljestvicu. Za inicijalno uvrštavanje novog modela koristi se „placement match” mehanizam, a „proximity sampling” ograničava dvoboje na modele slične snage kako bi se smanjili troškovi.
Istaknuti rezultati • Do srpnja 2025. prikupljeno je 501 003 parnih usporedbi od 46 611 aktivnih korisnika. • Prema početnim podacima, najviše su se svidjeli odgovori modela Claude 3.7 Sonnet (Anthropic), slijede DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 i Qwen Max-0125.
Bradley-Terry nasuprot Elo ljestvici Većina današnjih ljestvica (primjerice Chatbot Arena) oslanja se na Elo rejting poznat iz šaha. Inclusion Arena koristi Bradley-Terry model jer, kažu istraživači, daje stabilnije ocjene latentnih sposobnosti kad broj usporedbi dramatično raste.
Što to znači za poduzeća Rastući broj LLM-ova otežava odabir pravog alata. Autori smatraju da njihova ljestvica, temeljena na stvarnim povratnim informacijama, „odražava praktične scenarije upotrebe” i stoga preciznije vodi tehnološke timove pri odluci kojeg modela evaluirati interno.
Sljedeći koraci Iako je trenutni uzorak aplikacija ograničen, Inclusion AI namjerava stvoriti „otvoreni savez” kako bi proširio ekosustav i povećao pouzdanost rezultata. Cilj je jasniji pregled ubrzano rastućeg krajolika generativne umjetne inteligencije – neposredno iz perspektive samih korisnika.