CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

20. kolovoza 2025, 06:08

Inclusion Arena nudi novu ljestvicu velikih jezičnih modela temeljenu na stvarnim korisničkim preferencijama

Istraživači Inclusion AI-ja lansirali su Inclusion Arenu, ljestvicu koja rangira velike jezične modele prema stvarnim preferencama korisnika, a ne laboratorijskim testovima.

min. čitanja

XFacebookWhatsApp

Istraživači tvrtke Inclusion AI, povezane s Ant Groupom Alibabe, predstavili su „Inclusion Arenu” – živu ljestvicu i mjerilo izvedbe velikih jezičnih modela (LLM-ova) koja se umjesto laboratorijskih testova oslanja na stvarne korisničke interakcije.

Zašto novi pristup? Tradicionalni benchmark testovi uglavnom počivaju na statičnim skupovima podataka ili umjetnim okruženjima. Autori rada tvrde da takva metodologija zanemaruje ono što poduzeća i krajnji korisnici doista vrednuju: koliko su im odgovori modela korisni i privlačni u praksi. „Naš sustav nasumično pokreće dvoboje modela tijekom višekratnih razgovora čovjeka i umjetne inteligencije u stvarnim aplikacijama”, navodi se u radu.

Kako funkcionira Inclusion Arena

  1. Integracija u aplikacije: za sada su priključene dvije – aplikacija za „character chat” Joyland i obrazovna komunikacijska platforma T-Box.
  2. Tijekom korištenja, upiti korisnika šalju se prema više LLM-ova; odgovori se prikazuju naslijepo, a korisnik odabire bolji.
  3. Sustav bilježi parne usporedbe i pomoću Bradley-Terry algoritma izračunava ocjene te formira ljestvicu. Za inicijalno uvrštavanje novog modela koristi se „placement match” mehanizam, a „proximity sampling” ograničava dvoboje na modele slične snage kako bi se smanjili troškovi.

Istaknuti rezultati • Do srpnja 2025. prikupljeno je 501 003 parnih usporedbi od 46 611 aktivnih korisnika. • Prema početnim podacima, najviše su se svidjeli odgovori modela Claude 3.7 Sonnet (Anthropic), slijede DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 i Qwen Max-0125.

Bradley-Terry nasuprot Elo ljestvici Većina današnjih ljestvica (primjerice Chatbot Arena) oslanja se na Elo rejting poznat iz šaha. Inclusion Arena koristi Bradley-Terry model jer, kažu istraživači, daje stabilnije ocjene latentnih sposobnosti kad broj usporedbi dramatično raste.

Što to znači za poduzeća Rastući broj LLM-ova otežava odabir pravog alata. Autori smatraju da njihova ljestvica, temeljena na stvarnim povratnim informacijama, „odražava praktične scenarije upotrebe” i stoga preciznije vodi tehnološke timove pri odluci kojeg modela evaluirati interno.

Sljedeći koraci Iako je trenutni uzorak aplikacija ograničen, Inclusion AI namjerava stvoriti „otvoreni savez” kako bi proširio ekosustav i povećao pouzdanost rezultata. Cilj je jasniji pregled ubrzano rastućeg krajolika generativne umjetne inteligencije – neposredno iz perspektive samih korisnika.

#inclusion-arena#inclusion-ai#ant-group#chatbot-arena#joyland

Slično

Tehnologija

Gotovo 9,1 milijun eura za transformaciju istraživačkog centra METRIS u Puli
Istarsko veleučilište osiguralo je 9,1 milijun eura iz europskog Fonda za pravednu tranziciju za proširenje prostora, nabavu opreme i razvoj novih programa u istraživačkom centru METRIS.

min čitanja

Više

Tehnologija

Toyota osvježila Corollu za 2026.: dizajn, hibrid i digitalija na prvom mjestu
Nova Toyota Corolla za 2026. donosi osvježen dizajn, napredne hibridne pogone i potpuno digitalno sučelje, uz standardni sigurnosni paket Toyota Safety Sense.

min čitanja

Više

Tehnologija

Hrvatska traži mjesto u svemiru: kolokvij na FER-u najavio novu strategiju i jače partnerstvo s Italijom
Kolokvij „Europska svemirska perspektiva“ na zagrebačkom FER-u otkrio plan izrade nacionalne svemirske strategije, dok Italija i ESA nude potporu hrvatskom ulasku u jače svemirske projekte.

min čitanja

Više

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16
Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Tehnologija

AI Nomos 1 gotovo dosegao vrh na prestižnom Putnamu
Otvoreni AI sustav Nomos 1 iz Nous Researcha osvojio bi drugo mjesto na prestižnom Putnamovom natjecanju, dokazavši se kao gotovo ravnopravan ljudskim genijalcima.

min čitanja

Više

Tehnologija

Nova Gradiška dobiva AI podatkovni centar vrijedan do 450 milijuna eura
Grad i londonski NEOIX potpisali su predugovor: AI podatkovni centar od 50 MW trebao bi početi nicati u Novoj Gradiški za pola godine.

min čitanja

Više

Tehnologija

Muskovi prijetnje nakon kazne X-u unijele nelagodu u Bruxelles
Kazna od 120 milijuna eura za X izazvala je Muskov gnjev, a bruxelleski su dužnosnici zbog prijetnji počeli propitivati sigurnost putovanja u SAD.
By Justin Pacheco - https://cdn.openart.ai/uploads/image_01eluJ2__1696752889349_raw.jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=119369305

min čitanja

Više

Tehnologija

Disney ulaže milijardu dolara u OpenAI i otvara svoje likove umjetnoj inteligenciji
Tek nakon niza tužbi Disney se okreće novoj strategiji: licencira likove OpenAI-ju, ulaže milijardu dolara i priprema se za eru AI videa na Disney+-u.

min čitanja

Više

Tehnologija

OpenAI predstavio GPT-5.2, najmoćniji model dosad
Novi GPT-5.2 donosi 400 000 tokena konteksta, tri razine rada i znatno višu cijenu API-ja, a OpenAI njime želi vratiti vodstvo u utrci s Googleovim Gemini 3.

min čitanja

Više

Tehnologija

Virtualna skrb za oboljele od KOPB-a širi se Michiganom
Priority Health sklapa partnerstvo s tvrtkom Kivo Health kako bi pacijentima s KOPB-om omogućio virtualnu, kućnu pulmološku rehabilitaciju u cijelom Michiganu.

min čitanja

Više

Najčitanije

Nogomet

Modrić talijanima: „Čekam vas na Svjetskom prvenstvu”
Kapetan Vatrenih u Milanu primio trofej „Legenda 2025” i pritom poručio Talijanima da ih očekuje na SP-u 2026., dok je oprezno ocijenio i hrvatsku skupinu s Engleskom, Panamom i Ganom.
By Светлана Бекетова - soccer.ru, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=70292659By Ludovic Péron - Own work, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=26599951

min čitanja

Više

Politika

Plenković uzvratio Milanoviću: „Neka u Parizu kaže što misli o Rafaleima”
Premijer odgovorio na Milanovićeve kritike o francuskim Rafaleima, stao u obranu molitelja na trgovima i komentirao aferu „6+6”.
Damir Sencar/HINA/POOL/PIXSELL/Social Democratic Party of Croatia, CC BY 3.0 HR <https://creativecommons.org/licenses/by/3.0/hr/deed.en>, via Wikimedia CommonsAutor © European Union, 2025, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=150011986

min čitanja

Više

Tehnologija

Reddit tužbom izazvao australsku zabranu društvenih mreža za mlađe od 16
Reddit tvrdi da nova zabrana maloljetničkih računa na društvenim mrežama krši slobodu govora i privatnost, dok australska vlada brani mjeru kao zaštitu mladih.

min čitanja

Više

Najnovije

Biznis

Raskošna Debeljkova zabava u Nišu, mali dioničari i dalje praznih džepova

Vijesti

Mala općina Gradac pokreće vlastitu izgradnju jeftinih stanova za mlade

Lifestyle

Splitska publika oduševljena izložbom Zorana Durbića

Vijesti

Crikveničanin s britanskim dokumentima pokušao zavarati policiju

Vijesti

Maloljetnica nožem ranila prodavačicu u Jezerima, pritvorena uz kaznenu prijavu

Sport

Bayern se uključuje u lov na Premierligaša Marcija Guehija

Politika

Splitski vijećnici upozoravaju na Bačićev zakon: „Grad postaje El Dorado za investitore”

Politika

Ministarstvo povlači spornu odredbu o gradnji na oranicama

Politika

Ivošević: odluka o Spaladium Areni protuzakonita, tražim prvo čitanje nakon proračuna

Vijesti

Poreč po prvi put isplaćuje božićnice roditeljima-njegovateljima

Tehnologija

Gotovo 9,1 milijun eura za transformaciju istraživačkog centra METRIS u Puli