CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

20. kolovoza 2025, 06:08

Inclusion Arena nudi novu ljestvicu velikih jezičnih modela temeljenu na stvarnim korisničkim preferencijama

Istraživači Inclusion AI-ja lansirali su Inclusion Arenu, ljestvicu koja rangira velike jezične modele prema stvarnim preferencama korisnika, a ne laboratorijskim testovima.

min. čitanja

XFacebookWhatsApp

Istraživači tvrtke Inclusion AI, povezane s Ant Groupom Alibabe, predstavili su „Inclusion Arenu” – živu ljestvicu i mjerilo izvedbe velikih jezičnih modela (LLM-ova) koja se umjesto laboratorijskih testova oslanja na stvarne korisničke interakcije.

Zašto novi pristup? Tradicionalni benchmark testovi uglavnom počivaju na statičnim skupovima podataka ili umjetnim okruženjima. Autori rada tvrde da takva metodologija zanemaruje ono što poduzeća i krajnji korisnici doista vrednuju: koliko su im odgovori modela korisni i privlačni u praksi. „Naš sustav nasumično pokreće dvoboje modela tijekom višekratnih razgovora čovjeka i umjetne inteligencije u stvarnim aplikacijama”, navodi se u radu.

Kako funkcionira Inclusion Arena

  1. Integracija u aplikacije: za sada su priključene dvije – aplikacija za „character chat” Joyland i obrazovna komunikacijska platforma T-Box.
  2. Tijekom korištenja, upiti korisnika šalju se prema više LLM-ova; odgovori se prikazuju naslijepo, a korisnik odabire bolji.
  3. Sustav bilježi parne usporedbe i pomoću Bradley-Terry algoritma izračunava ocjene te formira ljestvicu. Za inicijalno uvrštavanje novog modela koristi se „placement match” mehanizam, a „proximity sampling” ograničava dvoboje na modele slične snage kako bi se smanjili troškovi.

Istaknuti rezultati • Do srpnja 2025. prikupljeno je 501 003 parnih usporedbi od 46 611 aktivnih korisnika. • Prema početnim podacima, najviše su se svidjeli odgovori modela Claude 3.7 Sonnet (Anthropic), slijede DeepSeek v3-0324, Claude 3.5 Sonnet, DeepSeek v3 i Qwen Max-0125.

Bradley-Terry nasuprot Elo ljestvici Većina današnjih ljestvica (primjerice Chatbot Arena) oslanja se na Elo rejting poznat iz šaha. Inclusion Arena koristi Bradley-Terry model jer, kažu istraživači, daje stabilnije ocjene latentnih sposobnosti kad broj usporedbi dramatično raste.

Što to znači za poduzeća Rastući broj LLM-ova otežava odabir pravog alata. Autori smatraju da njihova ljestvica, temeljena na stvarnim povratnim informacijama, „odražava praktične scenarije upotrebe” i stoga preciznije vodi tehnološke timove pri odluci kojeg modela evaluirati interno.

Sljedeći koraci Iako je trenutni uzorak aplikacija ograničen, Inclusion AI namjerava stvoriti „otvoreni savez” kako bi proširio ekosustav i povećao pouzdanost rezultata. Cilj je jasniji pregled ubrzano rastućeg krajolika generativne umjetne inteligencije – neposredno iz perspektive samih korisnika.

#inclusion-arena#inclusion-ai#ant-group#chatbot-arena#joyland

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Mini FabLab u Puli pretvara ideje u stvarnost
Interaktivno događanje u Centru za mlade Pula približava 3D tehnologiju i STEM područje djeci i mladima.

min čitanja

Više

Tehnologija

Alibaba lansirao seriju Qwen3.5: kompaktni AI modeli ciljaju mobilne uređaje
Alibaba je predstavio četiri nova otvorena AI modela Qwen3.5, namijenjena štedljivim uređajima i složenom rezoniranju, čime kineska tvrtka pojačava konkurenciju u globalnoj utrci umjetne inteligencije.

min čitanja

Više

Tehnologija

Europarlamentarci traže reakciju na navodno snimanje „pametnih“ naočala Metae u intimnim trenucima
Zastupnici iz četiri političke skupine traže od Komisije objašnjenje nakon tvrdnji da naočale Ray-Ban Meta AI potajno snimaju korisnike i šalju snimke u Keniju.

min čitanja

Više

Tehnologija

Policija upozorava na novu prijevaru: porukom „Bok, možeš li mi posuditi 900 eura?” pokušavaju vam isprazniti račun
Dubrovačko-neretvanska policija upozorava na val poruka s lažnom molbom za posudbu 900 eura i daje upute kako se zaštititi.

min čitanja

Više

Tehnologija

Cijene RAM-a probile 1.000 dolara: jurišna puška AR-15 trenutačno jeftinija od računalne nadogradnje
Eksplozija potražnje za silicijem zbog razvoja umjetne inteligencije dovela je do apsurdne situacije: 64 GB DDR5 RAM-a skuplje je od osnovnog modela jurišne puške AR-15.

min čitanja

Više

Tehnologija

ByteDance kroz Project Swan najavljuje iskorak u poslovni XR
Na MWC-u u Barceloni ByteDance je predstavio Pico OS 6 i najavio headset Project Swan, ciljajući poslovne korisnike XR-a i izravno konkurirajući Appleu.

min čitanja

Više

Tehnologija

Istraživači: Tvrtke ignoriraju obavezu objave podataka o treniranju AI modela
Trinity College Dublin analizirao je provedbu EU Akta o umjetnoj inteligenciji i utvrdio da većina velikih tvrtki još ne objavljuje zakonom propisane sažetke o podatcima za treniranje AI modela.

min čitanja

Više

Tehnologija

Lažno usklađivanje umjetne inteligencije sve veći sigurnosni rizik
Nova prijetnja u svijetu kibernetike: umjetna inteligencija može „glumiti poslušnost”, a zapravo raditi po starim pravilima, što otvara put krađi podataka i sabotaži sustava.

min čitanja

Više

Tehnologija

Stručnjaci upozoravaju: nosivi AI uređaji mogu potkopati ljudsku autonomiju
Nadolazeća generacija nosivih AI uređaja mogla bi, upozoravaju stručnjaci, pretvoriti se iz pomoćnika u sofisticirani mehanizam manipulacije korisnicima.

min čitanja

Više

Tehnologija

Pentagon koristio Claude u napadu na Iran unatoč Trumpovoj zabrani
Američka vojska oslanjala se na AI sustav Claude prilikom zračnih udara na Iran iako je Donald Trump nekoliko sati ranije izdao naredbu o prekidu suradnje s tvrtkom Anthropic.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Najčitanije

Nogomet

Aktualni prvak potonuo u borbu za ostanak: navijači traže glavu trenera Neestrupa
FC Kopenhagen s Kotarskim na golu završio u Ligi za ostanak; najgora pozicija kluba od 2000. izazvala bijes navijača i stavila trenera Neestrupa na rub otkaza.

min čitanja

Više

Vijesti

Požar u zatvoru Bilice: dim ozlijedio 13 osoba, među njima i pravosudni policajci
Madrac koji se zapalio u splitskom zatvoru Bilice izazvao je požar i dim zbog kojeg je pomoć zatražilo 13 osoba.

min čitanja

Više

Nogomet

UEFA kaznila Tottenham zbog rasističkog ispada navijača
UEFA novčano kaznila Tottenham i izrekla uvjetnu zabranu ulaznica zbog rasističkog ispada navijača tijekom utakmice s Eintrachtom.
Football.ua, CC BY-SA 3.0 GFDL, via Wikimedia Commons

min čitanja

Više

Najnovije

Sport

Mariano Pernía: od Buenos Airesa do španjolske bekovske linije

Sport

Laura Prošić i Karlo Andlar predvode kastavski sport 2025.

Politika

Ružić o ugovoru KBC-a Rijeka i Medikola: Povećali smo najamninu i naplatili sve dugove

Sport

Taremi navodno napušta Olympiakos zbog poziva u iransku vojsku

Biznis

Od spornog popusta do turističkog giganta: uspon Lukšić grupe u Hrvatskoj

Politika

Iran zatvorio Hormuški tjesnac, Washington najavljuje „veliki val” udara

Sport

Prižmić uvjerljiv u kvalifikacijama Indian Wellsa

Lifestyle

Pet napitaka „zlata vrijednih” za vaš mozak, tvrdi popularni liječnik s TikToka

Vijesti

Sinjska aglomeracija kasni i poskupjela: pročistač zapinje zbog stečaja izvođača

Sport

McKennie ostaje u Juventusu do 2030.

Sport

Izbornik Gračan zbog ozljeda mijenja sastav za Bugarsku i Kosovo