Neovisna platforma Prolific, koju su osnovali istraživači Sveučilišta u Oxfordu, objavila je rezultate najnovijeg HUMAINE testa – opsežnog, naslijepo provedenog uspoređivanja velikih jezičnih modela s naglaskom na stvarne korisničke scenarije.
• U ispitivanju je sudjelovalo 26 000 korisnika iz Sjedinjenih Država i Ujedinjenoga Kraljevstva, reprezentativno raspoređenih prema dobi, spolu, etničkoj pripadnosti i političkoj orijentaciji. • Gemini 3 Pro postigao je rekordnu ocjenu povjerenja od 69 %, naspram 16 % koliko je bilježio prethodnik Gemini 2.5 Pro. • Model je zauzeo prvo mjesto u trima od četiri kategorije: izvedba i zaključivanje, interakcija i prilagodljivost te povjerenje i sigurnost. Jedino je u komunikacijskom stilu zaostao za DeepSeek V3, koji je preferiralo 43 % ispitanika. • U 22 promatrane demografske podskupine Googleov je model zadržao stabilno visoke rezultate, a ispitanici su ga pet puta češće birali u izravnim, naslijepo provedenim usporedbama.
Metodologija: dvije latentne sugovornice
HUMAINE test odvija se tako da korisnici istodobno razgovaraju s dva modela, ne znajući čije odgovore zapravo čitaju. Teme biraju sami sudionici, što eliminira memoriranje unaprijed pripremljenih pitanja i uočava nijanse u radu modela na „živim” primjerima. Takav pristup, ističu u Prolificu, otkriva kako se performanse mijenjaju ovisno o publici – nešto što klasični, statični benchmarkovi ne mogu zabilježiti.
„Ako kontrollirate uzorak, dobijete drukčiju ljestvicu – bilo da promatrate lijevo ili desno političko krilo, mlađe ili starije korisnike”, pojasnio je suosnivač i izvršni direktor Prolifica Phelim Bradley. Prema njegovim riječima, upravo je „dosljednost u širokom rasponu upotreba” donijela Gemini-ju 3 ukupnu pobjedu.
Ljudski faktor ostaje ključan
Iako tvrtka u nekim segmentima koristi i automatske, računalne suce, Bradley naglašava da „ljudski podaci i ljudska inteligencija i dalje stvaraju glavnu dodanu vrijednost”. U kombiniranom, pametno orkestriranom sustavu, tvrdi, ljudske i strojne evaluacije nadopunjuju se i daju pouzdaniju sliku mogućnosti svakog modela.
Što to znači za tvrtke?
Rezultati HUMAINE-a sugeriraju da organizacije, osobito one s raznolikom radnom snagom i korisničkom bazom, moraju testirati modele u uvjetima koji odražavaju stvarni sastav njihove publike. Puko oslanjanje na „vibe” ili pojedinačne tehničke metrike više nije dovoljno. Sustavno, naslijepo i demografski osviješteno testiranje pruža podatke potrebne za odluku koji će model najbolje služiti konkretnom poslovnom slučaju.
Za Googleov Gemini 3 Pro, pak, najnoviji je rezultat potvrda tvrdnji o napretku: ne samo da model računski rješava zadatke, nego to čini na način koji većina korisnika doživljava pouzdanim, etičnim i sigurnim. U svijetu u kojem će umjetna inteligencija sve češće nastupati kao nevidljivi sugovornik krajnjim korisnicima, upravo je takvo povjerenje možda najvrjednija valuta.