Tehnologija

Oxfordovo istraživanje otkriva: čatbotovi briljiraju na testu, ali podbacuju s pravim pacijentima

Novo Oxfordovo istraživanje pokazuje da velike jezične modele ne treba ocjenjivati samo po uspjehu na ispitima: kada ih koriste pravi ljudi, točnost dijagnoze drastično pada.

min čitanja

Velike jezične modele (LLM-ove) posljednjih su godina pratile bombastične tvrdnje: prolaze liječničke ispite i nadmašuju specijalizante. No novo istraživanje Sveučilišta Oxford pokazuje da odlična ocjena na testu ne znači i dobru pomoć pacijentima.

Istraživački tim dr. Adama Mahdija angažirao je 1 298 dobrovoljaca koji su u laboratoriju glumili pacijente. Svaki je sudionik dobio detaljan opis „svojih” simptoma – od prehlade do upale pluća – te zadatak da, uz pomoć čatbota, postavi dijagnozu i odredi što treba poduzeti (samoliječenje, posjet hitnoj, poziv hitne pomoći). Koristili su se trima popularnim modelima: GPT-4o, Llama 3 i Command R+.

Rezultati su porazni za ljudsko–strojnu kombinaciju:

• kada su LLM-ovi sami dobili scenarije, prepoznali su relevantno oboljenje u 94,9 % slučajeva; • kada su iste scenarije rješavali ljudi uz pomoć LLM-ova, točnost je pala na manje od 34,5 %; • kontrolna skupina koja se oslanjala samo na internetsko pretraživanje ili vlastito iskustvo prepoznala je dijagnozu u 47 % slučajeva – 76 % češće nego skupina s čatbotom.

Ni procjena nužne razine skrbi nije prošla bolje: sudionici vođeni čatbotom izabrali su ispravan korak u 44,2 % situacija, dok su LLM-ovi koji su radili samostalno bili točni u 56,3 %.

Pregled zapisa razgovora otkrio je dva ključna problema. Pacijenti su često davali nepotpune podatke (npr. kod žučnih kamenaca spomenuli su samo „jake bolove u trbuhu” bez lokacije i učestalosti), a modeli su nerijetko pogrešno tumačili takve skraćene opise. Još je veći paradoks to što su sudionici katkad ignorirali točne savjete koje su dobili: iako je GPT-4o u 65,7 % razgovora naveo barem jednu ispravnu dijagnozu, manje od trećine konačnih odgovora sudionika sadržavalo je taj zaključak.

Stručnjakinja za korisničko iskustvo Nathalie Volkheimer (RENCI, Sjeverna Karolina) upozorava da problem nije (samo) u algoritmu: „LLM-ovi trebaju precizne upite da bi dali kvalitetan rezultat, a ljudi u boli ili stresu to rijetko mogu formulirati.” Podsjeća i da su liječnici obučeni postavljati niz ciljnih pitanja jer pacijenti nerijetko prešute bitne činjenice ili ih iskrive iz srama.

Kada su istraživači pokušali zamijeniti ljude simuliranim „AI-pacijentima”, situacija se bitno popravila – računalni su sudionici pronalazili točnu dijagnozu u 60,7 % slučajeva. No to samo potvrđuje da međusobno testiranje modela ne otkriva probleme koji nastaju u stvarnom susretu s ljudima.

Volkheimer zaključuje da je, umjesto okrivljavanja korisnika, potrebno dubinski razumjeti njihove navike, rječnik i motive prije nego što se čatbot uvede u zdravstveni ili bilo koji drugi osjetljiv sustav: „Ako ljudi ne dobivaju ono što trebaju, kriva je dizajnerska pretpostavka, a ne korisnik.”

Oxfordova studija stoga donosi jasnu pouku za sve koji razvijaju sustave potpomognute umjetnom inteligencijom: modeli moraju biti testirani u interakciji s pravim ljudima, a ne samo na „idealnim“ školskim pitanjima ni u razgovoru s drugim modelima. U suprotnom, diplome na papiru lako se pretvore u neželjene povrede u ambulanti – virtualnoj ili stvarnoj.

Ostalo

Rekordna krađa na budvanskoj plaži: trojac iz Srbije ukrao više od 13 tisuća eura
Budvanska policija privela je trojicu državljana Srbije nakon što je s plaže nestalo više od 13 000 eura.

min čitanja

Više

Microsoft upozorava na hakerske napade na SharePoint: korisnici moraju hitno zakrpati poslužitelje
Microsoft ističe da su u tijeku ciljani napadi na lokalne SharePoint poslužitelje te poziva korisnike da odmah primijene nove sigurnosne zakrpe ili privremeno isključe sustave s mreže.

min čitanja

Više

Nezaposlenost u Virovitičko-podravskoj županiji pala 17,7 % u godinu dana
HZZ bilježi najmanji broj nezaposlenih u VPŽ-u od lipnja 2024., uz rast ugovora na određeno i veći broj korisnika naknade.

min čitanja

Više

Nova svjedočenja povezuju Trumpa s Epsteinom
Svjedokinja Maria Farmer tvrdi da je FBI-ju još 1990-ih ukazivala na Donalda Trumpa i njegove kontakte s Jeffreyjem Epsteinom, dok Trumpov stožer sve negira.

min čitanja

Više

Trump traži povratak imena Redskins i Indians
Bivši američki predsjednik uključio se u raspravu o sportskim nadimcima, tražeći da Washington Commanders i Cleveland Guardians vrate stara, kontroverzna imena.

min čitanja

Više

Kanada srušila Italiju i preuzela hrvatski tron na Hopman Cupu
Bianca Andreescu i Felix Auger-Aliassime donijeli su Kanadi prvi trofej Hopman Cupa svladavši Italiju 2-1 u finalu u Bariju, čime su skinuli Hrvatsku s mjesta branitelja naslova.

min čitanja

Više

Azerbajdžan tuži Rusiju i najavljuje: „Opskrbit ćemo Europu naftom”
Azerbajdžan zaoštrava spor s Moskvom zbog srušenog zrakoplova, dok OPEC-ove prognoze i planovi za Zangezurski koridor najavljuju da će Baku i Nur-Sultan do 2050. preuzeti lidersku ulogu u opskrbi Europe naftom.

min čitanja

Više

Trumpov ultimatum Putinu otkrio pukotine u „prijateljstvu”
Trump je Putinu zadao rok od 50 dana za primirje u Ukrajini uz prijetnju trgovinskim sankcijama, no Kremlj nema namjeru popustiti, a analitičari mu ne daju velike šanse za uspjeh.

min čitanja

Više

Rijeka ponovo traži predsjednika Gradskog vijeća: Kurelić i Trošelj bez sigurnih 16 ruku
Riječki gradski vijećnici drugi put glasaju za predsjednika. Robert Kurelić nema potvrđenih 16 glasova, a alternative traže PGS, Lista za Rijeku i IDS, dok gradonačelnica Iva Rinčić upozorava da su novi izbori skupi i blokiraju grad.

min čitanja

Više

Mladi Matić preuzima Drenovu: klub ulazi u Prvu B ligu sa skraćenom upravom
ŽOK Drenova dobio je novog predsjednika: 23-godišnji Marko Matić naslijedio je oca Iliju, skratio upravu i najavio polagani povratak u viši rang.

min čitanja

Više