Tehnologija

14. lipnja 2025, 08:21

Oxfordovo istraživanje otkriva: čatbotovi briljiraju na testu, ali podbacuju s pravim pacijentima

Novo Oxfordovo istraživanje pokazuje da velike jezične modele ne treba ocjenjivati samo po uspjehu na ispitima: kada ih koriste pravi ljudi, točnost dijagnoze drastično pada.

min. čitanja

Velike jezične modele (LLM-ove) posljednjih su godina pratile bombastične tvrdnje: prolaze liječničke ispite i nadmašuju specijalizante. No novo istraživanje Sveučilišta Oxford pokazuje da odlična ocjena na testu ne znači i dobru pomoć pacijentima.

Istraživački tim dr. Adama Mahdija angažirao je 1 298 dobrovoljaca koji su u laboratoriju glumili pacijente. Svaki je sudionik dobio detaljan opis „svojih” simptoma – od prehlade do upale pluća – te zadatak da, uz pomoć čatbota, postavi dijagnozu i odredi što treba poduzeti (samoliječenje, posjet hitnoj, poziv hitne pomoći). Koristili su se trima popularnim modelima: GPT-4o, Llama 3 i Command R+.

Rezultati su porazni za ljudsko–strojnu kombinaciju:

• kada su LLM-ovi sami dobili scenarije, prepoznali su relevantno oboljenje u 94,9 % slučajeva; • kada su iste scenarije rješavali ljudi uz pomoć LLM-ova, točnost je pala na manje od 34,5 %; • kontrolna skupina koja se oslanjala samo na internetsko pretraživanje ili vlastito iskustvo prepoznala je dijagnozu u 47 % slučajeva – 76 % češće nego skupina s čatbotom.

Ni procjena nužne razine skrbi nije prošla bolje: sudionici vođeni čatbotom izabrali su ispravan korak u 44,2 % situacija, dok su LLM-ovi koji su radili samostalno bili točni u 56,3 %.

Pregled zapisa razgovora otkrio je dva ključna problema. Pacijenti su često davali nepotpune podatke (npr. kod žučnih kamenaca spomenuli su samo „jake bolove u trbuhu” bez lokacije i učestalosti), a modeli su nerijetko pogrešno tumačili takve skraćene opise. Još je veći paradoks to što su sudionici katkad ignorirali točne savjete koje su dobili: iako je GPT-4o u 65,7 % razgovora naveo barem jednu ispravnu dijagnozu, manje od trećine konačnih odgovora sudionika sadržavalo je taj zaključak.

Stručnjakinja za korisničko iskustvo Nathalie Volkheimer (RENCI, Sjeverna Karolina) upozorava da problem nije (samo) u algoritmu: „LLM-ovi trebaju precizne upite da bi dali kvalitetan rezultat, a ljudi u boli ili stresu to rijetko mogu formulirati.” Podsjeća i da su liječnici obučeni postavljati niz ciljnih pitanja jer pacijenti nerijetko prešute bitne činjenice ili ih iskrive iz srama.

Kada su istraživači pokušali zamijeniti ljude simuliranim „AI-pacijentima”, situacija se bitno popravila – računalni su sudionici pronalazili točnu dijagnozu u 60,7 % slučajeva. No to samo potvrđuje da međusobno testiranje modela ne otkriva probleme koji nastaju u stvarnom susretu s ljudima.

Volkheimer zaključuje da je, umjesto okrivljavanja korisnika, potrebno dubinski razumjeti njihove navike, rječnik i motive prije nego što se čatbot uvede u zdravstveni ili bilo koji drugi osjetljiv sustav: „Ako ljudi ne dobivaju ono što trebaju, kriva je dizajnerska pretpostavka, a ne korisnik.”

Oxfordova studija stoga donosi jasnu pouku za sve koji razvijaju sustave potpomognute umjetnom inteligencijom: modeli moraju biti testirani u interakciji s pravim ljudima, a ne samo na „idealnim“ školskim pitanjima ni u razgovoru s drugim modelima. U suprotnom, diplome na papiru lako se pretvore u neželjene povrede u ambulanti – virtualnoj ili stvarnoj.

#sveuciliste-oxford #adam-mahdi #nathalie-volkheimer #renci #gpt-4o

Slično

Tehnologija

CrowdStrike i NVIDIA udružili snage protiv napada brzine stroja

Partnerstvo CrowdStrikea i NVIDI-e uvodi autonomne AI agente otvorenog koda koji bi sigurnosnim centrima trebali donijeti obranu brzinom stroja i smanjiti broj lažnih alarma.

min čitanja

Više

Tehnologija

Ljeto kad je skovan pojam umjetne inteligencije

Prisjećamo se povijesne radionice na Dartmouthu 1956. i trenutka kada je John McCarthy uveo pojam umjetna inteligencija.

min čitanja

Više

Tehnologija

Kijin električni kombi oborio Guinnessov rekord dometa pod punim opterećenjem

PV5 Cargo Long Range prešao je 693 km s jednim punjenjem i 665 kg tereta, postavivši novi Guinnessov rekord za električna laka gospodarska vozila.

min čitanja

Više

Tehnologija

Celosphere 2025 najavljuje „enterprise AI” koji mora dokazati mjerljivu vrijednost

Celosphere 2025 pokazat će kako procesna inteligencija pretvara AI iz skupog eksperimenta u izvor brzog povrata ulaganja te kako se globalni divovi nose s tarifama, kaosom u lancima opskrbe i naletom autonomnih agenata.

min čitanja

Više

Tehnologija

Nasa odbacila Kardashianine sumnje: „Na Mjesecu smo bili šest puta”

NASA je preko društvenih mreža otklonila teze Kim Kardashian da je slijetanje Apolla 11 bilo lažirano, podsjetivši kako se na Mjesec vraća s programom Artemis.

min čitanja

Više

Tehnologija

Tri tehnološka mogula platila račun cijelom restoranu u Seulu

Šefovi Nvidije, Samsunga i Hyundaija izazvali su oduševljenje gostiju u Seulu naručivši chimaek za sve i najavivši nove projekte uoči APEC-a.

min čitanja

Više

Tehnologija

Znanstvenici otkrili način da „zavrnu” pogreške rezoniranja velikih jezičnih modela

Metoda CRV omogućuje otkrivanje i ispravljanje pogrešaka rezoniranja u velikim jezičnim modelima, čineći ih transparentnijima i pouzdanijima.

min čitanja

Više

Tehnologija

OpenAI predstavio Aardvark, autonomnog AI istraživača ranjivosti

GPT-5 agent neprekidno snima svaki commit, provjerava iskorištivost otkrivenih propusta i automatski predlaže zakrpe u GitHubu.

min čitanja

Više

Tehnologija

Vrtić Krijesnica pretvara biootpad u vodu i štedi proračun

Dječji vrtić Krijesnica u Starim Jankovcima nabavio je uređaj za aerobnu digestiju biootpada vrijedan 2 544 eura, zahvaljujući Razvojnoj agenciji TINTL i Fondu za zaštitu okoliša.

min čitanja

Više

Tehnologija

Zadnja godina za povoljan obračun solarne energije: net-metering nestaje 2026.

Za ulazak u povoljan sustav „net-meteringa” ostalo je još godinu dana; od 2026. uvodi se „net-billing” i dulji rok povrata investicije u kućne solarne elektrane.

min čitanja

Više

Tehnologija

14. lipnja 2025, 08:21

Oxfordovo istraživanje otkriva: čatbotovi briljiraju na testu, ali podbacuju s pravim pacijentima

Novo Oxfordovo istraživanje pokazuje da velike jezične modele ne treba ocjenjivati samo po uspjehu na ispitima: kada ih koriste pravi ljudi, točnost dijagnoze drastično pada.

min. čitanja

Rezultati su porazni za ljudsko–strojnu kombinaciju:

Ni procjena nužne razine skrbi nije prošla bolje: sudionici vođeni čatbotom izabrali su ispravan korak u 44,2 % situacija, dok su LLM-ovi koji su radili samostalno bili točni u 56,3 %.

#sveuciliste-oxford #adam-mahdi #nathalie-volkheimer #renci #gpt-4o

Slično

Tehnologija

CrowdStrike i NVIDIA udružili snage protiv napada brzine stroja

Partnerstvo CrowdStrikea i NVIDI-e uvodi autonomne AI agente otvorenog koda koji bi sigurnosnim centrima trebali donijeti obranu brzinom stroja i smanjiti broj lažnih alarma.

min čitanja

Više

Tehnologija

Ljeto kad je skovan pojam umjetne inteligencije

Prisjećamo se povijesne radionice na Dartmouthu 1956. i trenutka kada je John McCarthy uveo pojam umjetna inteligencija.

min čitanja

Više

Tehnologija

Kijin električni kombi oborio Guinnessov rekord dometa pod punim opterećenjem

PV5 Cargo Long Range prešao je 693 km s jednim punjenjem i 665 kg tereta, postavivši novi Guinnessov rekord za električna laka gospodarska vozila.

min čitanja

Više

Tehnologija

Celosphere 2025 najavljuje „enterprise AI” koji mora dokazati mjerljivu vrijednost

min čitanja

Više

Tehnologija

Nasa odbacila Kardashianine sumnje: „Na Mjesecu smo bili šest puta”

NASA je preko društvenih mreža otklonila teze Kim Kardashian da je slijetanje Apolla 11 bilo lažirano, podsjetivši kako se na Mjesec vraća s programom Artemis.

min čitanja

Više

Tehnologija

Tri tehnološka mogula platila račun cijelom restoranu u Seulu

Šefovi Nvidije, Samsunga i Hyundaija izazvali su oduševljenje gostiju u Seulu naručivši chimaek za sve i najavivši nove projekte uoči APEC-a.

min čitanja

Više

Tehnologija

Znanstvenici otkrili način da „zavrnu” pogreške rezoniranja velikih jezičnih modela

Metoda CRV omogućuje otkrivanje i ispravljanje pogrešaka rezoniranja u velikim jezičnim modelima, čineći ih transparentnijima i pouzdanijima.

min čitanja

Više

Tehnologija

OpenAI predstavio Aardvark, autonomnog AI istraživača ranjivosti

GPT-5 agent neprekidno snima svaki commit, provjerava iskorištivost otkrivenih propusta i automatski predlaže zakrpe u GitHubu.

min čitanja

Više

Tehnologija

Vrtić Krijesnica pretvara biootpad u vodu i štedi proračun

Dječji vrtić Krijesnica u Starim Jankovcima nabavio je uređaj za aerobnu digestiju biootpada vrijedan 2 544 eura, zahvaljujući Razvojnoj agenciji TINTL i Fondu za zaštitu okoliša.

min čitanja

Više

Tehnologija

Zadnja godina za povoljan obračun solarne energije: net-metering nestaje 2026.

Za ulazak u povoljan sustav „net-meteringa” ostalo je još godinu dana; od 2026. uvodi se „net-billing” i dulji rok povrata investicije u kućne solarne elektrane.

min čitanja

Više