CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

14. lipnja 2025, 08:21

Oxfordovo istraživanje otkriva: čatbotovi briljiraju na testu, ali podbacuju s pravim pacijentima

Novo Oxfordovo istraživanje pokazuje da velike jezične modele ne treba ocjenjivati samo po uspjehu na ispitima: kada ih koriste pravi ljudi, točnost dijagnoze drastično pada.

min. čitanja

Velike jezične modele (LLM-ove) posljednjih su godina pratile bombastične tvrdnje: prolaze liječničke ispite i nadmašuju specijalizante. No novo istraživanje Sveučilišta Oxford pokazuje da odlična ocjena na testu ne znači i dobru pomoć pacijentima.

Istraživački tim dr. Adama Mahdija angažirao je 1 298 dobrovoljaca koji su u laboratoriju glumili pacijente. Svaki je sudionik dobio detaljan opis „svojih” simptoma – od prehlade do upale pluća – te zadatak da, uz pomoć čatbota, postavi dijagnozu i odredi što treba poduzeti (samoliječenje, posjet hitnoj, poziv hitne pomoći). Koristili su se trima popularnim modelima: GPT-4o, Llama 3 i Command R+.

Rezultati su porazni za ljudsko–strojnu kombinaciju:

• kada su LLM-ovi sami dobili scenarije, prepoznali su relevantno oboljenje u 94,9 % slučajeva; • kada su iste scenarije rješavali ljudi uz pomoć LLM-ova, točnost je pala na manje od 34,5 %; • kontrolna skupina koja se oslanjala samo na internetsko pretraživanje ili vlastito iskustvo prepoznala je dijagnozu u 47 % slučajeva – 76 % češće nego skupina s čatbotom.

Ni procjena nužne razine skrbi nije prošla bolje: sudionici vođeni čatbotom izabrali su ispravan korak u 44,2 % situacija, dok su LLM-ovi koji su radili samostalno bili točni u 56,3 %.

Pregled zapisa razgovora otkrio je dva ključna problema. Pacijenti su često davali nepotpune podatke (npr. kod žučnih kamenaca spomenuli su samo „jake bolove u trbuhu” bez lokacije i učestalosti), a modeli su nerijetko pogrešno tumačili takve skraćene opise. Još je veći paradoks to što su sudionici katkad ignorirali točne savjete koje su dobili: iako je GPT-4o u 65,7 % razgovora naveo barem jednu ispravnu dijagnozu, manje od trećine konačnih odgovora sudionika sadržavalo je taj zaključak.

Stručnjakinja za korisničko iskustvo Nathalie Volkheimer (RENCI, Sjeverna Karolina) upozorava da problem nije (samo) u algoritmu: „LLM-ovi trebaju precizne upite da bi dali kvalitetan rezultat, a ljudi u boli ili stresu to rijetko mogu formulirati.” Podsjeća i da su liječnici obučeni postavljati niz ciljnih pitanja jer pacijenti nerijetko prešute bitne činjenice ili ih iskrive iz srama.

Kada su istraživači pokušali zamijeniti ljude simuliranim „AI-pacijentima”, situacija se bitno popravila – računalni su sudionici pronalazili točnu dijagnozu u 60,7 % slučajeva. No to samo potvrđuje da međusobno testiranje modela ne otkriva probleme koji nastaju u stvarnom susretu s ljudima.

Volkheimer zaključuje da je, umjesto okrivljavanja korisnika, potrebno dubinski razumjeti njihove navike, rječnik i motive prije nego što se čatbot uvede u zdravstveni ili bilo koji drugi osjetljiv sustav: „Ako ljudi ne dobivaju ono što trebaju, kriva je dizajnerska pretpostavka, a ne korisnik.”

Oxfordova studija stoga donosi jasnu pouku za sve koji razvijaju sustave potpomognute umjetnom inteligencijom: modeli moraju biti testirani u interakciji s pravim ljudima, a ne samo na „idealnim“ školskim pitanjima ni u razgovoru s drugim modelima. U suprotnom, diplome na papiru lako se pretvore u neželjene povrede u ambulanti – virtualnoj ili stvarnoj.

#sveuciliste-oxford#adam-mahdi#nathalie-volkheimer#renci#gpt-4o

Slično

Tehnologija

CrowdStrike i NVIDIA udružili snage protiv napada brzine stroja
Partnerstvo CrowdStrikea i NVIDI-e uvodi autonomne AI agente otvorenog koda koji bi sigurnosnim centrima trebali donijeti obranu brzinom stroja i smanjiti broj lažnih alarma.

min čitanja

Više

Tehnologija

Ljeto kad je skovan pojam umjetne inteligencije
Prisjećamo se povijesne radionice na Dartmouthu 1956. i trenutka kada je John McCarthy uveo pojam umjetna inteligencija.

min čitanja

Više

Tehnologija

Kijin električni kombi oborio Guinnessov rekord dometa pod punim opterećenjem
PV5 Cargo Long Range prešao je 693 km s jednim punjenjem i 665 kg tereta, postavivši novi Guinnessov rekord za električna laka gospodarska vozila.

min čitanja

Više

Tehnologija

Celosphere 2025 najavljuje „enterprise AI” koji mora dokazati mjerljivu vrijednost
Celosphere 2025 pokazat će kako procesna inteligencija pretvara AI iz skupog eksperimenta u izvor brzog povrata ulaganja te kako se globalni divovi nose s tarifama, kaosom u lancima opskrbe i naletom autonomnih agenata.

min čitanja

Više

Tehnologija

Nasa odbacila Kardashianine sumnje: „Na Mjesecu smo bili šest puta”
NASA je preko društvenih mreža otklonila teze Kim Kardashian da je slijetanje Apolla 11 bilo lažirano, podsjetivši kako se na Mjesec vraća s programom Artemis.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Tehnologija

Tri tehnološka mogula platila račun cijelom restoranu u Seulu
Šefovi Nvidije, Samsunga i Hyundaija izazvali su oduševljenje gostiju u Seulu naručivši chimaek za sve i najavivši nove projekte uoči APEC-a.

min čitanja

Više

Tehnologija

Znanstvenici otkrili način da „zavrnu” pogreške rezoniranja velikih jezičnih modela
Metoda CRV omogućuje otkrivanje i ispravljanje pogrešaka rezoniranja u velikim jezičnim modelima, čineći ih transparentnijima i pouzdanijima.

min čitanja

Više

Tehnologija

OpenAI predstavio Aardvark, autonomnog AI istraživača ranjivosti
GPT-5 agent neprekidno snima svaki commit, provjerava iskorištivost otkrivenih propusta i automatski predlaže zakrpe u GitHubu.

min čitanja

Više

Tehnologija

Vrtić Krijesnica pretvara biootpad u vodu i štedi proračun
Dječji vrtić Krijesnica u Starim Jankovcima nabavio je uređaj za aerobnu digestiju biootpada vrijedan 2 544 eura, zahvaljujući Razvojnoj agenciji TINTL i Fondu za zaštitu okoliša.

min čitanja

Više

Tehnologija

Zadnja godina za povoljan obračun solarne energije: net-metering nestaje 2026.
Za ulazak u povoljan sustav „net-meteringa” ostalo je još godinu dana; od 2026. uvodi se „net-billing” i dulji rok povrata investicije u kućne solarne elektrane.

min čitanja

Više

Najčitanije

Vijesti

Registar isključenih igrača: nova brana za 47.000 Hrvata ovisnih o kocki
HZJZ uvodi Registar isključenih igrača, centralizirani sustav koji ovisnicima o kockanju omogućuje zabranu pristupa svim kladionicama i kasinima; u Hrvatskoj oko 47 000 ljudi ima ozbiljan problem s kockom.

min čitanja

Više

Vijesti

Dron opet paralizirao zračnu luku Berlin Brandenburg
Dron u blizini aerodroma Berlin Brandenburg prouzročio kašnjenja i preusmjeravanja više letova.

min čitanja

Više

Nogomet

Borussia minimalno slavila u Augsburgu
Guirassy odlučio gostovanje u Augsburgu, a momčad Nike Kovača ponovno je druga u Bundesligi.
Autor Sven Mandel - Vlastito djelo postavljača, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=94241705

min čitanja

Više

Najnovije

Vijesti

Sud ponovno potvrdio optužnicu za urušenu nadstrešnicu u Novom Sadu

Vijesti

Željeznički spas za splitske gužve, ali metro ipak otpao

Sport

Stubbs se brani nakon bure zbog izjave o Đokoviću: „Napalo me 65 tisuća Srba”

Vijesti

Tisuće svijeća u Vukovaru: na Sve svete obilježena sjećanja na žrtve 1991.

Politika

Maras: „Ništa nisam ukrao, sve sam stekao vlastitim radom”

Lifestyle

Jasmin Stavros bi danas slavio 71. rođendan

Sport

Bucsa i Mboko izborile finale Hong Konga

Sport

Dodgersi izborili majstoricu protiv Blue Jaysa

Politika

Australija upozorila muškarce s dva državljanstva na hrvatski vojni rok

Politika

Hassan osvojila 97 % glasova usred nasilnih prosvjeda u Tanzaniji

Vijesti

Ivošević prijavio investitora Dalmatia Towera zbog prijetnji