CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

14. lipnja 2025, 08:21

Oxfordovo istraživanje otkriva: čatbotovi briljiraju na testu, ali podbacuju s pravim pacijentima

Novo Oxfordovo istraživanje pokazuje da velike jezične modele ne treba ocjenjivati samo po uspjehu na ispitima: kada ih koriste pravi ljudi, točnost dijagnoze drastično pada.

min. čitanja

XFacebookWhatsApp

Velike jezične modele (LLM-ove) posljednjih su godina pratile bombastične tvrdnje: prolaze liječničke ispite i nadmašuju specijalizante. No novo istraživanje Sveučilišta Oxford pokazuje da odlična ocjena na testu ne znači i dobru pomoć pacijentima.

Istraživački tim dr. Adama Mahdija angažirao je 1 298 dobrovoljaca koji su u laboratoriju glumili pacijente. Svaki je sudionik dobio detaljan opis „svojih” simptoma – od prehlade do upale pluća – te zadatak da, uz pomoć čatbota, postavi dijagnozu i odredi što treba poduzeti (samoliječenje, posjet hitnoj, poziv hitne pomoći). Koristili su se trima popularnim modelima: GPT-4o, Llama 3 i Command R+.

Rezultati su porazni za ljudsko–strojnu kombinaciju:

• kada su LLM-ovi sami dobili scenarije, prepoznali su relevantno oboljenje u 94,9 % slučajeva; • kada su iste scenarije rješavali ljudi uz pomoć LLM-ova, točnost je pala na manje od 34,5 %; • kontrolna skupina koja se oslanjala samo na internetsko pretraživanje ili vlastito iskustvo prepoznala je dijagnozu u 47 % slučajeva – 76 % češće nego skupina s čatbotom.

Ni procjena nužne razine skrbi nije prošla bolje: sudionici vođeni čatbotom izabrali su ispravan korak u 44,2 % situacija, dok su LLM-ovi koji su radili samostalno bili točni u 56,3 %.

Pregled zapisa razgovora otkrio je dva ključna problema. Pacijenti su često davali nepotpune podatke (npr. kod žučnih kamenaca spomenuli su samo „jake bolove u trbuhu” bez lokacije i učestalosti), a modeli su nerijetko pogrešno tumačili takve skraćene opise. Još je veći paradoks to što su sudionici katkad ignorirali točne savjete koje su dobili: iako je GPT-4o u 65,7 % razgovora naveo barem jednu ispravnu dijagnozu, manje od trećine konačnih odgovora sudionika sadržavalo je taj zaključak.

Stručnjakinja za korisničko iskustvo Nathalie Volkheimer (RENCI, Sjeverna Karolina) upozorava da problem nije (samo) u algoritmu: „LLM-ovi trebaju precizne upite da bi dali kvalitetan rezultat, a ljudi u boli ili stresu to rijetko mogu formulirati.” Podsjeća i da su liječnici obučeni postavljati niz ciljnih pitanja jer pacijenti nerijetko prešute bitne činjenice ili ih iskrive iz srama.

Kada su istraživači pokušali zamijeniti ljude simuliranim „AI-pacijentima”, situacija se bitno popravila – računalni su sudionici pronalazili točnu dijagnozu u 60,7 % slučajeva. No to samo potvrđuje da međusobno testiranje modela ne otkriva probleme koji nastaju u stvarnom susretu s ljudima.

Volkheimer zaključuje da je, umjesto okrivljavanja korisnika, potrebno dubinski razumjeti njihove navike, rječnik i motive prije nego što se čatbot uvede u zdravstveni ili bilo koji drugi osjetljiv sustav: „Ako ljudi ne dobivaju ono što trebaju, kriva je dizajnerska pretpostavka, a ne korisnik.”

Oxfordova studija stoga donosi jasnu pouku za sve koji razvijaju sustave potpomognute umjetnom inteligencijom: modeli moraju biti testirani u interakciji s pravim ljudima, a ne samo na „idealnim“ školskim pitanjima ni u razgovoru s drugim modelima. U suprotnom, diplome na papiru lako se pretvore u neželjene povrede u ambulanti – virtualnoj ili stvarnoj.

#sveuciliste-oxford#adam-mahdi#nathalie-volkheimer#renci#gpt-4o

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Google predstavlja Gemini Embedding 2: jedinstveni vektori za sve medijske sadržaje
Google je pustio u javni pretpregled multimodalni model Gemini Embedding 2 koji spaja tekst, slike, video i zvuk u isti vektorski prostor, ubrzava obradu do 70 % i smanjuje troškove za poduzeća.

min čitanja

Više

Tehnologija

Anthropic spaja Claude s Excelom i PowerPointom, cilja korporativne korisnike
Nadogradnja Claudea donosi duboke integracije s Excelom i PowerPointom, dijeljeni kontekst između aplikacija i novu funkciju „Skills” za brže, standardizirano obavljanje zadataka.

min čitanja

Više

Tehnologija

RSAC Innovation Sandbox: AI sigurnost u središtu natjecanja koje stvara buduće lidere
Dvadeseta obljetnica RSAC Innovation Sandboxa donosi deset finalista fokusiranih na sigurnost umjetne inteligencije i pet milijuna dolara ulaganja za svakog od njih.

min čitanja

Više

Tehnologija

Nvidia ulaže 26 milijardi dolara u otvorene AI modele
Tvrtka planira u idućih pet godina izdvojiti 26 milijardi dolara za razvoj i širenje otvorenih AI modela.

min čitanja

Više

Tehnologija

Vukovar na konferenciji pametnih gradova predstavio sunčane elektrane
Vukovar je na konferenciji Smart Cities predstavio projekt „Sunce nad Vukovarom”, kojim je na javnim zgradama postavljeno 12 solarnih elektrana i značajno smanjena potrošnja energije.

min čitanja

Više

Tehnologija

Perplexity ulazi u poslovni segment svojim višenamjenskim agentom Computer
Perplexity je predstavio AI-agenta Computer za poslovne korisnike, izravno se suprotstavljajući tehnološkim divovima.

min čitanja

Više

Tehnologija

Drvna industrija Dunava ulazi u Industriju 4.0: Vinkovci ugostili završnu konferenciju međunarodnog projekta
U Vinkovcima je predstavljeno dvogodišnje EU-financirano partnerstvo koje donosi digitalnu transformaciju drvnoj industriji 11 dunavskih zemalja.

min čitanja

Više

Tehnologija

Startup Manufact želi biti „USB-C” za umjetnu inteligenciju i upravo je osigurao 6,3 milijuna dolara
Tričlani Manufact prikupio je 6,3 milijuna dolara kako bi izgradio alate i infrastrukturu za Model Context Protocol, otvoreni standard koji AI agentima omogućuje lak pristup softverskim aplikacijama.

min čitanja

Više

Tehnologija

Brilliant Labs i Alif Semiconductor udružili snage za novu generaciju pametnih naočala
Suradnja dviju tvrtki donosi specijalizirani čip s ugrađenom neuronskom jedinicom za Halo Glasses, uz 14 sati rada i potpunu obradu podataka na samim naočalama.

min čitanja

Više

Tehnologija

Učenici u Teksasu koriste AI za blaćenje profesora na društvenim mrežama
AI-generirani memovi pretvaraju se u opasne „slander stranice” koje ozbiljno narušavaju ugled nastavnika u teksaškim školama.
US Department of State, Public domain, via Wikimedia CommonsPalm Beach County Sheriff's Department, Public domain, via Wikimedia Commons

min čitanja

Više

Najčitanije

Vijesti

UNESCO upozorava na razaranje iranske kulturne baštine
Četiri iranska lokaliteta svjetske baštine već su oštećena u sukobima; UNESCO traži hitnu zaštitu povijesnih dragocjenosti.

min čitanja

Više

Najnovije

Sport

Iran najavljuje povlačenje sa Svjetskog prvenstva 2026.

Lifestyle

Bliski istok gori, putnici iz Hrvatske skreću prema Kanarima i Portugalu

Sport

Nmecha potpisao dugoročni ugovor s Borussijom Dortmund do 2030.

Tehnologija

Google predstavlja Gemini Embedding 2: jedinstveni vektori za sve medijske sadržaje

Politika

Demokrati preokrenuli još jedno crveno uporište u New Hampshireu

Politika

Čačić optužuje Plenkovića za „zarobljenu državu” i pripuštanje radikalne desnice

Vijesti

Ubojstvo Vedrana Malenice razriješeno nakon tri desetljeća

Sport

Šok u srpskom nogometu: u 23. godini preminuo Petar Vučinić

Vijesti

Tri Istrana očistila kuće i predala skriveno oružje policiji

Sport

Leverkusen i Arsenal remijem odgodili odluku o četvrtfinalistu

Vijesti

Zadarska matura iz matematike otkrila pad: dvije gimnazije dijele vrh, prosjek tek 2,99