CROLENS
Najnovije
Politika
Sport
Hrvatska
Tehnologija
Biznis
Pretraži
Pretraži
CROLENS
9.AGENCY
Politika privatnostifacebook_icon

Tehnologija

14. lipnja 2025, 08:21

Oxfordovo istraživanje otkriva: čatbotovi briljiraju na testu, ali podbacuju s pravim pacijentima

Novo Oxfordovo istraživanje pokazuje da velike jezične modele ne treba ocjenjivati samo po uspjehu na ispitima: kada ih koriste pravi ljudi, točnost dijagnoze drastično pada.

min. čitanja

XFacebookWhatsApp

Velike jezične modele (LLM-ove) posljednjih su godina pratile bombastične tvrdnje: prolaze liječničke ispite i nadmašuju specijalizante. No novo istraživanje Sveučilišta Oxford pokazuje da odlična ocjena na testu ne znači i dobru pomoć pacijentima.

Istraživački tim dr. Adama Mahdija angažirao je 1 298 dobrovoljaca koji su u laboratoriju glumili pacijente. Svaki je sudionik dobio detaljan opis „svojih” simptoma – od prehlade do upale pluća – te zadatak da, uz pomoć čatbota, postavi dijagnozu i odredi što treba poduzeti (samoliječenje, posjet hitnoj, poziv hitne pomoći). Koristili su se trima popularnim modelima: GPT-4o, Llama 3 i Command R+.

Rezultati su porazni za ljudsko–strojnu kombinaciju:

• kada su LLM-ovi sami dobili scenarije, prepoznali su relevantno oboljenje u 94,9 % slučajeva; • kada su iste scenarije rješavali ljudi uz pomoć LLM-ova, točnost je pala na manje od 34,5 %; • kontrolna skupina koja se oslanjala samo na internetsko pretraživanje ili vlastito iskustvo prepoznala je dijagnozu u 47 % slučajeva – 76 % češće nego skupina s čatbotom.

Ni procjena nužne razine skrbi nije prošla bolje: sudionici vođeni čatbotom izabrali su ispravan korak u 44,2 % situacija, dok su LLM-ovi koji su radili samostalno bili točni u 56,3 %.

Pregled zapisa razgovora otkrio je dva ključna problema. Pacijenti su često davali nepotpune podatke (npr. kod žučnih kamenaca spomenuli su samo „jake bolove u trbuhu” bez lokacije i učestalosti), a modeli su nerijetko pogrešno tumačili takve skraćene opise. Još je veći paradoks to što su sudionici katkad ignorirali točne savjete koje su dobili: iako je GPT-4o u 65,7 % razgovora naveo barem jednu ispravnu dijagnozu, manje od trećine konačnih odgovora sudionika sadržavalo je taj zaključak.

Stručnjakinja za korisničko iskustvo Nathalie Volkheimer (RENCI, Sjeverna Karolina) upozorava da problem nije (samo) u algoritmu: „LLM-ovi trebaju precizne upite da bi dali kvalitetan rezultat, a ljudi u boli ili stresu to rijetko mogu formulirati.” Podsjeća i da su liječnici obučeni postavljati niz ciljnih pitanja jer pacijenti nerijetko prešute bitne činjenice ili ih iskrive iz srama.

Kada su istraživači pokušali zamijeniti ljude simuliranim „AI-pacijentima”, situacija se bitno popravila – računalni su sudionici pronalazili točnu dijagnozu u 60,7 % slučajeva. No to samo potvrđuje da međusobno testiranje modela ne otkriva probleme koji nastaju u stvarnom susretu s ljudima.

Volkheimer zaključuje da je, umjesto okrivljavanja korisnika, potrebno dubinski razumjeti njihove navike, rječnik i motive prije nego što se čatbot uvede u zdravstveni ili bilo koji drugi osjetljiv sustav: „Ako ljudi ne dobivaju ono što trebaju, kriva je dizajnerska pretpostavka, a ne korisnik.”

Oxfordova studija stoga donosi jasnu pouku za sve koji razvijaju sustave potpomognute umjetnom inteligencijom: modeli moraju biti testirani u interakciji s pravim ljudima, a ne samo na „idealnim“ školskim pitanjima ni u razgovoru s drugim modelima. U suprotnom, diplome na papiru lako se pretvore u neželjene povrede u ambulanti – virtualnoj ili stvarnoj.

#sveuciliste-oxford#adam-mahdi#nathalie-volkheimer#renci#gpt-4o

Komentari ~ 0

0/1000 znakova
Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Krvava rasprava o Marsu: prije sto godina Šibenik je gorio zbog pitanja postoji li izvanzemaljski život
Arhivski zapis otkriva da je u siječnju 1926. u Šibeniku izbila tučnjava, a potom i policijska intervencija, zbog žestoke rasprave o tome postoji li život na Marsu.

min čitanja

Više

Tehnologija

EU pokrenuo Govsatcom: Europa želi vlastitu sigurnu satelitsku mrežu
Pokretanjem programa Govsatcom Europska unija ujedinjuje kapacitete vladinih satelita i postavlja temelje za vlastitu, sigurnu komunikacijsku mrežu neovisnu o stranim operaterima.

min čitanja

Više

Tehnologija

Hoće li pouzdani AI zadržati europsku konkurentnost?
EGSO upozorava da je vrijeme propisa gotovo: EU mora brzo i ujednačeno primijeniti čovjeku usmjeren AI uz snažnija privatna ulaganja ako želi ostati globalno konkurentna.

min čitanja

Više

Tehnologija

Google pristao platiti 68 milijuna dolara zbog potajnog snimanja korisnika
Kolektivna tužba zbog navodnog samovoljnog aktiviranja Google Assistanta okončana je nagodbom, koja ipak čeka sudsku potvrdu.

min čitanja

Više

Tehnologija

Zastoj TikToka podgrijao sumnje u cenzuru nakon preuzimanja od američkih ulagača
Milijuni Amerikanaca nisu mogli normalno koristiti TikTok zbog kvara u podatkovnom centru, a pad se poklopio s tranzicijom vlasništva i produbio sumnje u političku cenzuru.

min čitanja

Više

Tehnologija

Alibaba Cloud predstavlja Qwen3-Max-Thinking, model koji cilja nadmašiti GPT-5.2
Novi model Qwen3-Max-Thinking iz Alibabe najavljuje zatvaranje jaza u AI zaključivanju između kineskih i zapadnih laboratorija.

min čitanja

Više

Tehnologija

Alarm zbog ranjivosti u Model Context Protocolu: „Bit će ružno”
Trenutačna eksplozija AI agenata temeljenih na Model Context Protocolu otkrila je niz kritičnih sigurnosnih propusta, a stručnjaci upozoravaju da je „prozor za napade širom otvoren”.

min čitanja

Više

Tehnologija

Od pilot-projekata do ekosustava: inženjeri traže zajednički jezik za višestruke AI agente
Stručnjaci se okupljaju na salonu „Agentic Scale” kako bi raspravili infrastrukturne i sigurnosne izazove pri povezivanju višestrukih AI agenata u složene korporativne sustave.

min čitanja

Više

Tehnologija

London i Zagreb povezuju snage: zdravstvene inovacije u fokusu novog partnerstva
Na konferenciji na Sveučilištu u Zagrebu britanski i hrvatski stručnjaci dogovorili su konkretnije spajanje ekosustava kako bi se ubrzala primjena digitalnih rješenja u zdravstvu i potaknuo gospodarski rast.

min čitanja

Više

Tehnologija

Francuska pokreće opservatorij kako bi smanjila europsku ovisnost o američkoj i kineskoj tehnologiji
Pariz predstavlja opservatorij i indeks otpornosti kako bi EU smanjila trošak od 265 milijardi eura godišnje zbog ovisnosti o ne-europskim tehnološkim dobavljačima.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524

min čitanja

Više

Najčitanije

Nogomet

Iva Olivari postala zamjenica glavnog tajnika HNS-a
Dugogodišnja team managerica „Vatrenih” postala najviše rangirana dužnosnica u povijesti HNS-a.

min čitanja

Više

Nogomet

Autor autorsko pravo: GNK Dinamo Zagreb - https://gnkdinamo.hr/, Poštena uporaba, https://hr.wikipedia.org/w/index.php?curid=790542

Dinamo se oprostio od Ljubičića, veznjak odlazi u Schalke
Vezni igrač nakon kratke, ali upečatljive epizode u Maksimiru nastavlja karijeru u Njemačkoj, a Dinamo mu zahvaljuje na doprinosu i želi mu uspjeh sa Schalkeom.
By Kremlin.ru, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=72609532

min čitanja

Više

Tenis

Sabalenka nezaustavljiva: četvrto uzastopno polufinale u Melbourneu
Bjeloruska tenisačica svladala je Ivu Jović 6-3, 6-0 i izborila četvrto uzastopno polufinale Australian Opena, unatoč vrućini od 39 °C.
By All-Pro Reels - This image has been extracted from another file, CC BY-SA 2.0, https://commons.wikimedia.org/w/index.php?curid=167069269By Hameltion - Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=151015934

min čitanja

Više

Politika

Washington jamstva uvjetuje mirom, Moskva i Kijev i dalje ne popuštaju
Financial Times tvrdi da SAD vezuje sigurnosna jamstva Ukrajini uz ustupke u Donbasu, Zelenskij traži garancije prije bilo kakvog povlačenja, a Bijela kuća poruke o pritisku na Kijev naziva „netočnima”.
By Daniel Torok - White HouseFacebook, Public Domain, https://commons.wikimedia.org/w/index.php?curid=166661524By Пресс-служба Президента РФ - https://www.thetimes.com/world/europe/article/emmanuel-macron-rebrands-himself-as-anti-russia-hawk-to-german-fury-dlplhbbzs (indirectly, this is identical in framing, slightly different color, higher res), CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=155844791President Of Ukraine from Україна, CC0, via Wikimedia Commons

min čitanja

Više

Politika

Politički potres u Crnoj Gori zbog eksplicitnih snimki: Vukšić i Pajković brane se optužbama
Dvoje visokih crnogorskih dužnosnika podnijelo je ostavke nakon curenja eksplicitnih snimki, a međusobne optužbe pretvorile su skandal u političku aferu koja sada čeka sudski rasplet.

min čitanja

Više

Najnovije

Vijesti

U Rapcu pao diler s gotovo pola kilograma amfetamina

Biznis

Southwest konačno uvodi numerirana sjedala, ali novi sustav već izaziva pritužbe

Vijesti

Brijunski tumul otkrio tajne: pronađen srednjovjekovni kostur i tragovi još najmanje jedne osobe

Politika

Građanska inicijativa za pravo na pobačaj stisnula Bruxelles

Lifestyle

Rijeka dobiva prvi Festival pelina i gorskih biljnih likera krajem veljače

Tehnologija

Krvava rasprava o Marsu: prije sto godina Šibenik je gorio zbog pitanja postoji li izvanzemaljski život

Sport

Nova poljudska noćna mora: Istra opet šokirala Hajduk, ali Garcia zasad ostaje miran

Lifestyle

Kako prepoloviti račun za grijanje uz nekoliko jednostavnih koraka

Vijesti

Đakovčanka lažnim ugovorom prisvojila automobil bivšeg supruga

Vijesti

Val nasilja u Imotskom: frakture lica u kafiću, napad na kuću i pritvor za petoricu

Vijesti

Prevaranti 53-godišnjaku „napuhali” dobit od kriptovaluta, zlata i nafte, ostao bez 15 tisuća eura