Kineska tvrtka Future Doctor, specijalizirana za AI-rješenja u zdravstvu, objavila je u znanstvenom časopisu npj Digital Medicine novi „Dvokolosiječni klinički kriterij sigurnosti i učinkovitosti” (CSEDB). Cilj je standardizirano procjenjivanje može li medicinski AI sustav u stvarnim uvjetima biti istodobno siguran i koristan.
• Struktura CSEDB-a: 30 pokazatelja podijeljenih na 17 sigurnosnih i 13 učinkovitostnih mjernih točaka.
• Razvoj: 32 klinička stručnjaka iz 23 specijalnosti najvećih kineskih bolnica.
• Skup zadataka: 2 069 otvorenih pitanja koja pokrivaju 26 medicinskih grana, s naglaskom na scenarije gdje pogreška predstavlja visoki rizik (propust hitnog simptoma, kontraindiciranu terapiju ili loše rangiranje višestrukih dijagnoza).
U usporednom testiranju više velikih jezičnih modela, uključujući OpenAI-jev o3, Googleov Gemini 2.5 Pro i Anthropicov Claude 3.7 Sonnet, najvišu ukupnu, sigurnosnu i učinkovitostnu ocjenu postigao je MedGPT, interni model Future Doctora. Rezultat je posebno naglasio razliku između specijaliziranih i općih modela: mnogi „univerzalni” sustavi pokazali su solidnu učinkovitost, ali su zapinjali na kriterijima sigurnosti.
Autori istraživanja ističu da većina postojećih testova za medicinske AI sustave još uvijek nalikuje standardiziranim ispitima znanja, dok se kritični promašaji ne vide kroz puku točnost odgovora. CSEDB, kažu, pomiče fokus s pitanja „može li AI točno odgovoriti?” na „može li AI raditi sigurno unutar kliničkih ograničenja?”.
Ako CSEDB zaživi u širem krugu, bolnice i proizvođači AI-a mogli bi ga prihvatiti kao obavezan alat pri nabavi i regulaciji, čime bi se ubrzao, ali i sigurnosno osigurao, stvarni ulazak umjetne inteligencije u svakodnevnu kliničku praksu.