U svijetu u kojem su glasovni asistenti, tehnologije prepoznavanja govora i audio-sučelja sveprisutni, milijuni ljudi s govornim invaliditetom još uvijek ostaju neshvaćeni. Razvojni inženjer i stručnjak za glasovne tehnologije Harshal Shah opisuje kako najnoviji modeli umjetne inteligencije, potpomognuti prijenosnim učenjem i sintetskim govorom, mijenjaju tu sliku.
Standardni sustavi prepoznavanja govora često podbacuju pred atipičnim obrascima izgovora koji prate cerebralnu paralizu, ALS, mucanje ili posljedice traume glasa. Duboko učenje, međutim, otvara vrata uključivijim rješenjima: modeli trenirani na nestandardnim uzorcima uz pomoć prijenosnog učenja mogu točnije razumjeti i najneobičnije glasove, dok generativni AI iz kratkih snimki stvara personalizirane „glasovne avatare” korisnika.
Shah navodi primjer prototipa razvijenog za osobu u završnoj fazi ALS-a. Algoritam je iz njezinih jedva čujnih vokalizacija rekonstruirao rečenice s emocionalnom intonacijom. „Vidjeti njezino oduševljenje kad je ponovno čula vlastiti glas bilo je podsjetnik da AI nije samo stvar metrike, nego ljudskog dostojanstva”, ističe autor.
Ključne tehnologije koje omogućuju takav iskorak uključuju:
• realno-vremensku augmentaciju govora koja popunjava pauze, izravnava disfluencije i prilagođava prozodiju namjeri govornika; • prediktivno modeliranje jezika koje pamti individualne fraze i ubrzava komunikaciju, osobito u kombinaciji s pogledom vođenim tipkovnicama ili sip-and-puff kontrolama; • multimodalnu analizu, gdje sustav tumači i mimiku lica kako bi bolje razumio poruku kada je govor otežan.
Takvi pristupi nisu samo etički iskorak, već i tržišna prilika. Svjetska zdravstvena organizacija procjenjuje da više od milijardu ljudi živi s nekom vrstom invaliditeta, a prilagodljive AI platforme koriste i starijim osobama, višekulturalnim zajednicama te onima s privremenim ozljedama glasa.
Kako bi se povjerenje korisnika očuvalo, Shah preporučuje i alate za objašnjivu umjetnu inteligenciju te federativno učenje koje omogućuje čuvanje privatnosti pri daljnjem usavršavanju modela.
„Budućnost konverzacijskog AI-ja nije samo u razumijevanju govora nego i ljudi. Ako želimo da ta budućnost bude doista inteligentna, mora biti inkluzivna – i počinje s mišlju na svaki glas”, zaključuje Shah.