Rastući mjesečni troškovi korištenja LLM-a natjerali su jednu tehnološku tvrtku na preispitivanje sustava predmemoriranja. Iako je promet rastao, račun za API usluge povećavao se 30 % svaki mjesec. Analiza dnevnika upita otkrila je neočekivani krivac: korisnici su stalno postavljali ista pitanja, ali različitim riječima.
Primjeri poput „Koja je vaša politika povrata?“, „Kako mogu vratiti proizvod?“ i „Mogu li dobiti povrat novca?“ svaki su put pokretali potpuno novu LLM obradu i trošak. Klasična predmemorija s točnim podudaranjem prepoznala je tek 18 % tih ponavljanja.
Tvrtka je zato uvela semantičko predmemoriranje, koje prepoznaje smisao upita umjesto doslovnog teksta. Rezultati su bili dramatični:
• stopa pogotka predmemorije skočila je na 67 % • trošak LLM API-ja pao je za 73 % • ukupna latencija smanjena je 65 %
Autor implementacije zaključuje da je semantičko predmemoriranje „praktičan obrazac za kontrolu troškova LLM-a“ jer hvata redundantne pozive koje točno podudarno predmemoriranje propušta.