Tehnologija

11. siječnja 2026, 06:11

Semantičko predmemoriranje srezalo račun za LLM za čak 73 %

Tvrtka je zamijenila točno podudarno predmemoriranje semantičkim rješenjem i prepolovila troškove te ubrzala odgovore.

min. čitanja

Rastući mjesečni troškovi korištenja LLM-a natjerali su jednu tehnološku tvrtku na preispitivanje sustava predmemoriranja. Iako je promet rastao, račun za API usluge povećavao se 30 % svaki mjesec. Analiza dnevnika upita otkrila je neočekivani krivac: korisnici su stalno postavljali ista pitanja, ali različitim riječima.

Primjeri poput „Koja je vaša politika povrata?“, „Kako mogu vratiti proizvod?“ i „Mogu li dobiti povrat novca?“ svaki su put pokretali potpuno novu LLM obradu i trošak. Klasična predmemorija s točnim podudaranjem prepoznala je tek 18 % tih ponavljanja.

Tvrtka je zato uvela semantičko predmemoriranje, koje prepoznaje smisao upita umjesto doslovnog teksta. Rezultati su bili dramatični:

• stopa pogotka predmemorije skočila je na 67 % • trošak LLM API-ja pao je za 73 % • ukupna latencija smanjena je 65 %

Autor implementacije zaključuje da je semantičko predmemoriranje „praktičan obrazac za kontrolu troškova LLM-a“ jer hvata redundantne pozive koje točno podudarno predmemoriranje propušta.

#api #semanticko-predmemoriranje #politika-povrata

Komentari ~ 0

Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Google povukao dio AI sažetaka nakon opasnih pogrešaka u zdravstvenim informacijama

Google je povukao AI sažetke koji su davali netočne podatke o jetrenim enzimima, nakon upozorenja stručnjaka da bi korisnici mogli biti dovedeni u opasnost.

min čitanja

Više

Tehnologija

Čip debljine vlasi prijeti zasjeniti Neuralink: Columbia i Stanford predstavili BISC

Američki timovi s Columbije i Stanforda razvili su ultratanki BCI čip BISC koji bežično povezuje mozak s računalom i time otvara novu etapu u rehabilitaciji osoba s invaliditetom.

min čitanja

Više

Tehnologija

FCC odobrio SpaceX-u još 7500 Starlinkovih satelita

Regulator je dopustio SpaceX-u da poveća Starlinkovu konstelaciju na 15 000 satelita, uz cilj brzina do 1 Gb/s i stroge rokove za lansiranje.

min čitanja

Više

Tehnologija

Dubrovnik̶ki profesor analizira korijene interneta u Hrvatskoj i najavljuje eru umjetne inteligencije

Autor najopsežnije knjige o ranim godinama interneta u Hrvatskoj govori o ključnim povijesnim momentima, uspoređuje utjecaj mreže s Gutenbergovim tiskom i naglašava izazove koje donosi doba umjetne inteligencije.

min čitanja

Više

Tehnologija

Trumpovi carinski ratovi otvaraju pukotinu u digitalnom monopolu

Cory Doctorow vidi priliku: Trumpovi globalni carinski ratovi i Brexit mogli bi omogućiti rušenje propisa koji štite američke tehnološke monopole.

min čitanja

Više

Tehnologija

OpenAI odgađa lansiranje ChatGPT Health u Europi zbog strožih pravila o privatnosti

Specijalizirani servis trebao bi korisnicima pružati personalizirane zdravstvene savjete, ali lansiranje u Europi koči GDPR i zabrinutost građana za privatnost podataka.

min čitanja

Više

Tehnologija

OpenAI traži od suradnika stare radne materijale kako bi testirao nove AI modele

OpenAI u testiranju novih modela umjetne inteligencije traži od slobodnjaka kompletne radne zadatke, pritom otvarajući pitanja zaštite poslovnih tajni i povjerljivih podataka.

min čitanja

Više

Tehnologija

Kia EV2 stiže iz Slovačke: najpovoljniji električni crossover Korejaca nudi do 448 km dosega

Na sajmu u Bruxellesu predstavljena je Kia EV2, kompaktni električni crossover s početnom cijenom od 30 tisuća eura i dvjema baterijskim verzijama.

min čitanja

Više

Tehnologija

Orchestral AI nudi novu partituru za agentične modele: sinkronost umjesto kaosa

Sinkroni Python okvir braće Roman obećava reproducibilne i jeftinije AI agente, ali dolazi pod strogom vlasničkom licencom.

min čitanja

Više

Tehnologija

Anthropic zatvorio vrata neslužbenim alatima: korisnici OpenCodea ostali bez pristupa Claudeu

Nove zaštite Anthopica protiv lažnog korištenja Claude Codea blokirale su OpenCode i naljutile developere, dok tvrtka istodobno ograničava pristup svojim modelima konkurenciji.

min čitanja

Više

Najčitanije

Vijesti

Novi plan za suživot s vukom: 43 čopora podijeljena u zone upravljanja

Desetogodišnji plan upravljanja vukom donosi zonaciju, nadzor hibrida i nove koridore za 43 čopora, a cilj je smanjiti sukobe sa stočarima i osigurati stabilnu populaciju.

min čitanja

Više

Politika

Trumpova administracija razmatra mogući napad na Iran

Mediji navode da su u Bijeloj kući održani prvi razgovori o mogućem udaru na Iran, no zasad nema znakova neposrednog raspoređivanja vojske.

min čitanja

Više

Vijesti

Američki zračni udari pomeli položaje ISIS-a u Siriji

Operacija „Hawkeye Strike” započela je nakon pogibije dvojice američkih vojnika u Palmiri.

min čitanja

Više

Nogomet

Matanovićev gol za preokret Freiburga, Vušković načeo utakmicu

Hrvatski dvojac donio preokret Freiburgu u snježnom ogledu protiv Hamburga

min čitanja

Više

Nogomet

Fabregas hvali Baturinu nakon kasnog gola: „Došao je kao Modrićev nasljednik, a pokazao apsolutni talent”

Hrvatski veznjak spasio bod Comu protiv Bologne u 20. kolu Serie A, a trener Fabregas oduševljen je njegovim kasnim pogotkom.

min čitanja

Više

Tehnologija

11. siječnja 2026, 06:11

Semantičko predmemoriranje srezalo račun za LLM za čak 73 %

Tvrtka je zamijenila točno podudarno predmemoriranje semantičkim rješenjem i prepolovila troškove te ubrzala odgovore.

min. čitanja

Tvrtka je zato uvela semantičko predmemoriranje, koje prepoznaje smisao upita umjesto doslovnog teksta. Rezultati su bili dramatični:

• stopa pogotka predmemorije skočila je na 67 % • trošak LLM API-ja pao je za 73 % • ukupna latencija smanjena je 65 %

Autor implementacije zaključuje da je semantičko predmemoriranje „praktičan obrazac za kontrolu troškova LLM-a“ jer hvata redundantne pozive koje točno podudarno predmemoriranje propušta.

#api #semanticko-predmemoriranje #politika-povrata

Komentari ~ 0

Trenutno nema komentara za ovaj članak. Budite prvi.

Slično

Tehnologija

Google povukao dio AI sažetaka nakon opasnih pogrešaka u zdravstvenim informacijama

Google je povukao AI sažetke koji su davali netočne podatke o jetrenim enzimima, nakon upozorenja stručnjaka da bi korisnici mogli biti dovedeni u opasnost.

min čitanja

Više

Tehnologija

Čip debljine vlasi prijeti zasjeniti Neuralink: Columbia i Stanford predstavili BISC

Američki timovi s Columbije i Stanforda razvili su ultratanki BCI čip BISC koji bežično povezuje mozak s računalom i time otvara novu etapu u rehabilitaciji osoba s invaliditetom.

min čitanja

Više

Tehnologija

FCC odobrio SpaceX-u još 7500 Starlinkovih satelita

Regulator je dopustio SpaceX-u da poveća Starlinkovu konstelaciju na 15 000 satelita, uz cilj brzina do 1 Gb/s i stroge rokove za lansiranje.

min čitanja

Više

Tehnologija

Dubrovnik̶ki profesor analizira korijene interneta u Hrvatskoj i najavljuje eru umjetne inteligencije

min čitanja

Više

Tehnologija

Trumpovi carinski ratovi otvaraju pukotinu u digitalnom monopolu

Cory Doctorow vidi priliku: Trumpovi globalni carinski ratovi i Brexit mogli bi omogućiti rušenje propisa koji štite američke tehnološke monopole.

min čitanja

Više

Tehnologija

OpenAI odgađa lansiranje ChatGPT Health u Europi zbog strožih pravila o privatnosti

Specijalizirani servis trebao bi korisnicima pružati personalizirane zdravstvene savjete, ali lansiranje u Europi koči GDPR i zabrinutost građana za privatnost podataka.

min čitanja

Više

Tehnologija

OpenAI traži od suradnika stare radne materijale kako bi testirao nove AI modele

OpenAI u testiranju novih modela umjetne inteligencije traži od slobodnjaka kompletne radne zadatke, pritom otvarajući pitanja zaštite poslovnih tajni i povjerljivih podataka.

min čitanja

Više

Tehnologija

Kia EV2 stiže iz Slovačke: najpovoljniji električni crossover Korejaca nudi do 448 km dosega

Na sajmu u Bruxellesu predstavljena je Kia EV2, kompaktni električni crossover s početnom cijenom od 30 tisuća eura i dvjema baterijskim verzijama.

min čitanja

Više

Tehnologija

Orchestral AI nudi novu partituru za agentične modele: sinkronost umjesto kaosa

Sinkroni Python okvir braće Roman obećava reproducibilne i jeftinije AI agente, ali dolazi pod strogom vlasničkom licencom.

min čitanja

Više

Tehnologija

Anthropic zatvorio vrata neslužbenim alatima: korisnici OpenCodea ostali bez pristupa Claudeu

Nove zaštite Anthopica protiv lažnog korištenja Claude Codea blokirale su OpenCode i naljutile developere, dok tvrtka istodobno ograničava pristup svojim modelima konkurenciji.

min čitanja

Više

Najčitanije

Vijesti

Novi plan za suživot s vukom: 43 čopora podijeljena u zone upravljanja

Desetogodišnji plan upravljanja vukom donosi zonaciju, nadzor hibrida i nove koridore za 43 čopora, a cilj je smanjiti sukobe sa stočarima i osigurati stabilnu populaciju.

min čitanja

Više

Politika

Trumpova administracija razmatra mogući napad na Iran

Mediji navode da su u Bijeloj kući održani prvi razgovori o mogućem udaru na Iran, no zasad nema znakova neposrednog raspoređivanja vojske.

min čitanja

Više

Vijesti

Američki zračni udari pomeli položaje ISIS-a u Siriji

Operacija „Hawkeye Strike” započela je nakon pogibije dvojice američkih vojnika u Palmiri.

min čitanja

Više

Nogomet

Matanovićev gol za preokret Freiburga, Vušković načeo utakmicu

Hrvatski dvojac donio preokret Freiburgu u snježnom ogledu protiv Hamburga

min čitanja

Više

Nogomet

Fabregas hvali Baturinu nakon kasnog gola: „Došao je kao Modrićev nasljednik, a pokazao apsolutni talent”

Hrvatski veznjak spasio bod Comu protiv Bologne u 20. kolu Serie A, a trener Fabregas oduševljen je njegovim kasnim pogotkom.

min čitanja

Više