Appleovi istraživači osmislili su okvir EPICACHE koji velikim jezičnim modelima (LLM-ovima) omogućuje zadržavanje konteksta tijekom dugotrajnih razgovora uz do šest puta manju potrošnju memorije od postojećih pristupa.
„Nedavni napredak u LLM-ovima produljio je duljinu konteksta, no memorija potrebna za predmemoriju ključ-vrijednost linearno raste s dijalogom i brzo postaje ograničavajući čimbenik”, navodi se u radu objavljenom ovoga tjedna.
Ključni problemi i Appleovo rješenje • U višednevnim razgovorima memorija može premašiti 7 GB nakon svega 30 sesija, čak i kod razmjerno malih modela. • EPICACHE dijeli razgovor na tematski koherentne „epizode”, a zatim pri svakom novom upitu dohvaća samo relevantne dijelove. • Okvir koristi semantičko grupiranje i „adaptivnu raspodjelu memorijskog budžeta po slojevima” kako bi učinkovitije trošio resurse. • Rješenje je bez ponovnog treniranja pa se može primijeniti na postojeće modele.
Rezultati testiranja Na trima LongConvQA mjerilima sustav je: • povećao točnost do 40 % u odnosu na najnovije baseline-e; • zadržao gotovo potpunu točnost predmemorije uz 4–6× kompresiju; • smanjio latenciju do 2,4 puta, a stvarnu potrošnju memorije i do 3,5 puta.
Prednosti za poslovne korisnike Tvrtke koje uvode chatbotove, virtualne asistente ili sustave tehničke podrške često se susreću s dilemom: čuvati opsežnu povijest razgovora uz visoke troškove memorije ili štedjeti memoriju na račun konteksta. EPICACHE nudi treću opciju – održavanje dugotrajnog i personaliziranog dijaloga bez eskalacije troškova infrastrukture.
„EPICACHE ograničava rast predmemorije blokovskim unaprijednim punjenjem te epizodnim izbacivanjem sadržaja koji nije vezan uz temu”, objašnjava istraživački tim koji predvodi Minsoo Kim s korejskog Sveučilišta Hanyang u suradnji s Appleom.
Šire implikacije Ovaj rad ilustrira pomak od utrke za sve većim modelima prema optimizaciji postojećih sustava. U poslovnom okruženju, gdje svaka poruka prema AI asistentu ima svoju cijenu, učinkovitije „pamćenje” moglo bi donijeti veću konkurentsku prednost nego sama veličina modela.