Istraživači Microsofta razvili su „On-Policy Context Distillation” (OPCD), novi okvir treniranja velikih jezičnih modela (LLM) koji bi tvrtkama trebao skratiti vrijeme odziva i smanjiti troškove rada takvih sustava.
U klasičnoj primjeni LLM-ova poduzeća u sustavne upute (tzv. system prompts) često umeću opsežne blokove internih znanja, preferencija i uputstava. Ti tekstovi znatno produljuju kontekst koji model mora obraditi pri svakom upitu, pa rastu latencija i cijena svakog poziva.
OPCD taj problem rješava tako što se dio tog znanja „ugrađuje” izravno u parametre modela. Ključno je da se u procesu treniranja koriste vlastiti odgovori modela, što prema autorima izbjegava probleme na koje nailaze druge tehnike finog ugađanja. Rezultat je specijalizirani model koji zadržava široke generativne sposobnosti, ali brže i jeftinije odgovara na zahtjeve specifične za pojedinu aplikaciju.
Microsoft navodi da OPCD omogućuje stvaranje prilagođenih rješenja na razini poduzeća bez velikog narušavanja generičke funkcionalnosti modela te otvara „novo poglavlje” u razvoju poslovnih LLM aplikacija.