Istraživači iz Katanemo Labsa predstavili su Arch-Router, kompaktni jezični model s 1,5 milijardi parametara koji uz 93,17 % točnosti bira najprikladniji veliki jezični model (LLM) za svaki korisnički upit – i to bez dodatnog treniranja svaki put kad se promijeni portfelj modela.
Korisnici i tvrtke sve češće kombiniraju više LLM-ova: jedan za generiranje koda, drugi za sumarizaciju teksta, treći za obradu slika. Dosadašnji pristupi usmjeravanju oslanjali su se ili na fiksne zadatke ili na gole metrike izvedbe, što se pokazalo neprilagodljivim u razgovorima s nejasnim namjerama i skupim za održavanje.
„Postojeći routeri optimiziraju benchmark rezultate, a zanemaruju ljudske preferencije”, navode autori rada. Njihovo rješenje uvodi “preference-aligned routing”: programeri na prirodnom jeziku definiraju domenu (npr. „pravni”), zatim radnju (npr. „sumarizacija”), a svaku politiku vežu uz željeni LLM. Arch-Router prima cijeli popis politika u promptu i kao odgovor generira kratki identifikator politike, primjerice „image_editing”. Budući da su politike samo tekst u ulazu, nove rute mogu se dodati „u hodu”, bez ikakvog finog podešavanja modela.
Model je nastao finim podešavanjem Qwen 2.5 verzije na 43 000 pažljivo sklepanih primjera. U testiranju na četiri javna skupa podataka premašio je vlasničke sustave OpenAI-a, Anthropica i Googlea u prosjeku za 7,71 postotni bod, a prednost mu raste što je razgovor duži.
Unatoč dugim politikama u promptu, kašnjenje ostaje nisko jer izlaz sadrži tek nekoliko znakova. „Latencija ovisi o duljini izlaza, a naš je tek naziv rute”, ističe suosnivač i direktor Salman Paracha.
U praksi se Arch-Router već koristi u: • otvoreno-kôdnim razvojnim alatima gdje faze poput „dizajna koda” i „generiranja koda” šalje na različite LLM-ove; • korporativnim sustavima koji, primjerice, zahtjeve za izradu dokumenata šalju Claudeu 3.7 Sonnet, a zadatke obrade slika Geminiju 2.5 Pro; • osobnim asistentima s raznolikim zadacima – od sumarizacije do brzih faktografskih upita.
Framework je integriran u Arch, poslužitelj-proxy Katanemo Labsa, što tvrtkama dopušta da dio prometa eksperimentalno usmjere na novi model, prate metrike i tek potom ga potpuno uključe. Paracha zaključuje: „Cilj nam je fragmentirane AI implementacije pretvoriti u jedinstveno, politikama vođeno iskustvo koje korisniku izgleda neprimjetno.”