Microsoft Research lansirao je Fara-7B, novi model s 7 milijardi parametara namijenjen automatizaciji radnih zadataka izravno na korisničkom računalu. Zahvaljujući kompaktnosti, agent se izvršava lokalno, smanjuje latenciju i čuva povjerljive podatke unutar uređaja, čime otklanja jedan od glavnih prigovora poduzeća – sigurnost podataka.
Fara-7B upravlja računalom poput čovjeka – mišem i tipkovnicom. Umjesto da čita „accessibility tree”, model analizira snimke zaslona i na temelju piksela predviđa gdje kliknuti, pisati ili skrolati. Takav „vizualni suverenitet” omogućuje rad i na zamršenim web-stranicama čiji je izvorni kod obfusciran.
„This approach helps organizations meet strict requirements in regulated sectors, including HIPAA and GLBA”, naveo je Yash Lara, vodeći produkt-menadžer u Microsoft Researchu, uz objašnjenje da se sva obrada slike i zaključivanje odvijaju na uređaju korisnika.
Rezultati testiranja: • WebVoyager – 73,5 % uspješnosti (GPT-4o: 65,1 %; UI-TARS-1.5-7B: 66,4 %) • Prosječan broj koraka po zadatku – 16 (UI-TARS-1.5-7B: 41)
Rizici i zaštitne mjere Microsoft priznaje da Fara-7B može halucinirati ili pogriješiti pri složenim naredbama. Stoga je model učen prepoznavati „Critical Points” – trenutke kad su potrebni korisnički podaci ili suglasnost za nepovratnu radnju, poput slanja e-pošte ili financijske transakcije. U tim situacijama agent se zaustavlja i traži eksplicitno odobrenje.
„Balancing robust safeguards such as Critical Points with seamless user journeys is key”, ističe Lara. „Having a UI, like Microsoft Research’s Magentic-UI, is vital for giving users opportunities to intervene when necessary, while also helping to avoid approval fatigue.” Fara-7B je osmišljen da radi unutar tog istraživačkog sučelja.
Kako je model treniran Umjesto skupog ručnog anotiranja, Microsoft je stvorio sintetičku bazu od 145 000 uspješnih navigacijskih putanja pomoću multi-agentskog okvira Magentic-One. Nakon toga je interakcije „destilirao” u pojedinačni model temeljen na Qwen2.5-VL-7B, koji podržava kontekst do 128 000 tokena i izvrsno spaja tekstualne upute s vizualnim elementima.
Daljnji razvoj fokusiran je na „pametnije, a ne nužno veće” modele, uključujući učenje potkrijepljeno radom u kontroliranim okruženjima. Trenutna verzija dostupna je pod MIT licencijom na platformama Hugging Face i Microsoft Foundry, ali se preporučuje za prototipove i pilot-projekte, a ne za kritične produkcijske sustave.