Istraživači sa Sveučilišta u Hong Kongu (HKU) i partnerskih institucija predstavili su OpenCUA, otvoreni okvir za razvoj agenata koji samostalno upravljaju računalom. Sustav objedinjuje alat za prikupljanje podataka AgentNet, golemu bazu demonstracija i „recept” za treniranje modela koji razumiju grafička sučelja.
OpenCUA rješava dvije glavne prepreke otvorenog razvoja: manjak velikih, raznolikih skupova podataka te nedovoljnu transparentnost prethodnih radova. U AgentNet bazi već je više od 22 600 demonstracija zadataka na Windowsu, macOS-u i Ubuntu-u, prikupljenih iz više od 200 aplikacija i web-stranica.
„As the lack of transparency limits technical advancements and raises safety concerns, the research community needs truly open CUA frameworks to study their capabilities, limitations, and risks”, stoji u radu autora.
Višeslojna zaštita privatnosti
AgentNet alat radi u pozadini računala volontera, snima video zaslona, pritiske tipki i stablo pristupačnosti. Prije slanja, sam korisnik može pregledati snimku, a potom slijede ručna provjera i automatsko skeniranje velikim modelom. Suautor Xinyuan Wang pojašnjava: „First, annotators themselves can fully observe the data they generate… before deciding whether to submit it”. Dodaje kako „This layered process ensures enterprise-grade robustness for environments handling sensitive customer or financial data”.
Lanac razmišljanja umjesto pukog klika
Ključni iskorak okvira je nadogradnja demonstracija „lancom misli” – tekstualnim opisom opažanja, planiranja i akcije. Autori zaključuju: „We find natural language reasoning crucial for generalizable computer-use foundation models, helping CUAs internalize cognitive capabilities”. Taj se postupak može primijeniti i na interne poslovne procese, čime tvrtke bez dodatnog ručnog označavanja mogu trenirati vlastite agente.
Rezultati koji stišću zatvorenu konkurenciju
Najveći model treniran OpenCUA-om, OpenCUA-32B, postavio je novo najbolje otvoreno postignuće na OSWorld-Verified mjerilu i nadmašio GPT-4o-temeljenog agenta. Razlika u uspješnosti prema Anthropicu znatno je smanjena, što potvrđuje da otvoreni pristup može ići ukorak s vlasničkim rješenjima.
Sljedeći korak: sigurna primjena uživo
Wang napominje da prelazak iz laboratorija u produkciju traži dodatnu pažnju: „The biggest challenge in real deployment is safety and reliability: the agent must avoid mistakes that could inadvertently alter system settings or trigger harmful side effects beyond the intended task”. Unatoč tome, istraživači smatraju da će se odnos zaposlenika i računala promijeniti; korisnik će određivati što želi postići, dok će agent sve češće preuzimati kako.
Cjelokupni kod, modeli i podaci već su javno dostupni, čime OpenCUA otvara vrata daljnjem ubrzanju razvoja autonomnih računalnih pomoćnika.