Google je napravio novi korak prema agentima koji samostalno obavljaju zadatke na internetu. Njegov istraživački odjel DeepMind predstavio je posebno dotjeranu verziju svog velikog jezičnog modela pod nazivom Gemini 2.5 Pro Computer Use, osposobljenu da kroz virtualni preglednik pretražuje web, popunjava obrasce i izvršava radnje na stranicama – sve na temelju teksta koji upiše korisnik.
„Ovo su rani dani, ali mogućnost modela da interagira s webom – skrola, ispunjava obrasce i otvara padajuće izbornike – važan je sljedeći korak prema općim agentima”, poručio je izvršni direktor Googlea Sundar Pichai na društvenoj mreži X.
Ključne značajke: • autonomno klikanje, tipkanje, skrolanje i navigacija iza prijavnih ekrana; • rad u „headless” pregledniku koji ne treba grafičko sučelje, ali ga prikazuje radi praćenja; • niža latencija i bolje rezultate na više testova u odnosu na prethodne verzije.
Model zasad nije namijenjen krajnjim korisnicima, nego prvenstveno developerima. Dostupan je preko Gemini API-ja u Google AI Studio te na platformi Vertex AI unutar Google Clouda. Za demonstracije Google se udružio s američkim start-upom Browserbase, osnovanim početkom 2024. godine, koji nudi virtualni preglednik prilagođen AI agentima. Posjetitelji na Browserbaseu mogu isprobati Gemini 2.5 Computer Use i usporediti ga s konkurentnim rješenjima.
Nova verzija nadograđuje mogućnosti modela Gemini 2.5 Pro predstavljenog u ožujku 2025., ali naglasak sada stavlja na vizualnu i funkcionalnu interakciju s korisničkim sučeljem umjesto na klasične API pozive. Time se developerima otvara put za izradu agenata koji „vide” zaslon i ponašaju se poput ljudskih korisnika, što bi moglo ubrzati automatizaciju brojnih rutinskih poslova na webu i u mobilnim aplikacijama.
Iako Google svoj novi alat zasad drži u domeni programera, objava sugerira da će se utrka u razvoju generativnih agenata, započeta sličnim projektima drugih tehnoloških tvrtki, u nadolazećim mjesecima dodatno zaoštriti.