eSelf, mlada tvrtka specijalizirana za interaktivne, fotorealistične video-avatare, predstavila je novu funkciju nazvanu „Share Screen Analysis”. Time avatar prvi put može gledati što korisnik prikazuje na zaslonu i odmah reagirati – kao u video-pozivu s pravom osobom.
Funkcionira tako da kombinira velike jezične modele vodećih pružatelja (OpenAI, Google i dr.) s vlastitim, posebno uvježbanim video-jezičnim modelom. Cilj je ponuditi „plug-and-play” rješenje za tvrtke koje trebaju IT podršku, obuku zaposlenika, demonstracije softvera, korisničku službu ili nastavu na daljinu.
„Korisnik samo podijeli zaslon, a avatar vidi, razumije kontekst i vodi ga korak po korak”, objašnjava osnivač i izvršni direktor Alan Bekker. U demonstraciji je avatar na zahtjev pronalazio neprodani inventar u CRM-u, unosio nove klijente i trenutačno mijenjao jezike – od engleskog do japanskog. U drugom primjeru, digitalni instruktor Kevin riješio je kvadratnu jednadžbu iz matematike, pritom odbijajući pročitati osobne podatke koji su se pojavili na ekranu, čime je pokazana ugrađena zaštita privatnosti.
Postavljanje za pet minuta Prema Bekkeru, poduzeće svojega avatara može integrirati u postojeći sustav uz „tri retka JavaScripta” te upload najčešćih pitanja ili interne dokumentacije. Nakon toga agent je spreman, a sve radi po SaaS principu naplate „po korištenju“, s uključenim troškovima LLM-a.
Cjenik je javan i počinje s besplatnim paketom za pet videopoziva mjesečno. Paket Starter stoji 12 USD mjesečno, Pro 105 USD (uključuje vlastiti avatar i pet namjenskih brojeva), dok Enterprise donosi neograničene pozive i prilagođene integracije po dogovorenoj cijeni.
Školski pilot s 10 000 učenika Funkcija se već koristi u obrazovanju: eSelf je u svibnju pokrenuo nacionalni pilot-program s izraelskim Centrom za obrazovnu tehnologiju (CET). U prvoj fazi sudjeluje 10 000 učenika osnovnih i srednjih škola koji usporedno testiraju nastavu pomoću AI tutora na hebrejskom, a kasnije i na drugim predmetima. Harvardovo Sveučilište savjetuje projekt s akademske strane.
Tehnički pod kapom eSelfa rade vlastiti modeli za generiranje govora, prepoznavanje govora i analizu videa, dok se za „mozak” konverzacije može birati između više LLM-ova – tvrtka tvrdi da je „agnostična” prema pružatelju. Sljedeći korak istraživačkog tima jest dopuštanje avataru da, uz dopuštenje korisnika, preuzme kontrolu nad radnom površinom i sam obavi zadatak.
Bekker, koji je prije vodio odjel za konverzacijski AI u Snapu i prodao svoj prethodni startup Voca.ai za 70 milijuna dolara, naglašava da eSelf ne želi zamijeniti ljude, nego im proširiti doseg: „Tvrtke žele gotovo rješenje, ne zapošljavati tim developera da ga same grade.”
Ako najavljene mogućnosti ispune očekivanja, digitalni sugovornici koji razumiju i ono što vide mogli bi ubrzo postati standard u korisničkoj podršci, uredskom okruženju i školskim klupama – i to na više jezika nego što prosječan call-centar može ponuditi.