Tvrtka Encord objavila je EMM-1, dosad najopsežniju otvorenu multimodalnu bazu podataka. Riječ je o zbirci od čak milijardu parova i 100 milijuna skupina podataka raspoređenih kroz pet modaliteta – tekst, sliku, video, zvuk i 3D točkaste oblakove. Takvi skupovi oponašaju ljudsku sposobnost istodobnog korištenja više osjetila, što umjetnoj inteligenciji omogućuje bogatije zaključivanje nego kod rada s pojedinačnim vrstama sadržaja.
Paralelno je predstavljen i EBind, metodologija treniranja te istoimeni model s 1,8 milijardi parametara. Iako kompaktan, model postiže rezultate usporedive s rješenjima i do 17 puta većim, a za učenje mu je dovoljan jedan GPU i svega nekoliko sati rada. „Najveći trik bio je usredotočiti se na vrhunsku kvalitetu podataka”, istaknuo je suosnivač i direktor Eric Landau. „Do istih performansi kao kod neusporedivo većih modela došli smo upravo zahvaljujući kvalitetnoj, a ne golemoj količini podataka.”
EBind nadograđuje OpenAI-jev koncept CLIP, koji povezuje slike i tekst, ali ga širi na pet modaliteta. Umjesto niza specijaliziranih sustava, koristi jedan bazni model sa zasebnim enkoderom za svaki tip sadržaja, čime štedi računalne resurse i olakšava ugradnju u rubne uređaje poput robota, dronova ili autonomnih vozila.
Prednosti za poduzeća • Pravni timovi mogu brže pretraživati dokumente, video-snimke i audio-zapise unutar istog predmeta. • Zdravstvo dobiva mogućnost povezivanja radioloških slika s kliničkim bilješkama i glasovnim zapisima. • Financijski sektor može paralelno pretraživati transakcije, snimke poziva i komunikaciju s klijentima.
Landau smatra da se nova bitka na tržištu više neće voditi kapacitetima GPU klastera nego „operacijama na podacima” – pažljivom prikupljanju, čišćenju i označavanju skupa za učenje.
Primjena na terenu Start-up Captur AI, koji za potrebe mobilnih aplikacija provjerava autentičnost fotografija u stvarnom vremenu, planira iskoristiti EMM-1 kako bi uz sliku obradio i zvuk. Tvrtka već procesuira više od 100 milijuna fotografija na samom uređaju, a direktorica Charlotte Bax objašnjava zašto želi širenje na zvuk: „Kad korisnik prijavljuje štetu na vozilu, često usput opisuje što se dogodilo. Audio daje dodatni kontekst i smanjuje mogućnost prijevare.” Cilj je zadržati prednost rada izvan oblaka i zadržati model unutar 6–10 MB.
Zaključno, EMM-1 i EBind pokazuju da strateško ulaganje u kvalitetne, raznolike podatke može dramatično smanjiti cijenu razvoja umjetne inteligencije i otvoriti vrata primjenama koje su donedavno bile rezervirane za velike podatkovne centre.