Appleova ekipa za strojno učenje objavila je istraživanje koje bi moglo preokrenuti odnose snaga u području generativne umjetne inteligencije. Sustav nazvan STARFlow spaja normalizacijske tokove s autoregresivnim transformatorima i, prema autorima, postiže rezultate usporedive s najnaprednijim difuzijskim modelima kojima se služe generatori slika poput DALL-E-a i Midjourneyja.
„To our knowledge, this work is the first successful demonstration of normalizing flows operating effectively at this scale and resolution”, naveli su istraživači Applea Jiatao Gu, Joshua M. Susskind i Shuangfei Zhai, koji su na projektu radili s akademskim partnerima sa Sveučilišta California, Berkeley i Georgia Techa.
Ključni izazov bio je skalirati normalizacijske tokove na visoku razlučivost, područje u kojem su dosad dominirali difuzijski modeli i GAN-ovi. Tim je zato uveo nekoliko tehnoloških noviteta:
• „deep-shallow” arhitekturu, u kojoj duboki Transformer blok nosi najveći dio modelskog kapaciteta, a nekoliko plitkih blokova donosi brzinu uz zadržanu preciznost; • rad u latentnom prostoru prethodno istreniranih autoenkodera umjesto izravne obrade piksela, što znatno povećava učinkovitost; • očuvanje matematičkih svojstava normalizacijskih tokova, pa STARFlow omogućuje „exact maximum likelihood training in continuous spaces without discretization”.
Rezultat je, kako tvrde autori, sustav koji „achieves competitive performance in both class-conditional and text-conditional image generation tasks, approaching state-of-the-art diffusion models in sample quality”. Istodobno, model ostaje potpuno traktan: „Crucially, our model remains an end-to-end normalizing flow.”
Objava stiže u osjetljivom trenutku za Apple. Na nedavnom WWDC-u tvrtka je predstavila tek skromna poboljšanja platforme Apple Intelligence, zbog čega je dodatno pojačan pritisak da prikaže konkretniji napredak na polju AI-ja. STARFlow bi, zahvaljujući točnom izračunu vjerojatnosti i efikasnom radu u latentnom prostoru, Appleu mogao donijeti prednost u situacijama gdje se traži precizna kontrola nad generiranim sadržajem ili kad je važno razumjeti nesigurnost modela – primjerice u poslovnim primjenama ili obradi izravno na uređaju.
Iza projekta stoji široka suradnja industrije i akademske zajednice. Uz spomenute autore, koautori su i doktorand Tianrong Chen (Georgia Tech), matematičar Ruixiang Zhang (UC Berkeley) te pionir modela na temelju tokova Laurent Dinh. Cijeli rad dostupan je na portalu arXiv, a ostaje vidjeti hoće li Apple novu tehnologiju uskoro pretočiti u proizvode koji će se mjeriti s ChatGPT-om ili DALL-E-om — područja na kojima trenutačno dominiraju konkurenti.