Istraživači s Sveučilišta u New Yorku (NYU) osmislili su „Diffusion Transformer with Representation Autoencoders” (RAE), arhitekturu koja poboljšava semantičko razumijevanje slika i znatno skraćuje vrijeme treniranja difuzijskih modela.
RAE zamjenjuje uobičajeni varijacijski autoenkoder (VAE) representation autoencoderom koji kombinira unaprijed uvježbani encoder (poput Metina DINO-a) s transformatorskim decoderom. Time se iskorištava moć već postojećih modela, pojednostavljuje postupak treniranja i smanjuju troškovi.
Koautor rada Saining Xie ističe: „Da bi model dobro uređivao slike, mora stvarno razumjeti što je na njima… RAE pomaže povezati taj dio razumijevanja s dijelom generiranja.” Dodaje kako bi se ista tehnika mogla primijeniti na pretraživačko-generativne sustave, video-generiranje te modele koji predviđaju radnje u simuliranim svjetovima.
Ključni učinci nove arhitekture:
• Potrebno je svega 80 epoha za postizanje vrhunskih rezultata.
• U odnosu na difuzijske modele temeljene na VAE-u, treniranje je 47 puta brže.
• U usporedbi s novijim metodama usklađivanja reprezentacija postiže se 16 puta brže treniranje.
Uspješno spajanje modernog učenja reprezentacija i difuzijskog okvira otvara put prema snažnijim, pouzdanijim i jeftinijim generativnim sustavima spremnima za široku primjenu u industriji.