Njemački startup Black Forest Labs, tvorac serije modela FLUX, objavio je Self-Flow, samonadzirani okvir za flow matching koji spaja učenje reprezentacija i generiranje unutar jednog modela. Riječ je o zaokretu u odnosu na dosadašnju praksu oslanjanja na „zamrznute” vanjske enkodere poput CLIP-a ili DINOv2, koji su ograničavali daljnje skaliranje generativnih sustava.
Ključ je dvostruko vremensko raspoređivanje
Self-Flow uvodi mehanizam Dual-Timestep Scheduling: „student” prima jače zasumljenu verziju podataka, dok „učitelj” – eksponencijalni pomični prosjek (EMA) samog modela – vidi čišći uzorak. Student mora predvidjeti što učitelj opaža i pritom naučiti dublje semantičko razumijevanje dok istodobno uči stvarati sadržaj. Time se uklanja potreba za vanjskim „tumačem” slike, zvuka ili videa.
Gotovo trostruko brže od aktualnog standarda
Prema tehničkom radu, Self-Flow do ciljne točnosti stiže 2,8 puta brže od industrijskog standarda REPA, svodeći put od 400 000 na otprilike 143 000 koraka. U usporedbi s klasičnim „vanilla” treningom (oko 7 milijuna koraka) to je gotovo 50-struko ubrzanje.
Demonstracija na multimodalnom modelu
Na modelu s 4 milijarde parametara, istreniranom na 200 milijuna slika, 6 milijuna videa i 2 milijuna parova video–audio, evidentne su tri prednosti:
- Tipografija – jasnije, čitljive natpise poput neonskog „FLUX is multimodal”.
- Vremenska konzistencija – manje „nestajanja” udova i sličnih artefakata u generiranim videima.
- Sinkrona video-audio proizvodnja – sustav iz jednog upita istodobno stvara usklađenu sliku i zvuk.
Na objektivnim mjerilima Self-Flow nadmašuje konkurente: na Image FID-u postiže 3,61 (REPA 3,92), na FVD-u 47,81 (REPA 49,59), a na FAD-u 145,65 (vanilla 148,87).
Od piksela do planiranja robota
Manja verzija od 675 milijuna parametara, fino podešena na RT-1 robotskom skupu podataka, u simulatoru SIMPLER ostvaruje znatno višu stopu uspjeha u višekorakim zadacima poput „otvori ladicu i odloži predmet”, gdje su klasični modeli mahom padali.
Otvoreni kod i inženjerski detalji
Black Forest Labs je objavio GitHub paket za generiranje slike rezolucije 256×256 na ImageNetu. Arhitektura SelfFlowPerTokenDiT donosi kondicioniranje svakog tokena vlastitim korakom šuma, trenirana je u BFloat16 preciznosti uz AdamW optimizator i gradient clipping.
Što to znači za poduzeća
Ukidanjem vanjskih enkodera Self-Flow pojednostavljuje infrastrukturu, smanjuje tehnički dug i omogućuje da performanse linearno rastu s dodanim računskim resursima. Brže konvergiranje otvara vrata izradi specijaliziranih modela za područja poput medicinske dijagnostike, industrijskih senzora ili autonomne robotike uz bitno manji trošak.
Black Forest Labs zasad nudi Self-Flow kao istraživački pregled, no povijest komercijalizacije linije FLUX sugerira da će okvir ubrzo postati dio njihove API i open-weights ponude.