Google DeepMind prošlog je mjeseca predstavio Gemini Diffusion, eksperimentalni model koji tekst stvara difuzijskim, a ne autoregresijskim pristupom. Umjesto da riječ po riječ gradi rečenicu, sustav kreće od „šuma” i kroz niz koraka denoizira sadržaj, što drastično ubrzava rad i otvara mogućnost paralelne obrade čitavih odlomaka.
Najavljen kao istraživački demo (prijave se primaju putem liste čekanja), Gemini Diffusion prema internim podacima generira između 1 000 i 2 000 tokena u sekundi. Za usporedbu, varijanta Gemini 2.5 Flash prosječno isporučuje 272,4 tokena u sekundi. U praktičnom testu VentureBeata odgovor na složene upite, poput izrade interaktivnih HTML aplikacija, stizao je za manje od tri sekunde, brzinom od 600 do 1 300 tokena u sekundi.
Brže – i pametnije?
Brendan O’Donoghue, znanstvenik u Google DeepMind-u i jedan od voditelja projekta, navodi četiri ključne prednosti novog pristupa:
• niže latencije; • adaptivno računanje (manje resursa za lakše zadatke, više za složenije); • nekauzalno rezoniranje zahvaljujući dvosmjernoj pažnji unutar bloka; • iterativno samoispravljanje jer se generirani tokeni vraćaju u denoiser.
Glavni nedostatak, ističe O’Donoghue, jest „higher cost of serving and slightly higher time-to-first-token (TTFT), since autoregressive models will produce the first token right away. For diffusion, the first token can only appear when the entire sequence of tokens is ready.”
Prema internom benchmarku, Gemini Diffusion rezultatima je usporediv s modelom Gemini 2.0 Flash-Lite: bolji je u kodiranju i matematici, dok Flash-Lite prednjači u rasuđivanju, znanstvenom znanju i višejezičnosti.
Alat donosi i način rada „Instant Edit”, koji omogućuje gotovo trenutačno uređivanje postojećeg teksta ili kôda – od gramatičkog dotjerivanja i SEO prilagodbi do refaktoriranja softverskih projekata.
Potencijal primjene
Brzina i sposobnost naknadnog ispravljanja čine difuzijske modele privlačnima za aplikacije kojima je ključan brzi odziv: chat-botove i konverzacijske sučelnike, titlovanje i prijevod u stvarnom vremenu te pametne IDE asistente. Iako je tehnologija još u povojima, Googleov eksperiment sugerira da bi difuzijski pristup mogao preoblikovati način na koji se ubuduće grade i primjenjuju veliki jezični modeli.