Diffusion Models

Diffusion models sú generatívne AI modely, ktoré vytvárajú nové dáta (najčastejšie obrázky) tak, že sa naučia postupne odšumovať náhodný šum až na zmysluplný výstup. V praxi sú jadrom väčšiny moderných text-to-image systémov (Stable Diffusion, FLUX, Nano Banana 2) a čoraz viac aj generátorov videa a audia.

1. Definícia

Diffusion model = generátor cez odšumovanie:
- Začneš náhodným šumom (noise).
- Model v desiatkach až stovkách krokov „uhádne", ako šum zmeniť, aby vznikol obraz (alebo audio, video…).
Prečo „diffusion":
- Pri tréningu sa simuluje proces, kde sa do dát postupne pridáva šum (ako difúzia/rozptyl).
- Model sa učí opačný proces: reverznú difúziu (denoising).

2. Forward a reverse proces

Forward process (trénovací rozklad): zoberieš reálny obrázok x0 a postupne doň pridávaš Gaussovský šum → x1, x2, …, xT. Po T krokoch je to takmer čistý šum.
Reverse process (generovanie): model sa učí predpovedať buď priamo šum ε (noise prediction), alebo „smer" zmeny (score). Pri generovaní začneš xT ~ N(0, I) a ideš späť xT → … → x0.

Zjednodušená denoising slučka:

x = torch.randn(shape)              # čistý šum xT
for t in reversed(range(T)):        # postupné odšumovanie
    eps = model(x, t, text_emb)     # predikuj šum v tomto kroku
    x = scheduler.step(eps, t, x)   # odober kúsok šumu
return x                            # x0 = hotový obraz

3. Conditioning, latent diffusion a sampling

Conditioning (textový prompt): text sa zakóduje (text encoder) a do modelu vstupuje cez cross-attention. Classifier-free guidance (CFG) mieša predikciu „bez podmienky" a „s podmienkou", aby bol výstup viac „podľa promptu".
Latent diffusion: namiesto práce priamo v pixeloch sa obraz komprimuje cez VAE do latentného priestoru → denoising prebieha v latente. Výrazne to zrýchľuje (typický príklad: Stable Diffusion).
Architektúra: historicky U-Net, novšie modely čoraz viac používajú diffusion transformer (DiT).
Scheduler/sampler: počet krokov a spôsob odšumovania určuje scheduler (DDPM, DDIM, DPM-Solver). Menej krokov = rýchlejšie, ale horšia kvalita.

4. Diffusion vs. GAN

Predtým dominovali generovaniu obrázkov GAN-y. Diffusion ich z veľkej časti nahradil, lebo:

Vlastnosť	Diffusion	GAN
Stabilita tréningu	vysoká	nízka (mode collapse)
Kvalita/diverzita	výborná	dobrá, ale užšia
Rýchlosť generovania	pomalšia (iteratívna)	rýchla (jeden prechod)
Kontrola (prompt, maska)	veľmi dobrá	obmedzená

5. Výhody a nevýhody

Výhody:

Vysoká kvalita generovania (detaily, textúry, svetlo).
Dobrá kontrola cez podmienky: text (prompt), obrázok (img2img), maska (inpainting), hrany/pose/depth (ControlNet štýl).
Stabilný tréning oproti GAN.

Nevýhody:

Pomalšie generovanie (iteratívne kroky).
Citlivosť na nastavenia: CFG, počet krokov, seed, sampler → veľa tuningu.
Artefakty: ruky, text, opakujúce sa vzory.
Riziká z tréningových dát: bias, kopírovanie štýlov, licencie a súkromie.

6. Praktické aplikácie

Text-to-image: ilustrácie, koncept art, marketingové vizuály, prototypy dizajnu.
Image editing: inpainting (doplnenie/odstránenie objektu), outpainting (rozšírenie scény), img2img (zachovať kompozíciu, zmeniť štýl).
Video a animácia: generovanie klipov, video-to-video, zvýšenie kvality.
Audio: generovanie zvukov, efektov, hudobných textúr.
3D a multi-view: textúry, novel views, 3D reprezentácie cez optimalizačné pipeline.

7. Quick Reference

Pojem	Čo znamená	Prečo je dôležité
`noise steps`	počet krokov odšumovania	viac krokov = často lepšia kvalita, ale pomalšie
`scheduler/sampler`	spôsob reverzného procesu	ovplyvňuje rýchlosť, ostrosť, stabilitu
`CFG`	sila vedenia promptom	vyššie = viac podľa textu, ale môže „prepáliť" obraz
`seed`	náhodné semienko	rovnaký seed = reprodukovateľný výsledok
`latent diffusion`	denoising v komprimovanom priestore	výrazne šetrí výkon, typické v praxi

8. Bezpečnosť a súkromie

Používaj modely/platformy s jasnými pravidlami pre tréningové dáta a licencie.
Pri citlivých zadaniach (osoby, interné materiály) rátaj s tým, že cloudové služby môžu logovať prompty.
Pri publikovaní výstupov rieš označenie AI pôvodu (napr. SynthID watermark) a autorské práva (štýly, logá, brand prvky).

Zhrnutie

Diffusion models generujú obsah tak, že z čistého šumu spravia v krokoch zmysluplný výstup.
Stoja na forward/reverse procese, často v latentnom priestore s cross-attention conditioning.
Vynikajú kvalitou a kontrolou, ale bývajú pomalšie a citlivé na nastavenia; z veľkej časti nahradili GAN-y.
Sú základom moderných generátorov obrazu a čoraz viac aj videa, audia a 3D.