Diffusion Models

Diffusion models sú generatívne AI modely, ktoré vytvárajú nové dáta (najčastejšie obrázky) tak, že sa naučia postupne odšumovať náhodný šum až na zmysluplný výstup. V praxi sú jadrom väčšiny moderných text-to-image systémov (Stable Diffusion, FLUX, Nano Banana 2) a čoraz viac aj generátorov videa a audia.


1. Definícia

  • Diffusion model = generátor cez odšumovanie:
    • Začneš náhodným šumom (noise).
    • Model v desiatkach až stovkách krokov „uhádne", ako šum zmeniť, aby vznikol obraz (alebo audio, video…).
  • Prečo „diffusion":
    • Pri tréningu sa simuluje proces, kde sa do dát postupne pridáva šum (ako difúzia/rozptyl).
    • Model sa učí opačný proces: reverznú difúziu (denoising).

2. Forward a reverse proces

  • Forward process (trénovací rozklad): zoberieš reálny obrázok x0 a postupne doň pridávaš Gaussovský šum → x1, x2, …, xT. Po T krokoch je to takmer čistý šum.
  • Reverse process (generovanie): model sa učí predpovedať buď priamo šum ε (noise prediction), alebo „smer" zmeny (score). Pri generovaní začneš xT ~ N(0, I) a ideš späť xT → … → x0.

Zjednodušená denoising slučka:

x = torch.randn(shape)              # čistý šum xT
for t in reversed(range(T)):        # postupné odšumovanie
    eps = model(x, t, text_emb)     # predikuj šum v tomto kroku
    x = scheduler.step(eps, t, x)   # odober kúsok šumu
return x                            # x0 = hotový obraz

3. Conditioning, latent diffusion a sampling

  • Conditioning (textový prompt): text sa zakóduje (text encoder) a do modelu vstupuje cez cross-attention. Classifier-free guidance (CFG) mieša predikciu „bez podmienky" a „s podmienkou", aby bol výstup viac „podľa promptu".
  • Latent diffusion: namiesto práce priamo v pixeloch sa obraz komprimuje cez VAE do latentného priestoru → denoising prebieha v latente. Výrazne to zrýchľuje (typický príklad: Stable Diffusion).
  • Architektúra: historicky U-Net, novšie modely čoraz viac používajú diffusion transformer (DiT).
  • Scheduler/sampler: počet krokov a spôsob odšumovania určuje scheduler (DDPM, DDIM, DPM-Solver). Menej krokov = rýchlejšie, ale horšia kvalita.

4. Diffusion vs. GAN

Predtým dominovali generovaniu obrázkov GAN-y. Diffusion ich z veľkej časti nahradil, lebo:

Vlastnosť Diffusion GAN
Stabilita tréningu vysoká nízka (mode collapse)
Kvalita/diverzita výborná dobrá, ale užšia
Rýchlosť generovania pomalšia (iteratívna) rýchla (jeden prechod)
Kontrola (prompt, maska) veľmi dobrá obmedzená

5. Výhody a nevýhody

Výhody:

  • Vysoká kvalita generovania (detaily, textúry, svetlo).
  • Dobrá kontrola cez podmienky: text (prompt), obrázok (img2img), maska (inpainting), hrany/pose/depth (ControlNet štýl).
  • Stabilný tréning oproti GAN.

Nevýhody:

  • Pomalšie generovanie (iteratívne kroky).
  • Citlivosť na nastavenia: CFG, počet krokov, seed, sampler → veľa tuningu.
  • Artefakty: ruky, text, opakujúce sa vzory.
  • Riziká z tréningových dát: bias, kopírovanie štýlov, licencie a súkromie.

6. Praktické aplikácie

  • Text-to-image: ilustrácie, koncept art, marketingové vizuály, prototypy dizajnu.
  • Image editing: inpainting (doplnenie/odstránenie objektu), outpainting (rozšírenie scény), img2img (zachovať kompozíciu, zmeniť štýl).
  • Video a animácia: generovanie klipov, video-to-video, zvýšenie kvality.
  • Audio: generovanie zvukov, efektov, hudobných textúr.
  • 3D a multi-view: textúry, novel views, 3D reprezentácie cez optimalizačné pipeline.

7. Quick Reference

Pojem Čo znamená Prečo je dôležité
noise steps počet krokov odšumovania viac krokov = často lepšia kvalita, ale pomalšie
scheduler/sampler spôsob reverzného procesu ovplyvňuje rýchlosť, ostrosť, stabilitu
CFG sila vedenia promptom vyššie = viac podľa textu, ale môže „prepáliť" obraz
seed náhodné semienko rovnaký seed = reprodukovateľný výsledok
latent diffusion denoising v komprimovanom priestore výrazne šetrí výkon, typické v praxi

8. Bezpečnosť a súkromie

  • Používaj modely/platformy s jasnými pravidlami pre tréningové dáta a licencie.
  • Pri citlivých zadaniach (osoby, interné materiály) rátaj s tým, že cloudové služby môžu logovať prompty.
  • Pri publikovaní výstupov rieš označenie AI pôvodu (napr. SynthID watermark) a autorské práva (štýly, logá, brand prvky).

Zhrnutie

  • Diffusion models generujú obsah tak, že z čistého šumu spravia v krokoch zmysluplný výstup.
  • Stoja na forward/reverse procese, často v latentnom priestore s cross-attention conditioning.
  • Vynikajú kvalitou a kontrolou, ale bývajú pomalšie a citlivé na nastavenia; z veľkej časti nahradili GAN-y.
  • Sú základom moderných generátorov obrazu a čoraz viac aj videa, audia a 3D.