Diffusion Models
Diffusion models sú generatívne AI modely, ktoré vytvárajú nové dáta (najčastejšie obrázky) tak, že sa naučia postupne odšumovať náhodný šum až na zmysluplný výstup. V praxi sú jadrom väčšiny moderných text-to-image systémov (Stable Diffusion, FLUX, Nano Banana 2) a čoraz viac aj generátorov videa a audia.
1. Definícia
- Diffusion model = generátor cez odšumovanie:
- Začneš náhodným šumom (noise).
- Model v desiatkach až stovkách krokov „uhádne", ako šum zmeniť, aby vznikol obraz (alebo audio, video…).
- Prečo „diffusion":
- Pri tréningu sa simuluje proces, kde sa do dát postupne pridáva šum (ako difúzia/rozptyl).
- Model sa učí opačný proces: reverznú difúziu (denoising).
2. Forward a reverse proces
- Forward process (trénovací rozklad): zoberieš reálny obrázok
x0a postupne doň pridávaš Gaussovský šum →x1, x2, …, xT. PoTkrokoch je to takmer čistý šum. - Reverse process (generovanie): model sa učí predpovedať buď priamo šum
ε(noise prediction), alebo „smer" zmeny (score). Pri generovaní začnešxT ~ N(0, I)a ideš späťxT → … → x0.
Zjednodušená denoising slučka:
x = torch.randn(shape) # čistý šum xT
for t in reversed(range(T)): # postupné odšumovanie
eps = model(x, t, text_emb) # predikuj šum v tomto kroku
x = scheduler.step(eps, t, x) # odober kúsok šumu
return x # x0 = hotový obraz
3. Conditioning, latent diffusion a sampling
- Conditioning (textový prompt): text sa zakóduje (text encoder) a do modelu vstupuje cez cross-attention. Classifier-free guidance (CFG) mieša predikciu „bez podmienky" a „s podmienkou", aby bol výstup viac „podľa promptu".
- Latent diffusion: namiesto práce priamo v pixeloch sa obraz komprimuje cez
VAEdo latentného priestoru → denoising prebieha v latente. Výrazne to zrýchľuje (typický príklad: Stable Diffusion). - Architektúra: historicky U-Net, novšie modely čoraz viac používajú diffusion transformer (DiT).
- Scheduler/sampler: počet krokov a spôsob odšumovania určuje scheduler (
DDPM,DDIM,DPM-Solver). Menej krokov = rýchlejšie, ale horšia kvalita.
4. Diffusion vs. GAN
Predtým dominovali generovaniu obrázkov GAN-y. Diffusion ich z veľkej časti nahradil, lebo:
| Vlastnosť | Diffusion | GAN |
|---|---|---|
| Stabilita tréningu | vysoká | nízka (mode collapse) |
| Kvalita/diverzita | výborná | dobrá, ale užšia |
| Rýchlosť generovania | pomalšia (iteratívna) | rýchla (jeden prechod) |
| Kontrola (prompt, maska) | veľmi dobrá | obmedzená |
5. Výhody a nevýhody
Výhody:
- Vysoká kvalita generovania (detaily, textúry, svetlo).
- Dobrá kontrola cez podmienky: text (prompt), obrázok (img2img), maska (inpainting), hrany/pose/depth (ControlNet štýl).
- Stabilný tréning oproti GAN.
Nevýhody:
- Pomalšie generovanie (iteratívne kroky).
- Citlivosť na nastavenia:
CFG, počet krokov, seed, sampler → veľa tuningu. - Artefakty: ruky, text, opakujúce sa vzory.
- Riziká z tréningových dát: bias, kopírovanie štýlov, licencie a súkromie.
6. Praktické aplikácie
- Text-to-image: ilustrácie, koncept art, marketingové vizuály, prototypy dizajnu.
- Image editing: inpainting (doplnenie/odstránenie objektu), outpainting (rozšírenie scény), img2img (zachovať kompozíciu, zmeniť štýl).
- Video a animácia: generovanie klipov, video-to-video, zvýšenie kvality.
- Audio: generovanie zvukov, efektov, hudobných textúr.
- 3D a multi-view: textúry, novel views, 3D reprezentácie cez optimalizačné pipeline.
7. Quick Reference
| Pojem | Čo znamená | Prečo je dôležité |
|---|---|---|
noise steps |
počet krokov odšumovania | viac krokov = často lepšia kvalita, ale pomalšie |
scheduler/sampler |
spôsob reverzného procesu | ovplyvňuje rýchlosť, ostrosť, stabilitu |
CFG |
sila vedenia promptom | vyššie = viac podľa textu, ale môže „prepáliť" obraz |
seed |
náhodné semienko | rovnaký seed = reprodukovateľný výsledok |
latent diffusion |
denoising v komprimovanom priestore | výrazne šetrí výkon, typické v praxi |
8. Bezpečnosť a súkromie
- Používaj modely/platformy s jasnými pravidlami pre tréningové dáta a licencie.
- Pri citlivých zadaniach (osoby, interné materiály) rátaj s tým, že cloudové služby môžu logovať prompty.
- Pri publikovaní výstupov rieš označenie AI pôvodu (napr. SynthID watermark) a autorské práva (štýly, logá, brand prvky).
Zhrnutie
- Diffusion models generujú obsah tak, že z čistého šumu spravia v krokoch zmysluplný výstup.
- Stoja na forward/reverse procese, často v latentnom priestore s cross-attention conditioning.
- Vynikajú kvalitou a kontrolou, ale bývajú pomalšie a citlivé na nastavenia; z veľkej časti nahradili GAN-y.
- Sú základom moderných generátorov obrazu a čoraz viac aj videa, audia a 3D.