Diffusion Models
Diffusion models sú generatívne AI modely, ktoré vytvárajú nové dáta (najčastejšie obrázky) tak, že sa naučia postupne odšumovať náhodný šum až na zmysluplný výstup. V praxi sú jadrom mnohých moderných text-to-image systémov (napr. Stable Diffusion, DALL·E 2, Imagen).
info
1. Definícia
- Diffusion model = generátor cez odšumovanie:
- Začneš náhodným šumom (noise).
- Model v niekoľkých desiatkach až stovkách krokoch „uhádne“, ako šum zmeniť, aby vznikol obraz (alebo audio, video…).
- Prečo „diffusion“:
- Pri tréningu sa simuluje proces, kde sa do dát postupne pridáva šum (ako difúzia/rozptyl).
- Model sa učí opačný proces: reverznú difúziu (denoising).
2. Ako to funguje / Prečo k tomu dochádza
- Forward process (trénovací rozklad):
- Zoberieš reálny obrázok
x0a postupne doň pridávaš Gaussian šum →x1, x2, …, xT. - Po T krokoch je to takmer čistý šum.
- Zoberieš reálny obrázok
- Reverse process (generovanie):
- Model (typicky U-Net) sa učí predpovedať:
- buď priamo šum
ε(noise prediction), - alebo „smer“ zmeny (score / v-parameterization v niektorých variantoch).
- buď priamo šum
- Pri generovaní začneš
xT ~ N(0, I)a ideš späťxT → … → x0.
- Model (typicky U-Net) sa učí predpovedať:
- Conditioning (napr. textový prompt):
- Text sa zakóduje (napr. cez text encoder) a do U-Netu sa dostáva často cez cross-attention.
- Používa sa classifier-free guidance (
CFG): mieša sa „bez podmienky“ a „s podmienkou“ predikcia, aby bol výstup viac „podľa promptu“.
- Rýchlosť a „latent diffusion“:
- Namiesto práce priamo v pixeloch sa obraz komprimuje cez
VAEdo latent priestoru → denoising prebieha v latente. - Výrazne to zrýchľuje a znižuje pamäťové nároky (typický príklad: Stable Diffusion).
- Namiesto práce priamo v pixeloch sa obraz komprimuje cez
- Sampling a „scheduler“:
- Počet krokov a spôsob odšumovania určuje scheduler (napr.
DDPM,DDIM,DPM-Solver). - Menej krokov = rýchlejšie, ale môže byť horšia kvalita/konzistentnosť.
- Počet krokov a spôsob odšumovania určuje scheduler (napr.
3. Hlavné prejavy / Výhody a nevýhody
Výhody
- Vysoká kvalita generovania (detaily, textúry, svetlo).
- Dobrá kontrola cez podmienky:
- text (prompt), obrázok (img2img), maska (inpainting), hrany/pose/depth (napr. ControlNet štýl prístupov).
- Stabilný tréning v porovnaní s niektorými GAN prístupmi.
Nevýhody
- Pomalšie generovanie (iteratívne kroky).
- Citlivosť na prompt a nastavenia:
CFG, počet krokov, seed, sampler → veľa „tuningovania“.
- Artefakty a nekonzistencie:
- napr. ruky, text, opakujúce sa vzory (záleží od modelu/dát).
- Riziká z tréningových dát:
- bias, nechcené kopírovanie štýlov, otázky licencovania a súkromia.
4. Praktické aplikácie / Riešenia
- Text-to-image / image generation:
- ilustrácie, koncept art, vizuály pre marketing, prototypovanie dizajnu
- Image editing:
- inpainting (doplnenie/odstránenie objektu)
- outpainting (rozšírenie scény)
- img2img (zachovať kompozíciu, zmeniť štýl)
- Video a animácia (diffusion-based prístupy):
- generovanie krátkych klipov, „video-to-video“ štýl transformácie, zvýšenie kvality
- Audio:
- generovanie zvuku/šumu/efektov, syntéza hlasu alebo hudobných textúr (v špecifických modeloch)
- 3D a multi-view:
- generovanie textúr, novel views, niekedy aj 3D reprezentácií cez optimalizačné pipeline
Quick Reference
| Pojem | Čo znamená | Prečo je dôležité |
|---|---|---|
noise steps |
počet krokov odšumovania | viac krokov = často lepšia kvalita, ale pomalšie |
scheduler/sampler |
spôsob, ako sa robí reverzný proces | ovplyvňuje rýchlosť, ostrosť, stabilitu |
CFG |
sila vedenia promptom | vyššie = viac podľa textu, ale môže „prepáliť“ obraz |
seed |
náhodné semienko | rovnaký seed = reprodukovateľný výsledok |
latent diffusion |
denoising v komprimovanom priestore | výrazne šetrí výkon, typické v praxi |
Bezpečnosť a súkromie (prakticky)
- Používaj modely/platformy s jasnými pravidlami pre tréningové dáta a licencie.
- Pri citlivých zadaniach (osoby, interné materiály) rátaj s tým, že cloudové služby môžu logovať prompty.
- Pri publikovaní výstupov rieš:
- označenie AI pôvodu,
- autorské práva (najmä pri štýloch, logách, brand prvkoch).
Zhrnutie
- Diffusion models generujú obsah tak, že z čistého šumu spravia v krokoch zmysluplný výstup.
- Vynikajú kvalitou a kontrolou (prompt, masky, podmienky), ale bývajú pomalšie a citlivé na nastavenia.
- V praxi sú základom mnohých moderných generátorov obrazu a čoraz viac aj videa, audia a 3D pipeline.