Diffusion Models

Diffusion models sú generatívne AI modely, ktoré vytvárajú nové dáta (najčastejšie obrázky) tak, že sa naučia postupne odšumovať náhodný šum až na zmysluplný výstup. V praxi sú jadrom mnohých moderných text-to-image systémov (napr. Stable Diffusion, DALL·E 2, Imagen).

info


1. Definícia

  • Diffusion model = generátor cez odšumovanie:
    • Začneš náhodným šumom (noise).
    • Model v niekoľkých desiatkach až stovkách krokoch „uhádne“, ako šum zmeniť, aby vznikol obraz (alebo audio, video…).
  • Prečo „diffusion“:
    • Pri tréningu sa simuluje proces, kde sa do dát postupne pridáva šum (ako difúzia/rozptyl).
    • Model sa učí opačný proces: reverznú difúziu (denoising).

2. Ako to funguje / Prečo k tomu dochádza

  • Forward process (trénovací rozklad):
    • Zoberieš reálny obrázok x0 a postupne doň pridávaš Gaussian šum → x1, x2, …, xT.
    • Po T krokoch je to takmer čistý šum.
  • Reverse process (generovanie):
    • Model (typicky U-Net) sa učí predpovedať:
      • buď priamo šum ε (noise prediction),
      • alebo „smer“ zmeny (score / v-parameterization v niektorých variantoch).
    • Pri generovaní začneš xT ~ N(0, I) a ideš späť xT → … → x0.
  • Conditioning (napr. textový prompt):
    • Text sa zakóduje (napr. cez text encoder) a do U-Netu sa dostáva často cez cross-attention.
    • Používa sa classifier-free guidance (CFG): mieša sa „bez podmienky“ a „s podmienkou“ predikcia, aby bol výstup viac „podľa promptu“.
  • Rýchlosť a „latent diffusion“:
    • Namiesto práce priamo v pixeloch sa obraz komprimuje cez VAE do latent priestoru → denoising prebieha v latente.
    • Výrazne to zrýchľuje a znižuje pamäťové nároky (typický príklad: Stable Diffusion).
  • Sampling a „scheduler“:
    • Počet krokov a spôsob odšumovania určuje scheduler (napr. DDPM, DDIM, DPM-Solver).
    • Menej krokov = rýchlejšie, ale môže byť horšia kvalita/konzistentnosť.

3. Hlavné prejavy / Výhody a nevýhody

Výhody

  • Vysoká kvalita generovania (detaily, textúry, svetlo).
  • Dobrá kontrola cez podmienky:
    • text (prompt), obrázok (img2img), maska (inpainting), hrany/pose/depth (napr. ControlNet štýl prístupov).
  • Stabilný tréning v porovnaní s niektorými GAN prístupmi.

Nevýhody

  • Pomalšie generovanie (iteratívne kroky).
  • Citlivosť na prompt a nastavenia:
    • CFG, počet krokov, seed, sampler → veľa „tuningovania“.
  • Artefakty a nekonzistencie:
    • napr. ruky, text, opakujúce sa vzory (záleží od modelu/dát).
  • Riziká z tréningových dát:
    • bias, nechcené kopírovanie štýlov, otázky licencovania a súkromia.

4. Praktické aplikácie / Riešenia

  • Text-to-image / image generation:
    • ilustrácie, koncept art, vizuály pre marketing, prototypovanie dizajnu
  • Image editing:
    • inpainting (doplnenie/odstránenie objektu)
    • outpainting (rozšírenie scény)
    • img2img (zachovať kompozíciu, zmeniť štýl)
  • Video a animácia (diffusion-based prístupy):
    • generovanie krátkych klipov, „video-to-video“ štýl transformácie, zvýšenie kvality
  • Audio:
    • generovanie zvuku/šumu/efektov, syntéza hlasu alebo hudobných textúr (v špecifických modeloch)
  • 3D a multi-view:
    • generovanie textúr, novel views, niekedy aj 3D reprezentácií cez optimalizačné pipeline

Quick Reference

Pojem Čo znamená Prečo je dôležité
noise steps počet krokov odšumovania viac krokov = často lepšia kvalita, ale pomalšie
scheduler/sampler spôsob, ako sa robí reverzný proces ovplyvňuje rýchlosť, ostrosť, stabilitu
CFG sila vedenia promptom vyššie = viac podľa textu, ale môže „prepáliť“ obraz
seed náhodné semienko rovnaký seed = reprodukovateľný výsledok
latent diffusion denoising v komprimovanom priestore výrazne šetrí výkon, typické v praxi

Bezpečnosť a súkromie (prakticky)

  • Používaj modely/platformy s jasnými pravidlami pre tréningové dáta a licencie.
  • Pri citlivých zadaniach (osoby, interné materiály) rátaj s tým, že cloudové služby môžu logovať prompty.
  • Pri publikovaní výstupov rieš:
    • označenie AI pôvodu,
    • autorské práva (najmä pri štýloch, logách, brand prvkoch).

Zhrnutie

  • Diffusion models generujú obsah tak, že z čistého šumu spravia v krokoch zmysluplný výstup.
  • Vynikajú kvalitou a kontrolou (prompt, masky, podmienky), ale bývajú pomalšie a citlivé na nastavenia.
  • V praxi sú základom mnohých moderných generátorov obrazu a čoraz viac aj videa, audia a 3D pipeline.