Gemini Diffusion: keď text nevzniká token po tokene

Gemini Diffusion je experimentálny jazykový model od Google DeepMind, ktorý predstavuje radikálny rozkol so štandardnou architektúrou LLM: namiesto generovania textu token po tokene (autoregresívne) generuje celý blok naraz a postupne ho iteratívne zjemňuje rovnako ako diffusion modely zjemňujú obrázok zo šumu. Pre používateľa to znamená predovšetkým rýchlosť: prvé demá ukazujú 1000-2000 tokenov za sekundu, čo je rádovo viac ako u klasických modelov ako Gemini 3.1 Pro alebo GPT-5.

Diffusion-based LLM ako Gemini Diffusion a konkurenčný Mercury od Inception Labs signalizujú, že okrem MoE a state-space architektúr existuje ešte tretí životaschopný smer evolúcie post-transformer LLM.


1. Ako sa diffusion líši od autoregresie

Štandardný LLM (GPT-5, Claude, Gemini 3 Pro) generuje text token po tokene: každý ďalší token sa predpovedá z predchádzajúcich. Tým, že každý token musí čakať na predchádzajúci, sa generácia nedá paralelizovať.

Diffusion model funguje úplne opačne. Začína s náhodným šumom (maska "noise tokens") v celej dĺžke výstupu a v niekoľkých krokoch (typicky 20-50) postupne odšumuje všetky pozície paralelne. Každý krok je jedno priebezhnutie cez model, ale generuje sa celá veta naraz.

  • Autoregresia: 1000 tokenov = 1000 sekvenčných krokov.
  • Diffusion: 1000 tokenov = 30-50 paralelných krokov.

Pre používateľa: streamovaný výstup nefunguje rovnako. Pri diffusion modeli text "blicne" celý zrazu (alebo po blokoch), nie znak po znaku — pretože každý refinement krok mení všetky tokeny súčasne.


2. Praktické dôsledky rýchlosti

Gemini Diffusion demo deklaruje 1479 tokenov/s pre jedného používateľa — pre porovnanie:

  • Gemini 3 Flash: ~150 t/s
  • GPT-5 Turbo: ~80 t/s
  • Claude Opus 4.7: ~60 t/s

Čo s tým reálne urobíš:

  • Code-completion v IDE bez vnímateľnej latencie. Cursor / Windsurf agenti vedia behať "naživo" — kým prečítaš jednu vetu, máš celú funkciu prepísanú.
  • Reasoning chains: model si vie dovoliť dlhšie chain-of-thought, lebo náklad na 5000 reasoning tokenov je porovnateľný s 200 tokenmi u klasického LLM.
  • Long-form refactoring: prepísanie tisícriadkového súboru beží 1-2 sekundy namiesto 30.

Treba ale poznať trade-off: kvalita pri rovnakom množstve parametrov je dnes nižšia ako u špičkových autoregresívnych modelov. Gemini Diffusion má kvalitu blízko Gemini 3 Flash, nie 3.1 Pro.


3. Prečo to nie je len rýchlostná hračka

Diffusion architektúra otvára pár vecí, ktoré autoregresia robí ťažko:

  • Editovanie textu in-place. Diffusion model vie "vziať existujúcu vetu a refinovat ju". Klasický LLM musí prepísať celú vetu od začiatku.
  • Constrained generation. Vieš mu pribiť konkrétne tokeny v strede výstupu (napr. "povinne musí použiť funkciu fetchUser()") a on okolo nich dopíše zvyšok. Pri autoregresívnych modeloch je toto stále výskumný problém.
  • Bi-directional reasoning. Pri syntéze kódu môže model "vidieť" aj budúce tokeny pri rozhodovaní o aktuálnom — niečo, čo autoregresia z definície nedokáže.

4. Konkurencia: Mercury & Inception Labs

Mercury od Inception Labs (založené v Stanforde) prišiel paralelne s Gemini Diffusion v máji 2026 ako prvý verejne dostupný diffusion LLM. Mercury Coder (kódovacia varianta) v benchmarkoch dosahuje 5-10× vyššiu propustnosť ako GPT-5 pri porovnateľnej kvalite na HumanEval/MBPP.

Inception Labs zverejnili paper "Diffusion-LM: Non-Autoregressive Text Generation at Scale" (apríl 2026), ktorý ukázal, že diffusion architektúra škáluje predvídateľne — niečo, čo bolo dlho otvorenou otázkou pri non-AR modeloch.

DeepMind reakcia (Gemini Diffusion) prišla 3 týždne po Mercury, čo signalizuje, že interný výskum bežal paralelne.


5. Limity a otvorené otázky

  • Kvalita na zložitých reasoning úlohách je stále za autoregresívnym SOTA. ARC-AGI 2 score Gemini Diffusion je ~28%, Gemini 3.1 Pro je 54%.
  • Long-context — väčšina diffusion LLM dnes podporuje 8-16K kontext. 1M-token kontext (ako pri Gemini 3.1 Pro) zatiaľ nikto neukázal.
  • Tool-use a function-calling sú nedopracované — model nemá natívne API pre štruktúrované volania.
  • Streaming UX je iný — pre konzumentský chat treba upraviť UI (text "fade-in" namiesto token-by-token).

6. Kedy to bude zaujímať teba

V najbližších 6-12 mesiacoch:

  • IDE & coding agents — prvé miesto, kde sa to nasadí (rýchlosť > kvalita pri auto-complete).
  • Real-time voice agents — diffusion LLM v páre s rýchlym TTS dáva latenciu < 200 ms.
  • Hybrid pipelines — rýchly diffusion model robí draft, autoregresívny SOTA model robí finálnu pass (podobne ako speculative decoding, ale s úplne odlišnými modelmi).

Pre tvoju produkčnú architektúru: zatiaľ nevýzva, ale stojí za sledovanie. Cena za 1000 tokenov pri Gemini Diffusion bude pravdepodobne 5-10× nižšia ako pri Gemini 3.1 Pro, čo zmení ekonomiku batch workloadov.


Súvisiace témy

  • Diffusion Models — diffusion ako architektúra v generovaní obrazu.
  • Gemini 3.1 Pro — flagship autoregresívny model od DeepMind.
  • Mixture of Experts — iný smer post-transformer evolúcie.
  • Inference — všeobecné techniky inferenčnej optimalizácie.
  • Reasoning Models — autoregresívne SOTA pre chain-of-thought.