Gemini Diffusion: keď text nevzniká token po tokene
Gemini Diffusion je experimentálny jazykový model od Google DeepMind, ktorý predstavuje radikálny rozkol so štandardnou architektúrou LLM: namiesto generovania textu token po tokene (autoregresívne) generuje celý blok naraz a postupne ho iteratívne zjemňuje rovnako ako diffusion modely zjemňujú obrázok zo šumu. Pre používateľa to znamená predovšetkým rýchlosť: prvé demá ukazujú 1000-2000 tokenov za sekundu, čo je rádovo viac ako u klasických modelov ako Gemini 3.1 Pro alebo GPT-5.
Diffusion-based LLM ako Gemini Diffusion a konkurenčný Mercury od Inception Labs signalizujú, že okrem MoE a state-space architektúr existuje ešte tretí životaschopný smer evolúcie post-transformer LLM.
1. Ako sa diffusion líši od autoregresie
Štandardný LLM (GPT-5, Claude, Gemini 3 Pro) generuje text token po tokene: každý ďalší token sa predpovedá z predchádzajúcich. Tým, že každý token musí čakať na predchádzajúci, sa generácia nedá paralelizovať.
Diffusion model funguje úplne opačne. Začína s náhodným šumom (maska "noise tokens") v celej dĺžke výstupu a v niekoľkých krokoch (typicky 20-50) postupne odšumuje všetky pozície paralelne. Každý krok je jedno priebezhnutie cez model, ale generuje sa celá veta naraz.
- Autoregresia: 1000 tokenov = 1000 sekvenčných krokov.
- Diffusion: 1000 tokenov = 30-50 paralelných krokov.
Pre používateľa: streamovaný výstup nefunguje rovnako. Pri diffusion modeli text "blicne" celý zrazu (alebo po blokoch), nie znak po znaku — pretože každý refinement krok mení všetky tokeny súčasne.
2. Praktické dôsledky rýchlosti
Gemini Diffusion demo deklaruje 1479 tokenov/s pre jedného používateľa — pre porovnanie:
- Gemini 3 Flash: ~150 t/s
- GPT-5 Turbo: ~80 t/s
- Claude Opus 4.7: ~60 t/s
Čo s tým reálne urobíš:
- Code-completion v IDE bez vnímateľnej latencie. Cursor / Windsurf agenti vedia behať "naživo" — kým prečítaš jednu vetu, máš celú funkciu prepísanú.
- Reasoning chains: model si vie dovoliť dlhšie chain-of-thought, lebo náklad na 5000 reasoning tokenov je porovnateľný s 200 tokenmi u klasického LLM.
- Long-form refactoring: prepísanie tisícriadkového súboru beží 1-2 sekundy namiesto 30.
Treba ale poznať trade-off: kvalita pri rovnakom množstve parametrov je dnes nižšia ako u špičkových autoregresívnych modelov. Gemini Diffusion má kvalitu blízko Gemini 3 Flash, nie 3.1 Pro.
3. Prečo to nie je len rýchlostná hračka
Diffusion architektúra otvára pár vecí, ktoré autoregresia robí ťažko:
- Editovanie textu in-place. Diffusion model vie "vziať existujúcu vetu a refinovat ju". Klasický LLM musí prepísať celú vetu od začiatku.
- Constrained generation. Vieš mu pribiť konkrétne tokeny v strede výstupu (napr. "povinne musí použiť funkciu
fetchUser()") a on okolo nich dopíše zvyšok. Pri autoregresívnych modeloch je toto stále výskumný problém. - Bi-directional reasoning. Pri syntéze kódu môže model "vidieť" aj budúce tokeny pri rozhodovaní o aktuálnom — niečo, čo autoregresia z definície nedokáže.
4. Konkurencia: Mercury & Inception Labs
Mercury od Inception Labs (založené v Stanforde) prišiel paralelne s Gemini Diffusion v máji 2026 ako prvý verejne dostupný diffusion LLM. Mercury Coder (kódovacia varianta) v benchmarkoch dosahuje 5-10× vyššiu propustnosť ako GPT-5 pri porovnateľnej kvalite na HumanEval/MBPP.
Inception Labs zverejnili paper "Diffusion-LM: Non-Autoregressive Text Generation at Scale" (apríl 2026), ktorý ukázal, že diffusion architektúra škáluje predvídateľne — niečo, čo bolo dlho otvorenou otázkou pri non-AR modeloch.
DeepMind reakcia (Gemini Diffusion) prišla 3 týždne po Mercury, čo signalizuje, že interný výskum bežal paralelne.
5. Limity a otvorené otázky
- Kvalita na zložitých reasoning úlohách je stále za autoregresívnym SOTA. ARC-AGI 2 score Gemini Diffusion je ~28%, Gemini 3.1 Pro je 54%.
- Long-context — väčšina diffusion LLM dnes podporuje 8-16K kontext. 1M-token kontext (ako pri Gemini 3.1 Pro) zatiaľ nikto neukázal.
- Tool-use a function-calling sú nedopracované — model nemá natívne API pre štruktúrované volania.
- Streaming UX je iný — pre konzumentský chat treba upraviť UI (text "fade-in" namiesto token-by-token).
6. Kedy to bude zaujímať teba
V najbližších 6-12 mesiacoch:
- IDE & coding agents — prvé miesto, kde sa to nasadí (rýchlosť > kvalita pri auto-complete).
- Real-time voice agents — diffusion LLM v páre s rýchlym TTS dáva latenciu < 200 ms.
- Hybrid pipelines — rýchly diffusion model robí draft, autoregresívny SOTA model robí finálnu pass (podobne ako speculative decoding, ale s úplne odlišnými modelmi).
Pre tvoju produkčnú architektúru: zatiaľ nevýzva, ale stojí za sledovanie. Cena za 1000 tokenov pri Gemini Diffusion bude pravdepodobne 5-10× nižšia ako pri Gemini 3.1 Pro, čo zmení ekonomiku batch workloadov.
Súvisiace témy
- Diffusion Models — diffusion ako architektúra v generovaní obrazu.
- Gemini 3.1 Pro — flagship autoregresívny model od DeepMind.
- Mixture of Experts — iný smer post-transformer evolúcie.
- Inference — všeobecné techniky inferenčnej optimalizácie.
- Reasoning Models — autoregresívne SOTA pre chain-of-thought.