Mixture of Experts (MoE) — Architektúra, ktorá mení pravidlá hry

Keď sa pozrieš na najväčšie AI modely posledných rokov — DeepSeek, Gemini, Mixtral či GPT-4 — všetky majú jedno spoločné: využívajú architektúru Mixture of Experts (MoE). Táto technika umožňuje vytvárať obrovské modely, ktoré sú prekvapivo efektívne. Ale ako to vlastne funguje?

Problém s veľkými modelmi

Tradičné neurónové siete (takzvané dense modely) aktivujú pri každom vstupe všetky svoje parametre. Ak má model 100 miliárd parametrov, pri každom tokene sa vykoná výpočet cez všetkých 100 miliárd. To znamená:

Obrovskú spotrebu energie pri každom dotaze
Pomalšiu odozvu (inference)
Drahší hardvér na prevádzku

Čo keby existoval spôsob, ako mať veľký model, ale používať len jeho časť?

Princíp MoE: Špecializovaní experti

Mixture of Experts rieši tento problém elegantne. Namiesto jednej veľkej siete máme viacero menších sietí — takzvaných expertov — a router (tiež nazývaný gating network), ktorý rozhoduje, ktorý expert sa aktivuje.

Ako to funguje krok za krokom

Vstup prichádza — napríklad token z textu
Router analyzuje vstup a rozhodne, ktorí experti sú pre tento vstup najvhodnejší
Aktivujú sa len vybraní experti — typicky 2 z 8, alebo 8 z 64
Výstupy expertov sa skombinujú — váhovo podľa rozhodnutia routeru
Výsledok pokračuje ďalej v sieti

Kľúčový insight: nie všetci experti pracujú na každom tokene. Router sa naučí, že niektorí experti sú lepší na kód, iní na matematiku, ďalší na kreatívny text.

Sparse vs Dense: Čísla hovoria

Porovnajme si dva hypotetické modely:

Vlastnosť	Dense model	MoE model
Celkový počet parametrov	70B	140B
Aktívne parametre na token	70B	~25B
Kvalita výstupu	Dobrá	Porovnateľná alebo lepšia
Rýchlosť inference	Pomalšia	Rýchlejšia
Spotreba energie	Vyššia	Nižšia na token

MoE model môže mať dvojnásobok celkových parametrov, ale pri inferencii je rýchlejší, pretože aktivuje len zlomok z nich. Tomuto sa hovorí sparse model — „riedky" model.

História a evolúcia

Koncept MoE nie je nový. Pôvodný nápad pochádza z roku 1991, keď ho navrhli Robert Jacobs a Michael Jordan (nie ten basketbalista). Ale trvalo desaťročia, kým sa stal prakticky použiteľným:

1991 — Pôvodný paper o Mixture of Experts
2017 — Google publikuje Sparsely-Gated MoE pre jazykové modely
2022 — Google Switch Transformer ukazuje škálovanie na bilióny parametrov
2023 — Mixtral 8x7B od Mistral AI demokratizuje MoE pre open-source
2024-2025 — DeepSeek V3, Gemini a ďalšie modely stavajú na MoE ako na štandarde

Router: Mozog celej operácie

Router je najkritickejšia časť MoE architektúry. Jeho úloha znie jednoducho — vybrať správnych expertov — ale v praxi to prináša výzvy:

Load Balancing

Ak router posiela väčšinu tokenov jednému expertovi, ostatní sú nevyužití. To sa nazýva expert collapse. Riešenie? Auxiliary loss — pridaná penalizácia v tréningovej strate, ktorá núti router rozdeľovať prácu rovnomerne.

Top-K výber

Väčšina moderných MoE modelov používa Top-2 routing — pre každý token sa aktivujú dvaja najvhodnejší experti. DeepSeek V3 experimentoval s Top-8 z 256 expertov, čo ukazuje, že optimálny počet závisí od architektúry.

Expert paralelizmus

V distribuovanom tréningu sa každý expert môže umiestniť na iný GPU. Router potom musí efektívne smerovať tokeny cez sieť — čo pridáva komunikačnú réžiu, ale umožňuje trénovať modely, ktoré by sa na jeden GPU nezmestili.

Reálne príklady MoE modelov

Mixtral 8x7B (Mistral AI)

Jeden z prvých open-source MoE modelov. Má 8 expertov, každý veľkosti 7B parametrov, ale pri inferencii aktivuje len 2. Celkovo má ~47B parametrov, ale aktívnych je len ~13B. Výkonom konkuruje modelom s 70B parametrami.

DeepSeek V3

Čínsky model, ktorý šokoval svet svojou efektivitou. Používa 256 expertov s Top-8 routingom. Celkovo má stovky miliárd parametrov, ale jeho tréning stál údajne len zlomok toho, čo konkurencia.

Gemini (Google)

Google vo svojich Gemini modeloch využíva MoE architektúru na dosiahnutie vysokého výkonu pri kontrolovaných nákladoch na inference.

Výhody MoE

Efektivita: Viac znalostí za menej výpočtov
Škálovateľnosť: Pridanie expertov je jednoduchšie ako zväčšovanie dense modelu
Špecializácia: Experti sa prirodzene špecializujú na rôzne úlohy
Ekonomika: Nižšie náklady na inference pri porovnateľnej kvalite

Nevýhody a výzvy

Pamäťové nároky: Aj keď nie sú všetci experti aktívni, všetci musia byť v pamäti
Komunikačná réžia: V distribuovanom prostredí musí router posielať tokeny cez sieť
Nestabilita tréningu: Load balancing a routing pridávajú komplexitu
Zložitejšia kvantizácia: Kompresia MoE modelov je technicky náročnejšia

Budúcnosť MoE

MoE architektúra sa stáva de facto štandardom pre veľké jazykové modely. Trendy, ktoré pozorujeme:

Viac expertov, menší experti: Prechod od 8 veľkých k stovkám malých expertov
Hierarchické MoE: Experti organizovaní do vrstiev špecializácie
Dynamický routing: Prispôsobenie počtu aktívnych expertov podľa zložitosti vstupu
MoE pre iné domény: Rozširovanie princípu na generovanie obrazu, videa a zvuku

Prečo by ťa to malo zaujímať?

Ak používaš moderné AI nástroje, pravdepodobne už interaguješ s MoE modelom. Pochopenie tejto architektúry ti pomôže:

Pochopiť, prečo sú niektoré modely rýchlejšie napriek väčšiemu počtu parametrov
Vyhodnotiť nové modely nielen podľa veľkosti, ale aj podľa efektivity
Predvídať budúce trendy v AI priemysle

MoE nie je len technický detail — je to filozofia: nie všetko musíš vedieť naraz, stačí vedieť, koho sa opýtať. A to platí pre neurónové siete rovnako ako pre ľudí.