Mixture of Experts (MoE) — Architektúra, ktorá mení pravidlá hry

Keď sa pozrieš na najväčšie AI modely posledných rokov — DeepSeek, Gemini, Mixtral či GPT-4 — všetky majú jedno spoločné: využívajú architektúru Mixture of Experts (MoE). Táto technika umožňuje vytvárať obrovské modely, ktoré sú prekvapivo efektívne. Ale ako to vlastne funguje?

Problém s veľkými modelmi

Tradičné neurónové siete (takzvané dense modely) aktivujú pri každom vstupe všetky svoje parametre. Ak má model 100 miliárd parametrov, pri každom tokene sa vykoná výpočet cez všetkých 100 miliárd. To znamená:

  • Obrovskú spotrebu energie pri každom dotaze
  • Pomalšiu odozvu (inference)
  • Drahší hardvér na prevádzku

Čo keby existoval spôsob, ako mať veľký model, ale používať len jeho časť?

Princíp MoE: Špecializovaní experti

Mixture of Experts rieši tento problém elegantne. Namiesto jednej veľkej siete máme viacero menších sietí — takzvaných expertov — a router (tiež nazývaný gating network), ktorý rozhoduje, ktorý expert sa aktivuje.

Ako to funguje krok za krokom

  1. Vstup prichádza — napríklad token z textu
  2. Router analyzuje vstup a rozhodne, ktorí experti sú pre tento vstup najvhodnejší
  3. Aktivujú sa len vybraní experti — typicky 2 z 8, alebo 8 z 64
  4. Výstupy expertov sa skombinujú — váhovo podľa rozhodnutia routeru
  5. Výsledok pokračuje ďalej v sieti

Kľúčový insight: nie všetci experti pracujú na každom tokene. Router sa naučí, že niektorí experti sú lepší na kód, iní na matematiku, ďalší na kreatívny text.

Sparse vs Dense: Čísla hovoria

Porovnajme si dva hypotetické modely:

Vlastnosť Dense model MoE model
Celkový počet parametrov 70B 140B
Aktívne parametre na token 70B ~25B
Kvalita výstupu Dobrá Porovnateľná alebo lepšia
Rýchlosť inference Pomalšia Rýchlejšia
Spotreba energie Vyššia Nižšia na token

MoE model môže mať dvojnásobok celkových parametrov, ale pri inferencii je rýchlejší, pretože aktivuje len zlomok z nich. Tomuto sa hovorí sparse model — „riedky" model.

História a evolúcia

Koncept MoE nie je nový. Pôvodný nápad pochádza z roku 1991, keď ho navrhli Robert Jacobs a Michael Jordan (nie ten basketbalista). Ale trvalo desaťročia, kým sa stal prakticky použiteľným:

  • 1991 — Pôvodný paper o Mixture of Experts
  • 2017 — Google publikuje Sparsely-Gated MoE pre jazykové modely
  • 2022 — Google Switch Transformer ukazuje škálovanie na bilióny parametrov
  • 2023 — Mixtral 8x7B od Mistral AI demokratizuje MoE pre open-source
  • 2024-2025 — DeepSeek V3, Gemini a ďalšie modely stavajú na MoE ako na štandarde

Router: Mozog celej operácie

Router je najkritickejšia časť MoE architektúry. Jeho úloha znie jednoducho — vybrať správnych expertov — ale v praxi to prináša výzvy:

Load Balancing

Ak router posiela väčšinu tokenov jednému expertovi, ostatní sú nevyužití. To sa nazýva expert collapse. Riešenie? Auxiliary loss — pridaná penalizácia v tréningovej strate, ktorá núti router rozdeľovať prácu rovnomerne.

Top-K výber

Väčšina moderných MoE modelov používa Top-2 routing — pre každý token sa aktivujú dvaja najvhodnejší experti. DeepSeek V3 experimentoval s Top-8 z 256 expertov, čo ukazuje, že optimálny počet závisí od architektúry.

Expert paralelizmus

V distribuovanom tréningu sa každý expert môže umiestniť na iný GPU. Router potom musí efektívne smerovať tokeny cez sieť — čo pridáva komunikačnú réžiu, ale umožňuje trénovať modely, ktoré by sa na jeden GPU nezmestili.

Reálne príklady MoE modelov

Mixtral 8x7B (Mistral AI)

Jeden z prvých open-source MoE modelov. Má 8 expertov, každý veľkosti 7B parametrov, ale pri inferencii aktivuje len 2. Celkovo má ~47B parametrov, ale aktívnych je len ~13B. Výkonom konkuruje modelom s 70B parametrami.

DeepSeek V3

Čínsky model, ktorý šokoval svet svojou efektivitou. Používa 256 expertov s Top-8 routingom. Celkovo má stovky miliárd parametrov, ale jeho tréning stál údajne len zlomok toho, čo konkurencia.

Gemini (Google)

Google vo svojich Gemini modeloch využíva MoE architektúru na dosiahnutie vysokého výkonu pri kontrolovaných nákladoch na inference.

Výhody MoE

  1. Efektivita: Viac znalostí za menej výpočtov
  2. Škálovateľnosť: Pridanie expertov je jednoduchšie ako zväčšovanie dense modelu
  3. Špecializácia: Experti sa prirodzene špecializujú na rôzne úlohy
  4. Ekonomika: Nižšie náklady na inference pri porovnateľnej kvalite

Nevýhody a výzvy

  1. Pamäťové nároky: Aj keď nie sú všetci experti aktívni, všetci musia byť v pamäti
  2. Komunikačná réžia: V distribuovanom prostredí musí router posielať tokeny cez sieť
  3. Nestabilita tréningu: Load balancing a routing pridávajú komplexitu
  4. Zložitejšia kvantizácia: Kompresia MoE modelov je technicky náročnejšia

Budúcnosť MoE

MoE architektúra sa stáva de facto štandardom pre veľké jazykové modely. Trendy, ktoré pozorujeme:

  • Viac expertov, menší experti: Prechod od 8 veľkých k stovkám malých expertov
  • Hierarchické MoE: Experti organizovaní do vrstiev špecializácie
  • Dynamický routing: Prispôsobenie počtu aktívnych expertov podľa zložitosti vstupu
  • MoE pre iné domény: Rozširovanie princípu na generovanie obrazu, videa a zvuku

Prečo by ťa to malo zaujímať?

Ak používaš moderné AI nástroje, pravdepodobne už interaguješ s MoE modelom. Pochopenie tejto architektúry ti pomôže:

  • Pochopiť, prečo sú niektoré modely rýchlejšie napriek väčšiemu počtu parametrov
  • Vyhodnotiť nové modely nielen podľa veľkosti, ale aj podľa efektivity
  • Predvídať budúce trendy v AI priemysle

MoE nie je len technický detail — je to filozofia: nie všetko musíš vedieť naraz, stačí vedieť, koho sa opýtať. A to platí pre neurónové siete rovnako ako pre ľudí.