Flash-MoE: Ako spustiť 397-miliardový AI model na bežnom notebooku

Jedným z najväčších obmedzení veľkých jazykových modelov (LLM) bola vždy pamäť. Model s 397 miliardami parametrov tradične vyžadoval serverovú farmu s desiatkami GPU. Flash-MoE tento predpoklad úplne prevracá — umožňuje bežať modelu Qwen3.5-397B na MacBooku Pro so 48 GB RAM rýchlosťou 4,4 tokenov za sekundu.

Čo je Mixture-of-Experts a prečo je kľúčové

Architektúra Mixture-of-Experts (MoE) je typ neurónového modelu, kde nie všetky parametre sú aktívne pri každom tokene. Model má stovky „expertov" — špecializovaných pod-sietí — ale pre každý token aktivuje len malú skupinu (typicky 4 z 512). To znamená, že aj keď model má 397 miliárd parametrov celkovo, pri spracovaní jedného tokenu pracuje len s asi 17 miliardami.

Táto vlastnosť je pre Flash-MoE kľúčová: ak nepotrebujeme všetkých expertov naraz, nemusíme ich mať všetkých v pamäti.

SSD ako rozšírená pamäť

Hlavná inovácia Flash-MoE je elegantne jednoduchá: namiesto načítania celého modelu do RAM streamuje váhy expertov priamo z SSD disku. Keď model potrebuje konkrétnych 4 expertov pre daný token, Flash-MoE ich načíta z NVMe SSD pomocou paralelných pread() volaní.

Moderné Apple SSD disky dosahujú sekvenčné čítanie 17,5 GB/s — dostatočne rýchle na to, aby expert s veľkosťou ~6,75 MB bol v pamäti takmer okamžite. Operačný systém navyše automaticky cachuje často používaných expertov vo voľnej RAM, čím sa celý proces ďalej zrýchľuje.

Tento prístup je inšpirovaný výskumným článkom Apple „LLM in a Flash" z roku 2024, ale Flash-MoE ho doviedol do praxe s produkčnou kvalitou.

Technická architektúra

Model Qwen3.5-397B-A17B má 60 transformerových vrstiev:

45 GatedDeltaNet vrstiev — používajú lineárnu pozornosť (linear attention), čo je výpočtovo efektívnejšie
15 štandardných vrstiev — plná self-attention pre zachovanie kvality
512 expertov na vrstvu, z ktorých sa aktivujú 4 + 1 zdieľaný expert

Flash-MoE je napísaný čisto v C a Objective-C s ručne optimalizovanými Metal shadermi pre GPU. Žiadny Python, žiadne frameworky ako PyTorch — len surový kód blízko hardvéru.

FMA-optimalizovaný dequantizačný kernel

Jednou z kľúčových optimalizácií je prepísanie vnútornej slučky maticového násobenia. Štandardný prístup:

výsledok = (nibble * scale + bias) * vstup

Flash-MoE to preusporiadava na:

výsledok = fma(nibble * vstup, scale, bias * vstup)

Funkcia fma (fused multiply-add) vykoná násobenie a sčítanie v jednej inštrukcii, čo na Apple Silicon GPU prináša merateľné zrýchlenie.

Kvantizácia: kompromis medzi veľkosťou a kvalitou

Flash-MoE ponúka dva režimy kvantizácie:

Konfigurácia	Veľkosť na disku	Tok/s	Kvalita
4-bit (produkčná)	209 GB	4,36	Výborná — plné tool calling
2-bit (experimentálna)	120 GB	5,74	Dobrá, ale rozbíja JSON výstup

Zaujímavé je, že 2-bitová kvantizácia produkuje \name\ namiesto "name" v JSON výstupe, čím sa stáva nepoužiteľnou pre funkcie vyžadujúce štruktúrovaný výstup. To ukazuje, ako aj malá strata presnosti môže mať veľké praktické dôsledky.

Prečo je to revolučné

Demokratizácia AI

Doteraz boli modely s viac ako 100 miliardami parametrov výhradnou doménou veľkých spoločností s cloudovou infraštruktúrou. Flash-MoE ukazuje, že s chytrým inžinierstvom môže 397B model bežať na zariadení za $3 000.

Súkromie a offline použitie

Keď model beží lokálne, žiadne dáta neopúšťajú zariadenie. To je kriticky dôležité pre firmy pracujúce s citlivými údajmi, zdravotnícke organizácie, právnické kancelárie a podobne.

Inšpirácia pre hardvérový dizajn

Flash-MoE dokazuje, že budúcnosť AI inference nemusí byť len o väčšej RAM. Rýchle úložiská (NVMe, CXL) môžu slúžiť ako efektívna náhrada, ak softvér dokáže inteligentne manažovať dáta.

Ako to súvisí s budúcnosťou

Trend lokálneho AI inference naberá na sile. Projekty ako llama.cpp, MLX od Apple a teraz Flash-MoE ukazujú jasnú cestu: veľké modely na malých zariadeniach. S každou generáciou SSD diskov (PCIe 5.0 prináša 14 GB/s+) a procesorov sa tento prístup bude ďalej zlepšovať.

Pre bežných vývojárov to znamená, že éra, kedy ste potrebovali API kľúč a cloudovú službu na prácu s top modelmi, sa pomaly končí. Flash-MoE nie je len technická ukážka — je to pohľad do budúcnosti, kde najsilnejšie AI modely bežia priamo na vašom stole.

Zhrnutie

Flash-MoE je projekt, ktorý pomocou SSD streamingu, 4-bitovej kvantizácie a Metal GPU optimalizácií umožňuje spustenie 397-miliardového MoE modelu na MacBooku so 48 GB RAM. Dosahuje 4,4 tokenov za sekundu s produkčnou kvalitou výstupu vrátane tool callingu. Representuje dôležitý míľnik v demokratizácii prístupu k veľkým AI modelom.