Sparse Autoencoders: Röntgen pre neurónové siete

Sparse Autoencoders (SAE) sú technika, ktorá umožňuje vedcom doslova nahliadnuť do vnútra neurónových sietí — identifikovať, ktoré „pojmy" model interne reprezentuje a ako ich kombinuje pri generovaní odpovede.


1. Prečo potrebujeme SAE?

Moderné jazykové modely ako Claude alebo GPT-5 majú desiatky miliárd parametrov. Každá vrstva transformera pracuje s vektormi aktivácií — číselnými reprezentáciami toho, čo model „vidí" a „myslí" v danom momente. Problém je, že tieto vektory sú pre ľudí takmer nečitateľné.

Vedci z oblasti mechanistickej interpretability narážali roky na základný jav: superpozíciu. Model ukladá viac konceptov do jedného neuróna zároveň — ako keď fyzik zistí, že jedno pole opisuje viacero javov súčasne. Výsledok: jeden neurón reaguje na „kráľovná", „žena v moci" aj „vladárka" — nie preto, že je špecializovaný, ale preto, že nemá dostatok miesta.

Sparse Autoencoders tento problém riešia tým, že aktivácie „rozbalujú" do väčšieho priestoru, kde každý smer zodpovedá jednému zrozumiteľnému konceptu.

Kľúčové pojmy:

  • Superpozícia — jeden neurón nesie viacero konceptov súčasne
  • Feature — izolovaný smer v priestore aktivácií zodpovedajúci jednému konceptu
  • Sparsity — v danom okamžiku je aktívna len malá časť features naraz

2. Ako SAE funguje

SAE je špeciálna neurónová sieť trénovaná na vrchole existujúceho modelu — nie namiesto neho. Celý princíp je dvojkrokový:

Krok 1 — Encoder (rozbalenie) Aktivačný vektor z vrstvy transformera (napr. 4 096-dimenzionálny) sa premapuje do omnoho väčšieho priestoru (napr. 32 768 dimenzií). Každá dimenzia tu zodpovedá potenciálnemu „feature" — konceptu, vzoru alebo pravidlu.

Krok 2 — Decoder (rekonštrukcia) SAE sa snaží pôvodnú aktiváciu zrekonštruovať späť z rozbalených features. Kľúčové obmedzenie: väčšina features musí byť nula (sparsity). Sieť sa tak učí používať čo najmenej, ale čo najzmysluplnejšie dimenzie.

Trénovacia strata kombinuje dve zložky:

  • Rekonštrukčnú chybu — ako dobre sa aktivácia zrekonštruuje späť
  • L1 penalizáciu — trest za príliš veľa aktívnych features naraz

Po tréningu každá aktívna dimenzia zodpovedá niečomu interpretovateľnému. Vedci môžu skúmať, ktoré vstupy daný feature aktivujú, a pomenovať ho: „biblické citáty", „Python chyby", „pocit strachu" alebo „vlastné mená miest v Ázii".

3. SAE vs. iné metódy interpretability

Metóda Čo skúma Výhody Nevýhody
Sparse Autoencoders Aktivačné features vo vrstvách Škálovateľné, automatizované Vysoké náklady na tréning
Aktivačné patching Príčinnosť medzi vrstvami Priama kauzálna analýza Pomalé, prevažne manuálne
Attention vizualizácia Kde sa model „pozerá" Intuitívne pre ľudí Nemusí zodpovedať skutočnej kauzalite
Probing classifiers Lineárne decodovanie konceptov Jednoduché na implementáciu Len detekuje, nevysvetľuje mechanizmus
Activation steering Priama editácia vnútorného stavu Interaktívne testovanie hypotéz Nestabilné pri väčších zmenách

SAE vyniká kombináciou škálovateľnosti a bohatosti objavených features — preto sa stala štandardným nástrojom moderného interpretability výskumu.

4. Čo sme pomocou SAE objavili

Výskum s SAE, predovšetkým od Anthropicu (projekt Scaling Monosemanticity, 2024) a EleutherAI, priniesol niekoľko prelomových zistení:

Features so zrozumiteľnou sémantikou: Modely interne reprezentujú koncepty ako „podvádzanie", „emócia strachu" alebo „mocenský vzťah" — tieto abstrakcie existujú aj vtedy, keď ich nikto model explicitne nenaučil. Jeden token môže aktivovať tisíce features súčasne, každý s inou funkciou.

Bezpečnostné implikácie: Vedci objavili features zodpovedajúce za stavy ako „model chce odmietnuť požiadavku" alebo „asistent pociťuje konfliktnú situáciu". To naznačuje, že správanie AI je interne štruktúrované spôsobmi mapovateľnými na ľudsky zrozumiteľné pojmy — čo otvára cestu k ich priamej kontrole.

Steering pomocou features: Keď výskumníci umelo zvýšili aktiváciu konkrétneho feature (napr. „Eiffelova veža"), model začal vnímať Paríž ako tému konverzácie — hoci to nikto nenapísal. Priamy dôkaz, že features skutočne riadia generovanie.

Hierarchická štruktúra: Neskoršie vrstvy transformera obsahujú abstraktnejšie features (vzťahy, koncepty), zatiaľ čo skoršie vrstvy zachytávajú nižšie vzory (syntax, čísla, konkrétne znaky).

5. Limity a čo nás čaká

Napriek sľubným výsledkom majú SAE reálne obmedzenia, ktoré výskum aktívne rieši:

Technické limity:

  • Compute náklady — tréning SAE na veľkom modeli (70B+) vyžaduje stovky GPU hodín a veľké množstvo uložených aktivácií
  • Neúplnosť — SAE nikdy nevysvetlia 100 % variácie aktivácií; časť informácie zostáva v pozadí
  • Interakcie medzi features — zatiaľ nevieme dobre opísať, ako features spolupracujú naprieč vrstvami

Interpretačné riziká:

  • Názvy features dávajú ľudia — a môžu sa mýliť. „Feature B723" môže byť označený ako „agresivita", no aktivovať aj neutrálne kontexty
  • Ilúzia porozumenia — poznanie features ≠ porozumenie celého rozhodovacieho procesu; model môže robiť správne veci zo zlých dôvodov

Výhľad 2026–2027:

  • SAE na multimodálnych modeloch (obraz + text + zvuk zároveň)
  • Automatická anotácia features slabším modelom — tzv. meta-interpretácia bez ľudskej práce
  • Integrácia do samotného tréningového procesu, kde SAE formujú features priamo, nie len analyzujú ich post hoc

Zhrnutie: Sparse Autoencoders sú dnes najprecíznejší nástroj na dešifrovanie vnútorného jazyka neurónových sietí — menia interpretability z filozofického projektu na inžiniersku disciplínu s priamym dopadom na bezpečnostné stratégie popredných AI laboratórií.