Mechanistická interpretabilita: Čo sa skrýva v neurónových sieťach

Mechanistická interpretabilita je výskumný smer, ktorý sa snaží pochopiť, čo presne sa deje vnútri neurónových sietí — nie len čo produkujú, ale prečo. V ére čoraz výkonnejších AI systémov ide o jednu z najdôležitejších vedeckých aj bezpečnostných výziev súčasnosti.

1. Čo je mechanistická interpretabilita

Moderné jazykové modely obsahujú miliardy parametrov — čísel, ktoré spoločne určujú ich správanie. Ale čo tieto čísla vlastne robia? Interpretabilita (alebo vysvetliteľnosť AI, angl. Explainable AI / XAI) sa snaží odpovedať práve na túto otázku.

Mechanistická interpretabilita ide ešte hlbšie: nechce len vedieť že model produkuje určitý výstup, chce pochopiť mechanizmus — konkrétne obvody, neurónové aktivácie a interné algoritmy, ktoré k tomuto výstupu vedú.

Kľúčové pojmy:

Neurón — základná výpočtová jednotka siete; aktivuje sa pri určitých vstupoch
Vlastnosť (feature) — koncept, ktorý sieť interne reprezentuje (napr. „Paríž", „mužskosť", „klamstvo")
Obvodová analýza (circuit analysis) — sledovanie, ako skupiny neurónov spolupracujú pri konkrétnej úlohe
Superpozícia (superposition) — jav, kedy jeden neurón kóduje viacero rôznych, nesúvisiacich konceptov naraz, čo analýzu komplikuje

2. Prečo to záleží práve teraz

Problém je principiálny: keď nevieme, čo model robí „vnútri", nevieme ani zaručiť, že bude správať sa bezpečne. Sieť môže mať vnútorné reprezentácie zodpovedajúce nebezpečným konceptom, pričom navonok vyzerá v poriadku. Bez interpretabilty sme pri bezpečnostnom audite odkázaní na testovanie správania — nie pochopenie príčiny.

Výskum mechanistickej interpretability má preto priamy dopad na niekoľko oblastí:

AI bezpečnosť — identifikácia potenciálne škodlivých vnútorných stavov ešte pred nasadením modelu
Debugovanie — pochopenie, prečo model zlyháva na konkrétnych vstupoch alebo prejavuje nechcené správanie
Regulácia a auditovateľnosť — regulátori aj firemní zákazníci čoraz častejšie vyžadujú pochopiteľné systémy, nie čierne skrinky
Základný výskum — budovanie skutočnej teórie toho, čo sa veľké modely naučili a akými algoritmami uvažujú

3. Hlavné metódy a kto ich rozvíja

Metóda	Čo skúma	Hlavní výskumníci
Probing	Trénuje malý klasifikátor na aktiváciách; testuje, čo vrstva „vie"	Široko, akademia
Activation Patching	Chirurgicky upravuje aktivácie a meria zmenu výstupu	Anthropic, EleutherAI
Sparse Autoencoders (SAE)	Rozkladá husté aktivácie na riedky súčet interpretovateľných vlastností	Anthropic, DeepMind
Logit Lens	Vizualizuje „priebežné predpovede" v každej vrstve transformera	EleutherAI
Circuit Analysis	Mapuje konkrétne podsiete zodpovedné za špecifické úlohy	Anthropic, MIT, Oxford
Attention Visualization	Sleduje, na ktoré tokeny sa vrstva pozornosti zameriava	Široko

Najsľubnejšou metódou v rokoch 2025–2026 sú Sparse Autoencoders (SAE): externé siete trénované tak, aby rozložili hustú aktiváciu skrytej vrstvy modelu na riedky súčet interpretovateľných vlastností. Výsledkom sú desiatky tisíc „ľudsky čitateľných" vlastností — každá zodpovedá nejakému konceptu, slovu, emócii alebo vzoru v dátach.

4. Konkrétne výsledky: Čo sme sa dozvedeli

Výskumníci z Anthropic v roku 2024 publikovali prácu Scaling Monosemanticity, v ktorej pomocou SAE identifikovali viac ako 34 miliónov vlastností v modeli Claude Sonnet. Výsledky boli prekvapivé:

Vlastnosť „Asistent" — aktívna pri všetkých situáciách, kde model vystupuje v pomocnej roli; jej umelé potlačenie mení charakter odpovedí
Vlastnosti zodpovedajúce krajinám, jazykom, historickým osobnostiam či abstraktným konceptom ako „oklamanie" alebo „strach"
Experiment „Golden Gate Claude": umelé posilnenie jedinej vlastnosti (Golden Gate Bridge) spôsobilo, že model o tomto moste hovoril pri každej príležitosti — vrátane otázok, ktoré s tým vôbec nesúviseli

Projekt Neuronpedia (neuronpedia.org) tieto výsledky zverejňuje pre open-source modely a umožňuje komunitné anotovanie vlastností.

Paralelne, DeepMind a tímy na MIT a Stanforde mapujú konkrétne algoritmy: napríklad dokázali, že malé modely pri sčítaní celých čísel používajú niečo štrukturálne podobné Fourierovej analýze — čistý matematický algoritmus zakódovaný v hmotnostiach siete.

5. Limity a otvorené otázky

Mechanistická interpretabilita je napriek rýchlemu pokroku stále v ranom štádiu. Čelí niekoľkým zásadným výzvam:

Škálovanie — väčšina presvedčivých výsledkov pochádza z malých modelov alebo izolovaných vrstiev. Aplikovanie rovnakých metód na modely s biliónom parametrov je výpočtovo a analyticky násobne náročnejšie.

Kauzalita verzus korelácia — identifikovať, že neurón „kóduje" určitý koncept, ešte neznamená, že ho kauzálne používa pri generovaní výstupu. Táto medzera je kľúčová pre bezpečnostné závery.

Superpozícia — neuróny bežne kódujú viacero nesúvisiacich konceptov súčasne. Dekódovanie týchto zmiešaných signálov je matematicky náročné a výsledky nie sú vždy jednoznačné.

Verifikácia — ako overíme, že naša interpretácia vlastnosti je správna? Neexistuje objektívny „ground truth". Čiastočným riešením je activation patching — ak predpokladaná vlastnosť naozaj spôsobuje správanie, jej umele potlačenie alebo posilnenie by malo správanie zmeniť predvídateľným spôsobom.

Vzdialený cieľ — najambicióznejšia vízia oblasti, úplné mechanistické pochopenie celého veľkého modelu, zostáva vzdialená. Ale čiastkové výsledky — pochopenie konkrétnych obvodov, detekcia rizikových vnútorných stavov, overovanie bezpečnostných vlastností — sú dosiahnuteľné a prinášajú reálnu hodnotu už dnes.

6. Activation patching v princípe

Najpriamejší test kauzality („naozaj táto vlastnosť spôsobuje správanie?") je chirurgicky zmeniť aktiváciu a sledovať dopad:

# zachyť aktiváciu na čistom vstupe, vlož ju do „pokazeného" behu
clean_act = run_with_cache(model, clean_prompt)[layer]

def patch(activation):
    activation[layer] = clean_act     # nahraď aktiváciu
    return activation

out = run_with_hook(model, corrupted_prompt, hook=patch)
# ak sa výstup posunie k „čistému", daná vrstva/feature je kauzálne dôležitá

To je rozdiel medzi „neurón koreluje s konceptom" a „neurón ho kauzálne používa".

7. Súvislosti

AI Alignment: interpretabilita je nástroj na detekciu klamlivého (deceptive) zarovnania.
Attention: vizualizácia pozornosti je jedna z metód analýzy obvodov.
Emergentné vlastnosti: pomáha pochopiť, čo presne sa „objaví" pri škálovaní.
Guardrails: dlhodobý cieľ je audit vnútorných stavov, nie len výstupov.

Zhrnutie: Mechanistická interpretabilita je most medzi výkonnosťou a dôveryhodnosťou AI — bez porozumenia vnútorným mechanizmom neurónových sietí nemôžeme plnohodnotne garantovať ich bezpečnosť ani predvídať ich správanie v nových situáciách. Výskum v tejto oblasti rastie rýchlo a jeho výsledky budú čoraz viac formovať, ako sa veľké modely auditujú, regulujú a nasadzujú.